jiaau

ao jia jiaau

Achievements

zhihu/ZhiLight zhihu/ZhiLight Public

A highly optimized LLM inference acceleration engine for Llama and its variants.

C++ 900 103
NVIDIA/cutlass NVIDIA/cutlass Public

CUDA Templates for Linear Algebra Subroutines

C++ 8.5k 1.5k
xlite-dev/LeetCUDA xlite-dev/LeetCUDA Public

📚LeetCUDA: Modern CUDA Learn Notes with PyTorch for Beginners🐑, 200+ CUDA Kernels, Tensor Cores, HGEMM, FA-2 MMA.🎉

Cuda 7.9k 782
kernels kernels Public

This repository showcases common optimization techniques for kernels.

Cuda
nano-vllm nano-vllm Public

Forked from GeeeekExplorer/nano-vllm

Nano vLLM

Python