Skip to content

sihyeong/Awesome-LLM-Inference-Engine

Folders and files

NameName
Last commit message
Last commit date

Latest commit

ย 

History

36 Commits
ย 
ย 
ย 
ย 
ย 
ย 

Repository files navigation

Awesome-LLM-Inference-Engine

Awesome-LLM-Inference-Engine-Banner

Welcome to the Awesome-LLM-Inference-Engine repository!

A curated list of LLM inference engines, system architectures, and optimization techniques for efficient large language model serving. This repository complements our survey paper analyzing 25 inference engines, both open-source and commercial. It aims to provide practical insights for researchers, system designers, and engineers building LLM inference infrastructure.

Our work is based on the following paper: Survey on Inference Engines for Large Language Models: Perspectives on Optimization and Efficiency

๐Ÿ—‚ Table of Contents


๐Ÿง  Overview

LLM services are evolving rapidly to support complex tasks such as chain-of-thought (CoT), reasoning, AI Agent workflows. These workloads significantly increase inference cost and system complexity.

This repository categorizes and compares LLM inference engines by:

  • ๐Ÿ–ง Deployment type (single-node vs multi-node)
  • โš™๏ธ Hardware diversity (homogeneous vs heterogeneous)

๐Ÿ“Š Taxonomy

We classify LLM inference engines along the following dimensions:

  • ๐Ÿง‘โ€๐Ÿ’ป Ease-of-Use: Assesses documentation quality and community activity. Higher scores indicate better developer experience and community support.
  • โš™๏ธ Ease-of-Deployment: Measures the simplicity and speed of installation using tools like pip, APT, Homebrew, Conda, Docker, source builds, or prebuilt binaries.
  • ๐ŸŒ General-purpose support: Reflects the range of supported LLM models and hardware platforms. Higher values indicate broader compatibility across diverse model families and execution environments.
  • ๐Ÿ— Scalability: Indicates the engineโ€™s ability to operate effectively across edge devices, servers, and multi-node deployments. Higher scores denote readiness for large-scale or distributed workloads.
  • ๐Ÿ“ˆ Throughput-aware: Captures the presence of optimization techniques focused on maximizing throughput, such as continuous batching, parallelism, and cache reuse.
  • โšก Latency-aware: Captures support for techniques targeting low latency, including stall-free scheduling, chunked prefill, and priority-aware execution.

๐Ÿ”“ Open Source Inference Engines

๐Ÿ’ผ Commercial Inference Engines

๐Ÿ“‹ Overview of LLM Inference Engines

The following table compares 25 open-source and commercial LLM inference engines along multiple dimensions including organization, release status, GitHub trends, documentation maturity, model support, and community presence.

Framework Organization Release Date Open Source GitHub Stars Docs SNS Forum Meetup
Ollama Community (Ollama) Jun. 2023 โœ… 136K ๐ŸŸ  โœ… โŒ โœ…
llama.cpp Community (ggml.ai) Mar. 2023 โœ… 77.6K ๐ŸŸก โŒ โŒ โŒ
vLLM Academic (vLLM Team) Feb. 2023 โœ… 43.4K โœ… โœ… โœ… โœ…
DeepSpeed-FastGen Big Tech (Microsoft) Nov. 2023 โœ… 37.7K โœ… โŒ โŒ โœ…
Unsloth Startup (Unsloth AI) Nov. 2023 ๐Ÿ”ท 36.5K ๐ŸŸก โœ… โœ… โŒ
MAX Startup (Modular Inc.) Apr. 2023 ๐Ÿ”ท 23.8K ๐ŸŸ  โœ… โœ… โœ…
MLC LLM Community (MLC-AI) Apr. 2023 โœ… 20.3K ๐ŸŸ  โœ… โŒ โŒ
llama2.c Community (Andrej Karpathy) Jul. 2023 โœ… 18.3K โŒ โœ… โŒ โŒ
bitnet.cpp Big Tech (Microsoft) Oct. 2024 โœ… 13.6K โŒ โŒ โŒ โŒ
SGLang Academic (SGLang Team) Jan. 2024 โœ… 12.8K ๐ŸŸ  โœ… โŒ โœ…
LitGPT Startup (Lightning AI) Jun. 2024 โœ… 12.0K ๐ŸŸก โœ… โŒ โœ…
OpenLLM Startup (BentoML) Apr. 2023 ๐Ÿ”ท 11.1K โŒ โœ… โŒ โŒ
TensorRT-LLM Big Tech (NVIDIA) Aug. 2023 ๐Ÿ”ท 10.1K โœ… โŒ โœ… โœ…
TGI Startup (Hugging Face) Oct. 2022 โœ… 10.0K ๐ŸŸ  โŒ โœ… โŒ
PowerInfer Academic (SJTU-IPADS) Dec. 2023 โœ… 8.2K โŒ โŒ โŒ โŒ
LMDeploy Startup (MMDeploy) Jun. 2023 โœ… 6.0K ๐ŸŸ  โœ… โŒ โŒ
LightLLM Academic (Lightllm Team) Jul. 2023 โœ… 3.1K ๐ŸŸ  โœ… โŒ โŒ
NanoFlow Academic (UW Efeslab) Aug. 2024 โœ… 0.7K โŒ โŒ โŒ โŒ
DistServe Academic (PKU) Jan. 2024 โœ… 0.5K โŒ โŒ โŒ โŒ
vAttention Big Tech (Microsoft) May. 2024 โœ… 0.3K โŒ โŒ โŒ โŒ
Sarathi-Serve Big Tech (Microsoft) Nov. 2023 โœ… 0.3K โŒ โŒ โŒ โŒ
Friendli Inference Startup (FriendliAI Inc.) Nov. 2023 โŒ -- ๐ŸŸก โŒ โŒ โœ…
Fireworks AI Startup (Fireworks AI Inc.) Jul. 2023 โŒ -- ๐ŸŸก โœ… โŒ โŒ
GroqCloud Startup (Groq Inc.) Feb. 2024 โŒ -- โŒ โœ… โŒ โœ…
Together Inference Startup (together.ai) Nov. 2023 โŒ -- ๐ŸŸก โœ… โŒ โŒ

Legend:

  • Open Source: โœ… = yes, ๐Ÿ”ท = partial, โŒ = closed
  • Docs: โœ… = detailed, ๐ŸŸ  = moderate, ๐ŸŸก = simple, โŒ = missing
  • SNS / Forum / Meetup: presence of Discord/Slack, forum, or events

๐Ÿ›  Optimization Techniques

We classify LLM inference optimization techniques into several major categories based on their target performance metrics, including latency, throughput, memory, and scalability. Each category includes representative methods and corresponding research publications.

๐Ÿงฉ Batch Optimization

Technique Description References
Dynamic Batching Collects user requests over a short time window to process them together, improving hardware efficiency Crankshaw et al. (2017), Ali et al. (2020)
Continuous Batching Forms batches incrementally based on arrival time to minimize latency Yu et al. (2022), He et al. (2024)
Nano Batching Extremely fine-grained batching for ultra-low latency inference Zhu et al. (2024)
Chunked-prefills Splits prefill into chunks for parallel decoding Agrawal et al. (2023)

๐Ÿ•ธ Parallelism

Technique Description References
Data Parallelism (DP) Copies the same model to multiple GPUs and splits input data for parallel execution Rajbhandari et al. (2020)
Fully Shared Data Parallelism (FSDP) Shards model parameters across GPUs for memory-efficient training Zhao et al. (2023)
Tensor Parallelism (TP) Splits model tensors across devices for parallel computation Stojkovic et al. (2024), Prabhakar et al. (2024)
Pipeline Parallelism (PP) Divides model layers across devices and executes micro-batches sequentially Agrawal et al. (2023), Hu et al. (2021), Ma et al. (2024), Yu et al. (2024)

๐Ÿ“ฆ Compression

Quantization

Technique Description References
PTQ Applies quantization after training Li et al. (2023)
QAT Retrains with quantization awareness Chen et al. (2024), Liu et al. (2023)
AQLM Maintains performance at extremely low precision Egiazarian et al. (2024)
SmoothQuant Uses scale folding for normalization Xiao et al. (2023)
KV Cache Quantization Quantizes KV cache to reduce memory usage Hooper et al. (2024), Liu et al. (2024)
EXL2 Implements efficient quantization format EXL2
EETQ Inference-friendly quantization method EETQ
LLM Compressor Unified framework for quantization and pruning LLM Compressor
GPTQ Hessian-aware quantization minimizing accuracy loss Frantar et al. (2022)
Marlin Fused quantization kernels for performance Frantar et al. (2025)
Microscaling Format Compact format for fine-grained quantization Rouhani et al. (2023)

Pruning

Technique Description References
cuSPARSE NVIDIA-optimized sparse matrix library NVIDIA cuSPARSE
Wanda Importance-based weight pruning Sun et al. (2023)
Mini-GPTs Efficient inference with reduced compute Valicenti et al. (2023)
Token pruning Skips decoding of unimportant tokens Fu et al. (2024)
Post-Training Pruning Prunes weights based on importance after training Zhao et al. (2024)

Sparsity Optimization

Technique Description References
Structured Sparsity Removes weights in fixed patterns Zheng et al. (2024), Dong et al. (2023)
Dynamic Sparsity Applies sparsity dynamically at runtime Zhang et al. (2023)
Kernel-level Sparsity Optimizations at CUDA kernel level Xia et al. (2023), Borstnik et al. (2014), xFormers (2022), Xiang et al. (2025)
Block Sparsity Removes weights in block structures Gao et al. (2024)
N:M Sparsity Maintains sparsity in fixed N:M ratios Zhang et al. (2022)
MoE / Sparse MoE Activates only a subset of experts Cai et al. (2024), Fedus et al. (2022), Du et al. (2022)
Dynamic Token Sparsity Prunes tokens based on dynamic importance Yang et al. (2024), Fu et al. (2024)
Contextual Sparsity Applies sparsity based on context Liu et al. (2023), Akhauri et al. (2024)

๐Ÿ›  Fine-Tuning

Technique Description References
Full-Parameter Tuning Updates all model parameters Lv et al. (2023)
LoRA Injects low-rank matrices for efficient updates Hu et al. (2022), Sheng et al. (2023)
QLoRA Combines LoRA with quantized weights Dettmers et al. (2023), Zhang et al. (2023)

๐Ÿ’พ Caching

Technique Description References
Prompt Caching Caches responses to identical prompts Zhu et al. (2024)
Prefix Caching Reuses common prefix computations Liu et al. (2024), Pan et al. (2024)
KV Caching Stores KV pairs for reuse in decoding Pope et al. (2023)

๐Ÿ” Attention Optimization

Technique Description References
PagedAttention Partitions KV cache into memory-efficient pages Kwon et al. (2023)
TokenAttention Selects tokens dynamically for attention LightLLM
ChunkedAttention Divides attention into chunks for better scheduling Ye et al. (2024)
FlashAttention High-speed kernel for attention Dao et al. (2022),Dao et al. (2023), Shah et al. (2024)
RadixAttention Merges tokens to reuse KV cache Zheng et al. (2024)
FlexAttention Configurable attention via DSL Dong et al. (2024)
FireAttention Optimized for MQA and fused heads Fireworks AI

๐ŸŽฒ Sampling Optimization

Technique Description References
EAGLE Multi-token speculative decoding Li et al. (2024a), Li et al. (2024b), Li et al. (2025)
Medusa Tree-based multi-head decoding Cai et al. (2024)
ReDrafter Regenerates output based on long-range context Cheng et al. (2024)

๐Ÿงพ Structured Outputs

Technique Description References
FSM / CFG Rule-based decoding constraints Willard et al. (2023), Geng et al. (2023), Barke et al. (2024)
Outlines / XGrammar Token-level structural constraints Wilard et al. (2023), Dong et al. (2024)
LM Format Enforcer Enforces output to follow JSON schemas LM Format Enforcer
llguidance / GBNF Lightweight grammar-based decoding GBNF, llguidance
OpenAI Structured Outputs API-supported structured outputs OpenAI
JSONSchemaBench Benchmark for structured decoding Geng et al. (2025)
StructTest / SoEval Tools for structured output validation Chen et al. (2024), Liu et al. (2024)

๐Ÿ“š Comparison Table

โš ๏ธ Due to GitHub Markdown limitations, only a summarized Markdown version is available here. Please refer to the LaTeX version in the survey paper for full detail.

๐Ÿ’ป Hardware Support Matrix

Framework Linux Windows macOS Web/API x86-64 ARM64/Apple Silicon NVIDIA GPU (CUDA) AMD GPU (ROCm/HIP) Intel GPU (SYCL) Google TPU AMD Instinct Intel Gaudi Huawei Ascend AWS Inferentia Mobile / Edge ETC
Ollama โœ… โœ… โœ… โŒ โœ… โœ… โœ… โœ… โœ… โŒ โœ… โŒ โŒ โŒ โœ… (NVIDIA Jetson) โŒ
LLaMA.cpp โœ… โœ… โœ… โŒ โœ… โœ… โœ… โœ… โœ… โŒ โœ… โŒ โœ… โŒ โœ… (Qualcomm Adreno) Moore Threads MTT
vLLM โœ… โŒ โŒ โŒ โœ… โœ… โœ… โœ… โœ… โœ… โœ… โœ… โœ… โœ… โœ… (NVIDIA Jetson) โŒ
DeepSpeed-FastGen โœ… โœ… โŒ โŒ โœ… โŒ โœ… โŒ โœ… โŒ โœ… โœ… โœ… โŒ โŒ Tecorigin SDAA
unsloth โœ… โœ… โŒ โŒ โœ… โŒ โœ… โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ
MAX โœ… โœ… โœ… โŒ โœ… โœ… โœ… โœ… โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ
MLC-LLM โœ… โœ… โœ… โŒ โœ… โœ… โœ… โœ… โœ… โŒ โŒ โŒ โŒ โŒ โœ… (Qualcomm Adreno, ARM Mali, Apple) โŒ
llama2.c โœ… โœ… โœ… โŒ โœ… โœ… โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ
bitnet.cpp โœ… โœ… โœ… โŒ โœ… โœ… โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ
SGLang โœ… โŒ โŒ โŒ โœ… โŒ โœ… โŒ โœ… โŒ โœ… โœ… โŒ โŒ โœ… (NVIDIA Jetson) โŒ
LitGPT โœ… โŒ โœ… โŒ โœ… โŒ โœ… โŒ โŒ โœ… โœ… โŒ โŒ โŒ โŒ โŒ
OpenLLM โœ… โŒ โŒ โŒ โŒ โŒ โœ… โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ
TensorRT-LLM โœ… โœ… โŒ โŒ โŒ โŒ โœ… โŒ โŒ โŒ โŒ โŒ โŒ โŒ โœ… (NVIDIA Jetson) โŒ
TGI โœ… โŒ โŒ โŒ โœ… โœ… โœ… โŒ โœ… โœ… โœ… โœ… โŒ โœ… โŒ โŒ
PowerInfer โœ… โœ… โœ… โŒ โœ… โœ… โœ… โœ… โŒ โŒ โŒ โŒ โŒ โŒ โœ… (Qualcomm Snapdragon 8) โŒ
LMDeploy โœ… โœ… โŒ โŒ โœ… โŒ โœ… โŒ โŒ โŒ โŒ โŒ โœ… โŒ โœ… (NVIDIA Jetson) โŒ
LightLLM โœ… โŒ โŒ โŒ โœ… โŒ โœ… โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ
NanoFlow โœ… โŒ โŒ โŒ โœ… โŒ โœ… โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ
DistServe โœ… โŒ โŒ โŒ โŒ โŒ โœ… โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ
vAttention โœ… โŒ โŒ โŒ โœ… โŒ โœ… โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ
Sarathi-Serve โœ… โŒ โŒ โŒ โŒ โŒ โœ… โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ
Friendli Inference โŒ โŒ โŒ โœ… โŒ โŒ โœ… โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ
Fireworks AI โŒ โŒ โŒ โœ… โŒ โŒ โœ… โŒ โŒ โŒ โœ… โŒ โŒ โŒ โŒ โŒ
GroqCloud โŒ โŒ โŒ โœ… โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ Groq LPU
Together Inference โŒ โŒ โŒ โœ… โŒ โŒ โœ… โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ

๐Ÿงญ Deployment Scalability vs. Hardware Diversity

๐Ÿงฉ Heterogeneous Devices โš™๏ธ Homogeneous Devices
๐Ÿ–ฅ Single-Node llama.cpp, MAX, MLC LLM, Ollama, PowerInfer, TGI bitnet.cpp, LightLLM, llama2.c, NanoFlow, OpenLLM, Sarathi-Serve, Unsloth, vAttention, Friendli Inference
๐Ÿ–ง Multi-Node DeepSpeed-FastGen, LitGPT, LMDeploy, SGLang, vLLM, Fireworks AI, Together Inference DistServe, TensorRT-LLM, GroqCloud

Legend:

  • ๐Ÿ–ฅ Single-Node: Designed for single-device execution
  • ๐Ÿ–ง Multi-Node: Supports distributed or multi-host serving
  • ๐Ÿงฉ Heterogeneous Devices: Supports diverse hardware (CPU, GPU, accelerators)
  • โš™๏ธ Homogeneous Devices: Optimized for a single hardware class

๐Ÿ“Œ Optimization Coverage Matrix

Framework Dynamic Batching Continuous Batching Nano Batching Chunked-prefills Data Parallelism FSDP Tensor Parallelism Pipeline Parallelism Quantization Pruning Sparsity LoRA Prompt Caching Prefix Caching KV Caching PagedAttention vAttention FlashAttention RadixAttention FlexAttention FireAttention Speculative Decoding Guided Decoding
Ollama โŒ โŒ โŒ โŒ โŒ โŒ โœ… โœ… โœ… โœ… โœ… โœ… โœ… โŒ โœ… โŒ โŒ โœ… โŒ โŒ โŒ โœ… โœ…
LLaMA.cpp โŒ โœ… โŒ โŒ โŒ โŒ โœ… โœ… โœ… โŒ โœ… โœ… โœ… โŒ โœ… โŒ โŒ โœ… โŒ โŒ โŒ โœ… โœ…
vLLM โŒ โœ… โŒ โœ… โœ… โœ… โœ… โœ… โœ… โœ… โœ… โœ… โŒ โœ… โœ… โœ… โŒ โœ… โŒ โŒ โŒ โœ… โœ…
DeepSpeed-FastGen โŒ โœ… โŒ โœ… โœ… โœ… โœ… โœ… โœ… โœ… โœ… โœ… โŒ โŒ โœ… โœ… โŒ โœ… โŒ โŒ โŒ โŒ โŒ
unsloth โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ โœ… โŒ โŒ โœ… โŒ โŒ โœ… โŒ โŒ โœ… โŒ โœ… โŒ โŒ โŒ
MAX โŒ โœ… โŒ โœ… โŒ โŒ โœ… โŒ โœ… โŒ โœ… โœ… โŒ โœ… โœ… โœ… โŒ โœ… โŒ โŒ โŒ โœ… โœ…
MLC-LLM โŒ โœ… โŒ โœ… โŒ โŒ โœ… โœ… โœ… โŒ โœ… โŒ โŒ โœ… โœ… โœ… โŒ โŒ โŒ โŒ โŒ โœ… โœ…
llama2.c โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ โœ… โŒ โŒ โŒ โŒ โŒ โœ… โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ
bitnet.cpp โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ โœ… โŒ โœ… โŒ โŒ โŒ โœ… โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ
SGLang โŒ โœ… โŒ โœ… โœ… โœ… โœ… โŒ โœ… โœ… โœ… โœ… โŒ โœ… โœ… โœ… โŒ โŒ โœ… โŒ โœ… โœ… โœ…
LitGPT โŒ โœ… โŒ โŒ โœ… โœ… โœ… โŒ โœ… โŒ โœ… โœ… โŒ โŒ โœ… โŒ โŒ โœ… โŒ โŒ โŒ โœ… โŒ
OpenLLM โŒ โœ… โŒ โŒ โœ… โŒ โŒ โŒ โœ… โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ
TensorRT-LLM โœ… โœ… โŒ โœ… โœ… โŒ โœ… โœ… โœ… โœ… โœ… โœ… โœ… โŒ โœ… โœ… โŒ โŒ โŒ โŒ โœ… โœ… โœ…
TGI โŒ โœ… โŒ โŒ โŒ โŒ โœ… โŒ โœ… โœ… โœ… โœ… โŒ โœ… โœ… โœ… โŒ โœ… โŒ โŒ โœ… โœ… โœ…
PowerInfer โŒ โœ… โŒ โŒ โœ… โŒ โŒ โœ… โœ… โŒ โœ… โœ… โŒ โœ… โŒ โŒ โœ… โŒ โŒ โŒ โœ… โœ… โœ…
LMDeploy โŒ โœ… โŒ โœ… โŒ โŒ โœ… โŒ โœ… โœ… โœ… โœ… โŒ โœ… โœ… โœ… โŒ โŒ โŒ โŒ โŒ โœ… โœ…
LightLLM โœ… โŒ โŒ โœ… โŒ โŒ โœ… โŒ โœ… โŒ โœ… โŒ โœ… โŒ โœ… โŒ โŒ โœ… โŒ โŒ โŒ โœ… โœ…
NanoFlow โŒ โœ… โœ… โœ… โœ… โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ โœ… โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ
DistServe โœ… โœ… โŒ โœ… โŒ โŒ โœ… โœ… โŒ โŒ โŒ โŒ โŒ โœ… โœ… โŒ โœ… โŒ โŒ โŒ โŒ โŒ โŒ
vAttention โŒ โœ… โŒ โŒ โœ… โŒ โœ… โœ… โœ… โœ… โœ… โœ… โŒ โŒ โœ… โœ… โœ… โœ… โŒ โŒ โŒ โŒ โŒ
Sarathi-Serve โŒ โŒ โŒ โœ… โŒ โŒ โœ… โœ… โŒ โŒ โœ… โŒ โŒ โœ… โœ… โœ… โŒ โœ… โŒ โŒ โŒ โŒ โŒ
Friendli Inference - โœ… - - - - โœ… โœ… โœ… - โœ… โœ… - - - - โŒ - - โŒ โœ… โœ… โœ…
Fireworks AI - โœ… - - - - - - โœ… โœ… โœ… โœ… โœ… - โœ… - โŒ - - โŒ โœ… โœ… โœ…
GroqCloud - - - - โœ… - โœ… โœ… โœ… โœ… โœ… - - - - - โŒ - - โŒ โœ… โœ… โœ…
Together Inference - - - - - โœ… - - โœ… - โœ… โœ… โœ… - - - โŒ โœ… - โŒ โœ… โœ… โœ…

๐Ÿงฎ Numeric Precision Support Matrix

Framework FP32 FP16 FP8 FP4 NF4 BF16 INT8 INT4 MXFP8 MXFP6 MXFP4 MXINT8
Ollama โœ… โœ… โœ… โŒ โŒ โœ… โœ… โŒ โŒ โŒ โŒ โŒ
LLaMA.cpp โœ… โœ… โŒ โŒ โŒ โŒ โœ… โœ… โŒ โŒ โŒ โŒ
vLLM โœ… โœ… โœ… โœ… โœ… โœ… โœ… โœ… โŒ โŒ โŒ โŒ
DeepSpeed-FastGen โœ… โœ… โŒ โœ… โŒ โŒ โœ… โœ… โŒ โŒ โŒ โŒ
unsloth โœ… โœ… โœ… โŒ โœ… โœ… โœ… โœ… โŒ โŒ โŒ โŒ
MAX โœ… โœ… โœ… โŒ โŒ โœ… โœ… โŒ โŒ โŒ โŒ โŒ
MLC-LLM โœ… โœ… โœ… โŒ โŒ โŒ โœ… โœ… โŒ โŒ โŒ โŒ
llama2.c โœ… โŒ โŒ โŒ โŒ โŒ โœ… โŒ โŒ โŒ โŒ โŒ
bitnet.cpp โœ… โœ… โŒ โŒ โŒ โœ… โœ… โŒ โŒ โŒ โŒ โŒ
SGLang โœ… โœ… โœ… โœ… โœ… โœ… โœ… โœ… โŒ โŒ โŒ โŒ
LitGPT โœ… โœ… โŒ โœ… โœ… โŒ โœ… โŒ โŒ โŒ โŒ โŒ
OpenLLM โœ… โœ… โŒ โŒ โŒ โŒ โœ… โŒ โŒ โŒ โŒ โŒ
TensorRT-LLM โœ… โœ… โœ… โœ… โŒ โœ… โœ… โœ… โœ… โŒ โœ… โŒ
TGI โœ… โœ… โœ… โœ… โœ… โœ… โŒ โŒ โŒ โŒ โŒ โŒ
PowerInfer โœ… โœ… โŒ โŒ โŒ โœ… โœ… โœ… โŒ โŒ โŒ โŒ
LMDeploy โœ… โœ… โœ… โŒ โŒ โœ… โœ… โœ… โŒ โŒ โŒ โŒ
LightLLM โœ… โœ… โŒ โŒ โŒ โœ… โœ… โŒ โŒ โŒ โŒ โŒ
NanoFlow โŒ โœ… โŒ โŒ โŒ โœ… โŒ โŒ โŒ โŒ โŒ โŒ
DistServe โœ… โœ… โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ
vAttention โœ… โœ… โœ… โŒ โŒ โœ… โœ… โœ… โŒ โŒ โŒ โŒ
Sarathi-Serve โœ… โœ… โŒ โŒ โŒ โœ… โŒ โŒ โŒ โŒ โŒ โŒ
Friendli Inference โœ… โœ… โœ… โŒ โŒ โœ… โœ… โœ… โŒ โŒ โŒ โŒ
Fireworks AI โŒ โœ… โœ… โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ โŒ
GroqCloud โœ… โœ… โŒ โŒ โŒ โŒ โœ… โŒ โŒ โŒ โŒ โŒ
Together Inference โŒ โœ… โœ… โŒ โŒ โŒ โŒ โœ… โŒ โŒ โŒ โŒ

๐Ÿงญ Radar Chart: Multi-Dimensional Evaluation of LLM Inference Engines

This radar chart compares 25 inference engines across six key dimensions: general-purpose support, ease of use, ease of deployment, latency awareness, throughput awareness, and scalability.

Six-Dimension Evaluation

๐Ÿ“ˆ Commercial Inference Engine Performance Comparison

Inference Throughput and Latency

๐Ÿ’ฒ Commercial Inference Engine Pricing by Model (USD per 1M tokens)

Model Friendli AIโ€  Fireworks AI GroqCloud Together AIโ€ก
DeepSeek-R1 3.00 / 7.00 3.00 / 8.00 0.75* / 0.99* 3.00 / 7.00
DeepSeek-V3 - / - 0.90 / 0.90 - / - 1.25 / 1.25
Llama 3.3 70B 0.60 / 0.60 - / - 0.59 / 0.79 0.88 / 0.88
Llama 3.1 405B - / - 3.00 / 3.00 - / - 3.50 / 3.50
Llama 3.1 70B 0.60 / 0.60 - / - - / - 0.88 / 0.88
Llama 3.1 8B 0.10 / 0.10 - / - 0.05 / 0.08 0.18 / 0.18
Qwen 2.5 Coder 32B - / - - / - 0.79 / 0.79 0.80 / 0.80
Qwen QwQ Preview 32B - / - - / - 0.29 / 0.39 1.20 / 1.20
  • โ€  Llama is Instruct model
  • โ€ก Turbo mode price โ€ƒ
  • * DeepSeek-R1 Distill Llama 70B

๐Ÿ’ฒ Commercial Inference Engine Pricing by Hardware Type (USD per hour per device)

Hardware Friendli AI Fireworks AI GroqCloud Together AI
NVIDIA A100 80GB 2.9 2.9 - 2.56
NVIDIA H100 80GB 5.6 5.8 - 3.36
NVIDIA H200 141GB - 9.99 - 4.99
AMD MI300X - 4.99 - -
Groq LPU - - - -

๐Ÿ”ญ Future Directions

Recent advancements in LLM inference engines reveal several open challenges and research opportunities:

  • Multimodal Support: As multimodal models like Qwen2-VL and LLaVA-1.5 emerge, inference engines must support efficient handling of image, audio, and video modalities. This includes multimodal preprocessing, M-RoPE position embedding, and modality-preserving quantization.

  • Beyond Transformers: Emerging architectures such as RetNet, RWKV, and Mamba challenge the dominance of Transformers. Engines must adapt to hybrid models like Jamba that mix Mamba and Transformer components, including MoE.

  • Hardware-Aware Optimization: Efficient operator fusion (e.g., FlashAttention-3) and mixed-precision kernels are needed for specialized accelerators like H100, NPUs, or PIMs. These require advanced tiling strategies and memory alignment.

  • Extended Context Windows: Models now support up to 10M tokens. This creates significant pressure on KV cache management, requiring hierarchical caching, CPU offloading, and memory-efficient attention.

  • Complex Reasoning: Support for multi-step CoT, tool usage, and multi-turn dialogs is growing. Engines must manage long token sequences and optimize session continuity and streaming outputs.

  • Application-Driven Tradeoffs: Real-time systems (e.g., chatbots) prioritize latency, while backend systems (e.g., batch translation) prioritize throughput. Engines must offer tunable optimization profiles.

  • Security & Robustness: Prompt injection, jailbreaks, and data leakage risks necessitate runtime moderation (e.g., OpenAI Moderation), input sanitization, and access control.

  • On-Device Inference: With compact models like Gemma and Phi-3, edge inference is becoming viable. This requires compression, chunk scheduling, offloading, and collaboration across devices.

  • Heterogeneous Hardware: Support for TPUs, NPUs, AMD MI300X, and custom AI chips demands hardware-aware partitioning, adaptive quantization, and load balancing.

  • Cloud Orchestration: Inference systems must integrate with serving stacks like Ray, Kubernetes, Triton, and Hugging Face Spaces to scale reliably.

๐Ÿค Contributing

We welcome community contributions! Feel free to:

  • Add new inference engines or papers
  • Update benchmarks or hardware support
  • Submit PRs for engine usage examples or tutorials

โš–๏ธ License

MIT License. See LICENSE for details.

๐Ÿ“ Citation

@misc{awesome_inference_engine,
  author       = {Sihyeong Park, Sungryeol Jeon, Chaelyn Lee, Seokhun Jeon, Byung-Soo Kim, and Jemin Lee},
  title        = {{Awesome-LLM-Inference-Engine}},
  howpublished = {\url{https://github.com/sihyeong/Awesome-LLM-Inference-Engine}},
  year         = {2025}     
}
@article{park2025survey,
  title={A Survey on Inference Engines for Large Language Models: Perspectives on Optimization and Efficiency},
  author={Park, Sihyeong and Jeon, Sungryeol and Lee, Chaelyn and Jeon, Seokhun and Kim, Byung-Soo and Lee, Jemin},
  journal={arXiv preprint arXiv:2505.01658},
  year={2025}
}

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published