vLLM vs. TensorRT-LLM vs. HF TGI vs. LMDeploy, ein umfassender technischer Vergleich für Produktions-LLM-Inferenz

Produktions-LLM-Bereitstellung ist jetzt ein Systemproblem, kein Downside mehr generate() Schleife. Bei realen Workloads ist die Wahl des Inferenzstapels entscheidend Token professional Sekunde, Schwanzlatenzund letztendlich Kosten professional Million Token auf einer bestimmten GPU-Flotte.

Dieser Vergleich konzentriert sich auf 4 weit verbreitete Stacks:

vLLM
NVIDIA TensorRT-LLM
Inferenz zur Generierung von Umarmungsgesichtstexten (TGI v3)
LMDeploy

1. vLLM, PagedAttention als offene Baseline

Kernidee

vLLM ist darauf aufgebaut PagedAchtungeine Aufmerksamkeitsimplementierung, die den KV-Cache wie ausgelagerten virtuellen Speicher und nicht wie einen einzelnen zusammenhängenden Puffer professional Sequenz behandelt.

Anstatt professional Anfrage eine große KV-Area zuzuweisen, vLLM:

Unterteilt den KV-Cache in Blöcke fester Größe
Verwaltet eine Blocktabelle, die logische Token physischen Blöcken zuordnet
Teilt Blöcke zwischen Sequenzen, wo immer sich Präfixe überschneiden

Dadurch wird die externe Fragmentierung reduziert und der Scheduler kann viel mehr gleichzeitige Sequenzen in denselben VRAM packen.

Durchsatz und Latenz

vLLM verbessert den Durchsatz um 2–4× gegenüber Systemen wie FasterTransformer und Orca bei ähnlicher Latenz, mit größeren Gewinnen für längere Sequenzen.

Wichtige Eigenschaften für Betreiber:

Kontinuierliche Dosierung (auch Inflight-Batching genannt) führt eingehende Anfragen in bestehende GPU-Batches zusammen, anstatt auf feste Batch-Fenster zu warten.
Bei typischen Chat-Workloads skaliert der Durchsatz nahezu linear mit der Parallelität, bis der KV-Speicher oder die Rechenleistung ausgelastet ist.
Die P50-Latenz bleibt bei mäßiger Parallelität niedrig, aber P99 kann sich verschlechtern, wenn die Warteschlangen lang sind oder der KV-Speicher knapp ist, insbesondere bei Abfragen mit hohem Prefill-Gehalt.

vLLM macht eine verfügbar OpenAI-kompatible HTTP-API und lässt sich intestine mit Ray Serve und anderen Orchestratoren integrieren, weshalb es häufig als offene Basislinie verwendet wird.

KV und Multi-Tenant

PagedAttention gibt Nahezu null KV-Abfall und versatile Präfixfreigabe innerhalb und zwischen Anfragen.
Jeder vLLM-Prozess dient ein ModellMulti-Tenant- und Multi-Modell-Setups werden normalerweise mit einem externen Router oder API-Gateway erstellt, der auf mehrere vLLM-Instanzen verteilt.

2. TensorRT-LLM, {Hardware}-Most auf NVIDIA-GPUs

Kernidee

TensorRT-LLM ist NVIDIAs optimierte Inferenzbibliothek für ihre GPUs. Die Bibliothek bietet benutzerdefinierte Aufmerksamkeitskerne, Inflight-Batching, ausgelagertes KV-Caching, Quantisierung bis hinunter zu FP4 und INT4 sowie spekulative Dekodierung.

Es ist eng mit NVIDIA-{Hardware} gekoppelt, einschließlich FP8-Tensorkernen auf Hopper und Blackwell.

Gemessene Leistung

Die H100 vs. A100-Bewertung von NVIDIA ist die konkretste öffentliche Referenz:

Auf H100 mit FP8 erreicht TensorRT-LLM über 10.000 ausgegebene Token/s bei Spitzendurchsatz für 64 gleichzeitige Anfragenmit ~100 ms Zeit bis zum ersten Token.
H100 FP8 erreicht bis zu 4,6-fach höherer maximaler Durchsatz Und 4,4-mal schnellere Latenz des ersten Tokens als A100 bei den gleichen Modellen.

Für latenzempfindliche Modi:

TensorRT-LLM auf H100 kann TTFT steuern unter 10 ms in Batch-1-Konfigurationen, auf Kosten eines geringeren Gesamtdurchsatzes.

Diese Zahlen sind modell- und formspezifisch, geben aber einen realistischen Maßstab wieder.

Vorfüllen vs. Dekodieren

TensorRT-LLM optimiert beide Phasen:

Prefill profitiert von FP8-Aufmerksamkeitskernen mit hohem Durchsatz und Tensorparallelität
Dekodieren profitiert von CUDA-Graphen, spekulativer Dekodierung, quantisierten Gewichten und KV sowie der Kernel-Fusion

Das Ergebnis sind sehr hohe Tokens/s über einen weiten Bereich von Eingabe- und Ausgabelängen, insbesondere wenn die Engine auf dieses Modell und Batch-Profil abgestimmt ist.

KV und Multi-Tenant

TensorRT-LLM bietet:

Ausgelagerter KV-Cache mit konfigurierbarem Structure
Unterstützung für lange Sequenzen, KV-Wiederverwendung und Offloading
Batch- und prioritätsbewusste Planungsprimitive während des Flugs

NVIDIA kombiniert dies mit Ray-basierten oder Triton-basierten Orchestrierungsmustern für Multi-Tenant-Cluster. Die Unterstützung mehrerer Modelle erfolgt auf Orchestratorebene und nicht innerhalb einer einzelnen TensorRT-LLM-Engine-Instanz.

3. Hugging Face TGI v3, Lengthy-Immediate-Spezialist und Multi-Backend-Gateway

Kernidee

Textgenerierungsinferenz (TGI) ist ein auf Rust und Python basierender Serving-Stack, der Folgendes hinzufügt:

HTTP- und gRPC-APIs
Kontinuierlicher Batch-Planer
Observability- und Autoscaling-Hooks
Plug-in-Backends, einschließlich Engines im vLLM-Stil, TensorRT-LLM und anderen Laufzeiten

Model 3 konzentriert sich auf die lange Verarbeitung von Eingabeaufforderungen Chunking und Präfix-Caching.

Langer Immediate-Benchmark vs. vLLM

Der TGI v3-Dokumente Geben Sie einen klaren Maßstab:

Bei langen Eingabeaufforderungen mit mehr als 200.000 Tokeneine Konversationsantwort, die dauert 27,5 s im vLLM kann in ca. serviert werden 2 s in TGI v3.
Dies wird als a gemeldet 13-fache Beschleunigung auf diese Arbeitsbelastung.
TGI v3 kann ca. verarbeiten 3× mehr Token im gleichen GPU-Speicher durch Reduzierung des Speicherbedarfs und Nutzung von Chunking und Caching.

Der Mechanismus ist:

TGI behält den ursprünglichen Konversationskontext bei Präfix-Cachesodass nachfolgende Runden nur für zusätzliche Spielsteine auszahlen
Der Aufwand für die Cache-Suche liegt in der Größenordnung von Mikrosekundenvernachlässigbar im Vergleich zur Vorfüllberechnung

Hierbei handelt es sich um eine gezielte Optimierung für Workloads, bei denen Eingabeaufforderungen extrem lang sind und über mehrere Runden hinweg wiederverwendet werden, beispielsweise RAG-Pipelines und analytische Zusammenfassungen.

Architektur und Latenzverhalten

Schlüsselkomponenten:

ChunkingSehr lange Eingabeaufforderungen werden für KV und Planung in überschaubare Segmente aufgeteilt
Präfix-CachingDatenstruktur, um langen Kontext über Runden hinweg zu teilen
Kontinuierliche Dosierungeingehende Anfragen verbinden Stapel bereits laufender Sequenzen
PagedAttention und verschmolzene Kernel in den GPU-Backends

Bei kurzen Workloads im Chat-Stil liegen Durchsatz und Latenz auf dem gleichen Niveau wie bei vLLM. Bei langen, zwischenspeicherbaren Kontexten verbessert sich sowohl die P50- als auch die P99-Latenz um eine Größenordnung, da die Engine wiederholtes Vorfüllen vermeidet.

Multi-Backend und Multi-Modell

TGI ist als konzipiert Router plus Modellserver Architektur. Es kann:

Leiten Sie Anfragen über viele Modelle und Replikate hinweg weiter
Zielen Sie auf verschiedene Backends ab, zum Beispiel TensorRT-LLM auf H100 plus CPU oder kleinere GPUs für Datenverkehr mit niedriger Priorität

Dadurch eignet es sich als zentrale Bereitstellungsschicht in Umgebungen mit mehreren Mandanten.

4. LMDeploy, TurboMind mit blockiertem KV und aggressiver Quantisierung

Kernidee

LMDeploy aus dem InternLM-Ökosystem ist ein Toolkit zum Komprimieren und Bereitstellen von LLMs, das sich auf das konzentriert TurboMind Motor. Es konzentriert sich auf:

Anforderungsbereitstellung mit hohem Durchsatz
Blockierter KV-Cache
Persistentes Batching (kontinuierliches Batching)
Quantisierung von Gewichten und KV-Cache

Relativer Durchsatz im Vergleich zu vLLM

Im Projekt heißt es:

„LMDeploy bietet einen bis zu 1,8-mal höheren Anforderungsdurchsatz als vLLM.“‚, mit der Unterstützung von persistentem Batch, blockiertem KV, dynamischer Aufteilung und Sicherung, Tensorparallelität und optimierten CUDA-Kerneln.

KV, Quantisierung und Latenz

LMDeploy umfasst:

Blockierter KV-Cacheähnlich wie bei ausgelagertem KV, das dabei hilft, viele Sequenzen in VRAM zu packen
Unterstützung für KV-Cache-Quantisierungnormalerweise int8 oder int4, um KV-Speicher und Bandbreite zu reduzieren
Gewichtet nur Quantisierungspfade wie 4-Bit-AWQ
Ein Benchmarking-System, das Token-Durchsatz, Anforderungsdurchsatz und erste Token-Latenz meldet

Dies macht LMDeploy attraktiv, wenn Sie größere offene Modelle wie InternLM oder Qwen auf Mittelklasse-GPUs mit aggressiver Komprimierung ausführen und gleichzeitig gute Token/s beibehalten möchten.

Bereitstellung mehrerer Modelle

LMDeploy bietet eine Proxyserver kann damit umgehen:

Bereitstellung mehrerer Modelle
Multi-Maschinen- und Multi-GPU-Setups
Routing-Logik zur Auswahl von Modellen basierend auf Anforderungsmetadaten

Architektonisch ähnelt es additionally eher dem TGI als einem Einzelmotor.

Was wann verwenden??

Wenn Sie maximalen Durchsatz und sehr niedrige TTFT auf NVIDIA-GPUs wünschen
- TensorRT-LLM ist die erste Wahl
- Es verwendet FP8 und niedrigere Präzision, benutzerdefinierte Kernel und spekulative Dekodierung, um Token/s zu pushen und die TTFT bei hoher Parallelität unter 100 ms und bei niedriger Parallelität unter 10 ms zu halten
Wenn Sie von langen Eingabeaufforderungen mit Wiederverwendung dominiert werden, z. B. RAG über große Kontexte
- TGI v3 ist ein starker Normal
- Sein Präfix-Cache und Chunking geben nach 3× Token-Kapazität Und 13-fach geringere Latenz als vLLM in veröffentlichten Lengthy-Immediate-Benchmarks, ohne zusätzliche Konfiguration
Wenn Sie eine offene, einfache Engine mit starker Grundleistung und einer API im OpenAI-Stil wünschen
- vLLM bleibt die Standardbasislinie
- PagedAttention und kontinuierliches Batching machen es möglich 2–4× schneller als ältere Stacks mit ähnlicher Latenz und lässt sich problemlos in Ray und K8s integrieren
Wenn Sie auf offene Modelle wie InternLM oder Qwen abzielen und Wert auf aggressive Quantisierung mit Multi-Modell-Bereitstellung legen
- LMDeploy passt intestine
- Blockierter KV-Cache, persistentes Batching und int8- oder int4-KV-Quantisierung geben bis zu 1,8-mal höherer Anforderungsdurchsatz als vLLM bei unterstützten Modellen, inklusive Router-Schicht

In der Praxis mischen viele Entwicklerteams diese Systeme und verwenden beispielsweise TensorRT-LLM für proprietäre Chats mit hohem Volumen, TGI v3 für Analysen mit langen Kontexten, vLLM oder LMDeploy für experimentelle und offene Modell-Workloads. Der Schlüssel besteht darin, den Durchsatz, die Latenzausfälle und das KV-Verhalten an die tatsächlichen Token-Verteilungen in Ihrem Datenverkehr anzupassen und dann die Kosten professional Million Token aus den gemessenen Token/s auf Ihrer eigenen {Hardware} zu berechnen.

Referenzen

vLLM / PagedAttention
TensorRT-LLM-Leistung und Übersicht
HF Textual content Era Inference (TGI v3) Verhalten bei langer Eingabeaufforderung
LMDeploy / TurboMind

Michal Sutter ist ein Knowledge-Science-Experte mit einem Grasp of Science in Knowledge Science von der Universität Padua. Mit einer soliden Grundlage in statistischer Analyse, maschinellem Lernen und Datentechnik ist Michal hervorragend darin, komplexe Datensätze in umsetzbare Erkenntnisse umzuwandeln.

🙌 Folgen Sie MARKTECHPOST: Fügen Sie uns als bevorzugte Quelle bei Google hinzu.

vLLM vs. TensorRT-LLM vs. HF TGI vs. LMDeploy, ein umfassender technischer Vergleich für Produktions-LLM-Inferenz

1. vLLM, PagedAttention als offene Baseline

2. TensorRT-LLM, {Hardware}-Most auf NVIDIA-GPUs

3. Hugging Face TGI v3, Lengthy-Immediate-Spezialist und Multi-Backend-Gateway

4. LMDeploy, TurboMind mit blockiertem KV und aggressiver Quantisierung

Was wann verwenden??

Referenzen

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

Weitere Informationen zu Apple erhalten AI-Produkte – Sie sind der Apple AI-Produkthersteller

Die Roadmap zur Beherrschung der Agenten-KI im Jahr 2026

Das realistischste offene TTS-Modell?

Eine Idee, um annähernd kalibrierte subjektive Wahrscheinlichkeitsbereiche von 50 % zu erhalten

About

Categories

Tags

Recent Post

Weitere Informationen zu Apple erhalten AI-Produkte – Sie sind der Apple AI-Produkthersteller

Die Roadmap zur Beherrschung der Agenten-KI im Jahr 2026

1. vLLM, PagedAttention als offene Baseline

2. TensorRT-LLM, {Hardware}-Most auf NVIDIA-GPUs

3. Hugging Face TGI v3, Lengthy-Immediate-Spezialist und Multi-Backend-Gateway

4. LMDeploy, TurboMind mit blockiertem KV und aggressiver Quantisierung

Was wann verwenden??

Referenzen

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt