NVIDIA hat gerade veröffentlicht Dynamo v0.9.0. Dies ist das bislang bedeutendste Infrastruktur-Improve für das verteilte Inferenz-Framework. Dieses Replace vereinfacht die Bereitstellung und Verwaltung großer Modelle. Der Schwerpunkt der Veröffentlichung liegt auf der Beseitigung starker Abhängigkeiten und der Verbesserung der Artwork und Weise, wie GPUs mit multimodalen Daten umgehen.

Die große Vereinfachung: NATS und etcd entfernen

Die größte Änderung in v0.9.0 ist die Entfernung von NATS Und ETCD. In früheren Versionen übernahmen diese Instruments die Diensterkennung und das Messaging. Allerdings führten sie eine „Betriebssteuer“ ein, indem sie von den Entwicklern verlangten, zusätzliche Cluster zu verwalten.

NVIDIA hat diese durch ein neues ersetzt Occasion-Flugzeug und a Entdeckungsflugzeug. Das System verwendet jetzt ZMQ (ZeroMQ) für Hochleistungstransporte und MessagePack zur Datenserialisierung. Für Groups, die Kubernetes verwenden, unterstützt Dynamo jetzt Kubernetes-native Serviceerkennung. Durch diese Änderung wird die Infrastruktur schlanker und in Produktionsumgebungen einfacher zu warten.

Multimodale Unterstützung und der E/P/D-Cut up

Dynamo v0.9.0 erweitert die multimodale Unterstützung auf drei Haupt-Backends: vLLM, SGLangUnd TensorRT-LLM. Dadurch können Modelle Texte, Bilder und Movies effizienter verarbeiten.

Eine Schlüsselfunktion in diesem Replace ist die E/P/D-Aufteilung (Kodieren/Vorfüllen/Dekodieren).. In Commonplace-Setups übernimmt häufig eine einzelne GPU alle drei Phasen. Dies kann bei intensiver Video- oder Bildverarbeitung zu Engpässen führen. v0.9.0 führt ein Encoder-Disaggregation. Sie können jetzt das ausführen Encoder auf einem separaten Satz von GPUs Vorfüllen Und Dekodieren Arbeiter. Dadurch können Sie Ihre {Hardware} entsprechend den spezifischen Anforderungen Ihres Modells skalieren.

Vorschau: FlashIndexer

Diese Model enthält eine Vorschau auf FlashIndexer. Diese Komponente wurde entwickelt, um Latenzprobleme in verteilten Umgebungen zu lösen KV-Cache Administration.

Bei der Arbeit mit großen Kontextfenstern ist das Verschieben von Schlüsselwertdaten (KV) zwischen GPUs ein langsamer Prozess. FlashIndexer verbessert die Artwork und Weise, wie das System diese zwischengespeicherten Token indiziert und abruft. Dadurch ergibt sich eine geringere Zeit bis zum ersten Token (TTFT). Obwohl es sich noch um eine Vorschau handelt, stellt es einen großen Schritt dar, damit sich verteilte Inferenz genauso schnell anfühlt wie lokale Inferenz.

Intelligentes Routing und Lastschätzung

Die Verwaltung des Datenverkehrs über Hunderte von GPUs hinweg ist schwierig. Dynamo v0.9.0 führt eine intelligentere Model ein Planer das nutzt Vorausschauende Lastschätzung.

Das System verwendet a Kalman-Filter um die zukünftige Auslastung einer Anfrage basierend auf der bisherigen Leistung vorherzusagen. Es unterstützt auch Routing-Hinweise aus dem Kubernetes Gateway API Inference Extension (GAIE). Dadurch kann die Netzwerkschicht direkt mit der Inferenz-Engine kommunizieren. Wenn eine bestimmte GPU-Gruppe überlastet ist, kann das System neue Anforderungen mit höherer Präzision an inaktive Mitarbeiter weiterleiten.

Der technische Stack auf einen Blick

Die Model v0.9.0 aktualisiert mehrere Kernkomponenten auf ihre neuesten stabilen Versionen. Hier ist die Aufschlüsselung der unterstützten Backends und Bibliotheken:

Komponente Model
vLLM v0.14.1
SGLang v0.5.8
TensorRT-LLM v1.3.0rc1
NIXL v0.9.0
Rostkern Kiste mit Dynamo-Tokens

Die Einbeziehung der Dynamo-Tokens Kiste, geschrieben Roststellt sicher, dass die Token-Verarbeitung mit hoher Geschwindigkeit erfolgt. Für die Datenübertragung zwischen GPUs nutzt Dynamo weiterhin die Vorteile NIXL (NVIDIA Inference Switch Library) für RDMA-basiert Kommunikation.

Wichtige Erkenntnisse

  1. Entkopplung der Infrastruktur (Auf Wiedersehen NATS und ETCD): Das Launch schließt die Modernisierung der Kommunikationsarchitektur ab. Durch Ersetzen von NATS und ETCD durch ein neues Occasion-Flugzeug (mit ZMQ Und MessagePack) Und Kubernetes-native Serviceerkennungentfernt das System die „Betriebssteuer“ für die Verwaltung externer Cluster.
  2. Vollständige multimodale Disaggregation (E/P/D-Cut up): Dynamo unterstützt jetzt eine vollständige Kodieren/Vorfüllen/Dekodieren (E/P/D) Aufteilung auf alle drei Backends (vLLM, SGLang und TRT-LLM). Dadurch können Sie Imaginative and prescient- oder Video-Encoder auf separaten GPUs ausführen und so verhindern, dass rechenintensive Codierungsaufgaben den Textgenerierungsprozess behindern.
  3. FlashIndexer-Vorschau für geringere Latenz :Die ‚Sneak Preview‘ von FlashIndexer führt eine spezielle Komponente zur Optimierung ein Verteilter KV-Cache Administration. Es wurde entwickelt, um die Indizierung und den Abruf des Gesprächsspeichers erheblich zu beschleunigen und so die Zeit bis zum ersten Token (TTFT) weiter zu verkürzen.
  4. Intelligentere Planung mit Kalman-Filtern: Das System verwendet jetzt Vorausschauende Lastschätzung angetrieben von Kalman-Filter. Dadurch kann der Planner die GPU-Auslastung genauer vorhersagen und Verkehrsspitzen proaktiv bewältigen, unterstützt von Routing-Hinweise aus der Kubernetes Gateway API Inference Extension (GAIE).

Schauen Sie sich das an GitHub-Launch hier. Sie können uns auch gerne weiter folgen Twitter und vergessen Sie nicht, bei uns mitzumachen 100.000+ ML SubReddit und Abonnieren Unser Publication. Warten! Bist du im Telegram? Jetzt können Sie uns auch per Telegram kontaktieren.


Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert