Lernen Sie EAGLE 3.1 kennen: den spekulativen Dekodierungsalgorithmus, der die Aufmerksamkeitsdrift in der LLM-Inferenz behebt

Spekulative Dekodierung ist eine Technik zur Beschleunigung der Inferenz großer Sprachmodelle. Ein kleines, schnelles Entwurfsmodell schlägt mehrere Token vor. Das große Zielmodell verifiziert sie parallel. Wenn akzeptiert, erfolgt die Schlussfolgerung schneller. Bei einer Ablehnung greift das System ordnungsgemäß zurück.

Das EAGLE-Group, das vLLM-Group und das TorchSpec-Group haben die EAGLE-Serie mit EAGLE 1, EAGLE 2 und EAGLE 3 auf den Markt gebracht, die sich zu einer der am weitesten verbreiteten und praktisch eingesetzten Familien spekulativer Decodierungsalgorithmen sowohl in Forschungs- als auch in Produktionssystemen entwickelt hat. Heute erhält diese Familie mit der Einführung von ein gezieltes Zuverlässigkeits-Improve ADLER 3.1.

Was lief schief

Während die spekulative Dekodierung in kontrollierten Umgebungen eine gute Leistung erbringt, nimmt die Leistung bei unterschiedlichen Chat-Vorlagen, Eingaben mit langem Kontext oder Systemaufforderungen außerhalb der Verteilung häufig ab.

Das EAGLE-Group führte diese Fragilität auf ein Phänomen namens zurück Aufmerksamkeitsdrift Mit zunehmender Spekulationstiefe verlagert der Verfasser seine Aufmerksamkeit allmählich von den Sink-Tokens hin zu den selbst generierten Tokens.

Einfacher ausgedrückt: Der Drafter ist ein kleines Modell, das zukünftige Token vorhersagt. Wenn die Spekulation tiefer geht, beginnt sie, sich auf ihre eigenen früheren Ergebnisse statt auf den ursprünglichen Kontext zu konzentrieren. Dies verschlechtert die Akzeptanzlänge und die Ausgabestabilität.

Es wurden zwei zugrunde liegende Probleme identifiziert. Erstens wird die fusionierte Eingabedarstellung zunehmend unausgewogen, da verborgene Zustände höherer Ebenen die Drafter-Eingabe dominieren. Zweitens wächst die Größe des verborgenen Zustands aufgrund des nicht normalisierten Restpfads über Spekulationsschritte hinweg. Zusammengenommen führen diese Effekte dazu, dass der Drafter bei tieferen Spekulationstiefen immer weniger stabil wird.

Zwei architektonische Korrekturen in EAGLE 3.1

Um der Aufmerksamkeitsdrift entgegenzuwirken, verfügt EAGLE 3.1 über zwei wichtige Architekturverbesserungen: FC-Normalisierung nach jedem verborgenen Zielzustand und vor der FC-Schicht sowie die Einspeisung verborgener Submit-Norm-Zustände in den nächsten Decodierungsschritt.

Die FC-Normalisierung stabilisiert die verborgenen Zustände, die der Zeichner vom Zielmodell erhält. Ohne sie wächst die Größe des verborgenen Zustands über die Schritte hinweg, was den Zeichner zunehmend unzuverlässig macht. Durch die Anwendung der Normalisierung bei jedem Schritt bleiben die Eingaben begrenzt.

Durch das Submit-Norm-Design verhält sich die Methode eher wie ein rekursiver Aufruf des Drafters über die Decodierungsschritte hinweg, anstatt einfach zusätzliche Ebenen an das Zielmodell anzuhängen.

https://vllm.ai/blog/2026-05-26-eagle-3-1 — https://vllm.ai/weblog/2026-05-26-eagle-3-1

Was diese Fixes liefern

Im Vergleich zu EAGLE 3 zeigt EAGLE 3.1: eine kürzere Trainingszeit bis zur Inferenzzeit-Extrapolation, eine stärkere Robustheit über lange Kontexte, eine höhere Widerstandsfähigkeit gegenüber Variationen von Chat-Vorlagen und Systemaufforderungen sowie eine stabilere Akzeptanzlänge in verschiedenen Bereitstellungsumgebungen.

Bei Lengthy-Context-Workloads erreicht EAGLE 3.1 im Vergleich zu EAGLE 3 eine bis zu 2-mal längere Akzeptanzlänge.

Trainingsinfrastruktur: TorchSpec

TorchSpec bietet jetzt effiziente Trainingsunterstützung für EAGLE 3.1 und zukünftige spekulative Decodierungsalgorithmen. Durch die Reduzierung des Schulungsaufwands und die Vereinfachung der Experimentierabläufe trägt TorchSpec dazu bei, die Iteration und Erkundung für die Forschung und Bereitstellung spekulativer Dekodierung der nächsten Era zu beschleunigen.

Basierend auf TorchSpec und vLLM hat das Forschungsteam außerdem ein EAGLE 3.1-Entwurfsmodell für Kimi K2.6 trainiert und als Open-Supply-Model bereitgestellt, verfügbar unter Umarmendes Gesicht. Das Modell dient als Beispiel für die Bereitstellung von EAGLE 3.1 mit TorchSpec-Schulung und vLLM-Serving-Unterstützung in einem realen Serving-Modell

vLLM-Integration: konfigurationsgesteuert und abwärtskompatibel

EAGLE 3.1 landet in vLLM als konfigurationsgesteuerte Erweiterung der bestehenden EAGLE 3-Implementierung. Die Integration umfasst die Unterstützung der FC-Normalisierung, Suggestions zu versteckten Zuständen nach der Norm und die Entfernung fest codierter Annahmen rund um versteckte Zielzustände.

Die Abwärtskompatibilität mit bestehenden EAGLE 3-Checkpoints bleibt vollständig erhalten. EAGLE 3.1-Entwurfsmodelle können direkt über denselben Codepfad für spekulative Dekodierung eingebunden werden.

vllm serve nvidia/Kimi-K2.6-NVFP4 
  --trust-remote-code 
  --tensor-parallel-size 4 
  --tool-call-parser kimi_k2 
  --enable-auto-tool-choice 
  --reasoning-parser kimi_k2 
  --attention-backend tokenspeed_mla 
  --speculative-config '{"mannequin":"lightseekorg/kimi-k2.6-eagle3.1-mla","technique":"eagle3","num_speculative_tokens":3}' 
  --language-model-only

Benchmark-Ergebnisse für Kimi K2.6

Das Forschungsteam hat das Entwurfsmodell Kimi K2.6 EAGLE 3.1 auf Kimi-K2.6-NVFP4 mit vLLM (TP=4, GB200, nicht disagg) im SPEED-Bench-Codierungsdatensatz verglichen. EAGLE 3.1 bietet einen 2,03-fach höheren Ausgabedurchsatz professional Benutzer bei Parallelität 1. Die Beschleunigung bleibt sinnvoll, da die Parallelität skaliert: 1,71-fach bei C=4 und 1,66-fach bei C=16.

Der visuelle Erklärer von Marktechpost

01 / 07

vLLM · 26. Mai 2026

Das EAGLE-Group, das vLLM-Group und das TorchSpec-Group haben gemeinsam EAGLE 3.1 veröffentlicht – eine gezielte Lösung für spekulative Dekodierungsinstabilität bei der Bereitstellung von Produktions-LLM.

#spekulative-Dekodierung
#vLLM
#LLM-Schlussfolgerung
#Leistung

02 / 07

Hintergrund

Was ist spekulative Dekodierung?

Eine Technik zur Beschleunigung der LLM-Inferenz mithilfe zweier zusammenarbeitender Modelle.

Ein kleiner, schneller Entwurfsmodell schlägt mehrere Token im Voraus vor
Das Große Zielmodell überprüft alle vorgeschlagenen Token in einem Durchgang
Akzeptierte Token werden behalten – abgelehnte Token fallen ordnungsgemäß zurück
Ergebnis: höherer Ausgabedurchsatz ohne Änderung der Ausgabequalität

03 / 07

Das Downside

Aufmerksamkeitsdrift in EAGLE 3

Die Leistung von EAGLE 3 nahm in realen Einsätzen unter drei Bedingungen ab:

Anders Chat-Vorlagen
Langer Kontext Eingänge
Außerhalb des Vertriebs Systemaufforderungen

Grundursache: Aufmerksamkeitsdrift – Mit zunehmender Spekulationstiefe lenkt der Verfasser seine Aufmerksamkeit weg von den Sink-Tokens hin zu den selbst generierten Tokens.

04 / 07

Grundursache

Zwei zugrunde liegende Probleme

Der Fusionierte Eingabedarstellung wird zunehmend unausgewogen – versteckte Zustände höherer Ebenen dominieren die Eingabe des Verfassers
Größe des verborgenen Zustands wächst aufgrund des nicht normalisierten Restpfads über Spekulationsschritte hinweg
Zusammen ergeben diese den Drafter zunehmend weniger stabil in tieferen Spekulationstiefen

05 / 07

Architektur

Zwei architektonische Korrekturen

Lösung 1
FC-Normalisierung Wird nach jedem versteckten Zielzustand und vor der FC-Ebene angewendet. Hält die Größe des verborgenen Zustands über die Decodierungsschritte hinweg begrenzt.

Lösung 2
Postnorm-Hidden-State-Suggestions – Normalisierte verborgene Zustände werden in den nächsten Dekodierungsschritt eingespeist, wodurch sich der Drafter wie ein rekursiver Aufruf verhält und nicht wie angehängte Ebenen.

06 / 07

Benchmarks · SPEED-Bench-Codierung · GB200 TP=4

Durchsatz professional Benutzer im Vergleich zur Baseline ohne Spezifikation

2,03×Parallelität 1

1,71×Parallelität 4

1,66×Parallelität 16

Bei Workloads mit langem Kontext erreicht EAGLE 3.1 bis zu 2× längere Akzeptanzlänge im Vergleich zu EAGLE 3. Getestet auf Kimi-K2.6-NVFP4 mit vLLM.

07 / 07

Bereitstellung · vLLM v0.22.0

So stellen Sie EAGLE 3.1 bereit

Abwärtskompatibel mit EAGLE 3-Kontrollpunkten. Bereits in vLLM foremost zusammengeführt. Stabile Model: v0.22.0.

vllm serve nvidia/Kimi-K2.6-NVFP4 
  --trust-remote-code 
  --tensor-parallel-size 4 
  --tool-call-parser kimi_k2 
  --enable-auto-tool-choice 
  --reasoning-parser kimi_k2 
  --attention-backend tokenspeed_mla 
  --speculative-config 
    '{"mannequin":"lightseekorg/kimi-k2.6-eagle3.1-mla",
      "technique":"eagle3",
      "num_speculative_tokens":3}' 
  --language-model-only

Wichtige Erkenntnisse

EAGLE 3.1-Korrekturen Aufmerksamkeitsdrift – eine neu identifizierte Instabilität, bei der der Verfasser den Fokus auf sinkende Token in tieferen Spekulationstiefen verliert.
Zwei architektonische Änderungen – FC-Normalisierung Und Postnorm-Hidden-State-Suggestions – den Drafter über Spekulationsschritte hinweg stabilisieren.
Bei Workloads mit langem Kontext liefert EAGLE 3.1 bis zu 2× längere Akzeptanzlänge im Vergleich zu EAGLE 3.
Benchmarks zum Kimi-K2.6-NVFP4 zeigen 2,03-facher Ausgabedurchsatz professional Benutzer bei Parallelität 1, Abfall auf 1,66× bei C=16.
EAGLE 3.1 ist Abwärtskompatibel mit EAGLE 3-Kontrollpunkten und ist bereits in vLLM foremost integriert und wird in v0.22.0 ausgeliefert.

Schauen Sie sich das an Technische Particulars. Sie können uns auch gerne weiter folgen Twitter und vergessen Sie nicht, bei uns mitzumachen 150.000+ ML SubReddit und Abonnieren Unser E-newsletter. Warten! Bist du im Telegram? Jetzt können Sie uns auch per Telegram kontaktieren.

Möchten Sie mit uns zusammenarbeiten, um Ihr GitHub-Repo ODER Ihre Hugging Face Web page ODER Produktveröffentlichung ODER Ihr Webinar usw. zu bewerben? Vernetzen Sie sich mit uns

Michal Sutter ist ein Knowledge-Science-Experte mit einem Grasp of Science in Knowledge Science von der Universität Padua. Mit einer soliden Grundlage in statistischer Analyse, maschinellem Lernen und Datentechnik ist Michal hervorragend darin, komplexe Datensätze in umsetzbare Erkenntnisse umzuwandeln.

Lernen Sie EAGLE 3.1 kennen: den spekulativen Dekodierungsalgorithmus, der die Aufmerksamkeitsdrift in der LLM-Inferenz behebt

Was lief schief

Zwei architektonische Korrekturen in EAGLE 3.1

Was diese Fixes liefern

Trainingsinfrastruktur: TorchSpec

vLLM-Integration: konfigurationsgesteuert und abwärtskompatibel

Benchmark-Ergebnisse für Kimi K2.6

Der visuelle Erklärer von Marktechpost

Was ist spekulative Dekodierung?

Aufmerksamkeitsdrift in EAGLE 3

Zwei zugrunde liegende Probleme

Zwei architektonische Korrekturen

Durchsatz professional Benutzer im Vergleich zur Baseline ohne Spezifikation

So stellen Sie EAGLE 3.1 bereit

Wichtige Erkenntnisse

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

Genauigkeit, Voreingenommenheit und die Kontrollen, die Kreditgeber jetzt benötigen |

Liquid AI veröffentlicht LFM2.5-Encoder-230M und LFM2.5-Encoder-350M: Bidirektionale Encoder, die bei 8K-Kontext auf der CPU schnell bleiben

Die 20 wichtigsten Befehle für Entwickler

Die 5 besten KI-Instruments für die Datenanalyse, die Sie 2026 ausprobieren sollten

About

Categories

Tags

Recent Post

Genauigkeit, Voreingenommenheit und die Kontrollen, die Kreditgeber jetzt benötigen |

Liquid AI veröffentlicht LFM2.5-Encoder-230M und LFM2.5-Encoder-350M: Bidirektionale Encoder, die bei 8K-Kontext auf der CPU schnell bleiben

Lernen Sie EAGLE 3.1 kennen: den spekulativen Dekodierungsalgorithmus, der die Aufmerksamkeitsdrift in der LLM-Inferenz behebt

Was lief schief

Zwei architektonische Korrekturen in EAGLE 3.1

Was diese Fixes liefern

Trainingsinfrastruktur: TorchSpec

vLLM-Integration: konfigurationsgesteuert und abwärtskompatibel

Benchmark-Ergebnisse für Kimi K2.6

Der visuelle Erklärer von Marktechpost

Was ist spekulative Dekodierung?

Aufmerksamkeitsdrift in EAGLE 3

Zwei zugrunde liegende Probleme

Zwei architektonische Korrekturen

Durchsatz professional Benutzer im Vergleich zur Baseline ohne Spezifikation

So stellen Sie EAGLE 3.1 bereit

Wichtige Erkenntnisse

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt