(3)eine On-line-Vektorquantisierungsmethode, erregte auf der ICLR 2026 große öffentliche Aufmerksamkeit. Für mich kam es sehr bekannt vor: Es überschneidet sich stark mit EDENeine Quantisierungsmethode, die erstmals als 1-Bit-Methode eingeführt wurde FAHREN bei NeurIPS 2021 (1) und auf der ICML 2022 auf beliebige Bitbreiten verallgemeinert (2). Von mir gemeinsam mit Ran Ben-Basat, Yaniv Ben-Itzhak, Gal Mendelson, Michael Mitzenmacher und Shay Vargaftik verfasst.
Das TurboQuant-Papier stellt zwei Varianten vor: TurboQuant-mse Und TurboQuant-prod. Im ausführlichen neuen Vergleich (5) Wir zeigen, dass TurboQuant-mse ein degenerierter Fall von EDEN ist und dass die EDEN-Varianten ihre Gegenstücke durchweg übertreffen.
Wie EDEN einen Vektor quantisiert
Angenommen, Sie müssen a komprimieren -dimensionaler Vektor (eine Gradientenaktualisierung, eine Einbettung, ein KV-Cache-Eintrag) bis auf wenige Bits professional Koordinate. EDEN geht in vier Schritten vor:
- Zufällige Rotation — Mit einer zufälligen orthogonalen Matrix multiplizieren . Nach der Drehung sind die Koordinaten identisch verteilt und für große ungefähr Gaußsch.
- Skalare Quantisierung — Runden Sie jede gedrehte Koordinate auf eine von Ebenen aus einem Lloyd-Max-Codebuch, das auf dem trainiert wurde bekannt gedrehte Koordinatenverteilung ( ist die Zielanzahl der Bits professional Koordinate).
- Skala — Mit einem Skalierungsfaktor multiplizieren .
- Inverse Rotation – Anwenden um eine Annäherung wiederherzustellen des ursprünglichen Vektors.
Während frühere Arbeiten (z. B. Suresh et al. (2017) (6)) nutzte die Drehung hauptsächlich, um die Koordinaten zu verkleinern. Dynamikbereich (die Lücke zwischen dem größten und kleinsten Koordinatenwert), EDEN (1) struggle unseres Wissens nach das erste Quantisierungsschema, das eine stärkere Tatsache der zufälligen Rotation ausnutzte: Die Koordinaten nach der Rotation folgen einer bekannten Verteilung, die uns die Verwendung von a ermöglicht deterministisch Quantisierer gepaart mit einer geschlossenen Skala, die je nach Anwendung entweder MSE minimiert oder die Schätzung unverzerrt macht. Beide Skalen werden analytisch abgeleitet und die Konstruktion ergibt eine asymptotische MSE-Reduktion gegenüber dem vorherigen Ansatz.
Konkret unterscheiden sich die beiden Varianten von EDEN nur in der Wahl :
- EDEN-voreingenommen – Sätze auf den geschlossenen Wert, der die Rekonstruktions-MSE minimiert.
- EDEN-unvoreingenommen – wählt Daher ist die dekomprimierte Ausgabe im Durchschnitt korrekt (), was besonders wichtig ist, wenn Sie viele quantisierte Vektoren mitteln (z. B. verteiltes Coaching, Aufmerksamkeit).
Im Vergleich zu EDEN stimmt TurboQuant-mse bei jedem Schritt überein, mit einer Ausnahme: wo EDEN die Skala ableitet Analytisch gesehen überspringt TurboQuant-mse die optimierte Skalierung, obwohl es auf die MSE-Minimierung abzielt.
Der folgende Pseudocode zeigt die drei nebeneinander.

Warum sich der optimale Maßstab lohnt
Der Wert der richtigen Skalierung wächst mit der Bitbreite. Bei Etwas, der Abstand ist marginal. Bei Und Bits reduziert EDEN-biased MSE um 2,25 % gegenüber TurboQuant-mse, und dies sind die Bitbreiten, die Praktiker tatsächlich für Einbettungen und KV-Caches verwenden.
In den Dimensionen 16 bis 4096 und allen getesteten Bitbreiten EDEN-voreingenommenes vNMSE (vektornormalisiertes MSE, ) liegt in jedem Fall unter TurboQuant-mse (Abbildung 2). Da die Dimension sehr groß wird, wird sie optimum Ansatz 1 und die beiden Algorithmen konvergieren, aber bei praktischen Dimensionen (128–1024) bleibt die Lücke bestehen.

Unvoreingenommene Komprimierung: Einsparung von mehr als einem ganzen Bit
Die obigen Ergebnisse betreffen die voreingenommenen (MSE-minimierenden) Varianten. Betrachten Sie nun den unvoreingenommenen Fall, in dem Anwendungen wie verteiltes Coaching, ungefähre Aufmerksamkeit oder das Abrufen innerer Produkte erforderlich sind weil sie viele quantisierte Vektoren mitteln.
EDEN-unbiased verwendet denselben Single-Go-Algorithmus wie EDEN-biased, nur mit zur Bias-Korrektur ausgewählt. Die unvoreingenommene Variante von TurboQuant, TurboQuant-prod, geht einen anderen Weg: Sie gibt aus Bits auf dem voreingenommenen TurboQuant-mse-Schritt und reserviert 1 Bit für einen QJL (quantisierter Johnson-Lindenstrauss) (4) Korrektur des Residuums (QJL ähnelt EDEN bei aber mit höherer Varianz).
EDEN-unbiased übertrifft TurboQuant-prod in jeder getesteten Konfiguration, und zwar deutlich. Die Lücke ist auf drei strukturelle Vorteile des Single-Go-Designs von EDEN zurückzuführen:
- EDEN optimiert den Maßstab. TurboQuant-prod erbt TurboQuant-mse Die erste Stufe ist daher mit der gleichen MSE-Strafe verbunden.
- Die 1-Bit-Konstruktion von EDEN weist eine geringere Varianz auf als QJL. In großen Dimensionen konvergiert EDENs 1-Bit-vNMSE (1)während QJLs gegen konvergieren (4)ungefähr 2,75× höher.
- EDEN gibt das gesamte Bit-Price range für einen einzigen unverzerrten Quantisierer aus. TurboQuant-prod teilt das Price range auf voreingenommene Bits plus 1 Restbit, was empirisch schlechter abschneidet als alle Ausgaben Bits auf einem einzigen unvoreingenommenen Quantisierer (5).
Diese Effekte verstärken sich. Das Ergebnis: 1-Bit-, 2-Bit- und 3-Bit-EDEN-Unbiased sind jeweils genauer als 2-Bit-, 3-Bit- bzw. 4-Bit-TurboQuant-Prod (Abbildung 3). Durch den Austausch in EDEN können Sie ein Bit professional Koordinate reduzieren und trotzdem die Genauigkeit von TurboQuant-prod erreichen.

Auf TurboQuants eigenen Benchmarks
Das gleiche Bild ergibt sich bei den standardmäßigen ANN-Benchmarks, die TurboQuant auswertet, nämlich denen von Stanford GloVe vorab trainierte Wortvektoren (Open Knowledge Commons Public Area-Widmung und -Lizenz v1.0) und Qdrants dbpedia-entities-openai3-text-embedding-3-large Einbettungen (Apache 2.0) unter Verwendung des veröffentlichten Evaluierungscodes von TurboQuant:
EDEN-biased erreicht einen niedrigeren MSE als TurboQuant-mse, EDEN-unbiased erreicht einen deutlich geringeren inneren Produktfehler als TurboQuant-prod, und die Rückruffunktion für den nächsten Nachbarn begünstigt bei beiden Datensätzen EDEN (Abbildung 4).

Fazit: Verwenden Sie EDEN; Auf die optimale Skalierung kommt es an
Die EDEN-Skala verbindet die bekannte Postrotationsverteilung mit einem analytisch optimalen Quantisierer. TurboQuant-mse behält die Rotation von EDEN und das Codebuch bei, aber Pins was es zu einem streng schwächeren Spezialfall macht. TurboQuant-prod fügt darüber hinaus eine 1-Bit-QJL-Stufe hinzu, in der EDEN-unbiased die gleiche Eigenschaft mit höherer Genauigkeit erhält, indem einfach eine Skala zur Bias-Korrektur ausgewählt wird.
- Für MSE-gerichtete Komprimierung (Modellgewichtungsquantisierung, Suche nach nächsten Nachbarn, KV-Cache): EDEN-biased berechnet den optimalen Maßstab und schlägt durchweg TurboQuant-mse (das Ist EDEN mit behoben).
- Für eine unvoreingenommene Schätzung (verteilte Mittelwertschätzung, ungefähre Aufmerksamkeit, Abruf innerer Produkte): EDEN-unbiased übertrifft die Bit-Splitting-Strategie von TurboQuant-prod erheblich, und zwar um Margen, die mehr als ein ganzes Bit professional Koordinate wert sind.
EDEN wurde ursprünglich für die verteilte Mittelwertschätzung im föderierten und verteilten Coaching entwickelt. In späteren Arbeiten wurde es beispielsweise auf die Einbettung von Komprimierung für die Neuordnung von Dokumenten angewendet (SDR2022 (8)), angepasst für das NVFP4-LLM-Coaching (MS-EDEN In Quartett II2026 (10)), verallgemeinerte es auf Vektorquantisierung für datenfreie LLM-Gewichtskomprimierung (HIGGS2025 (9)), das dann für die KV-Cache-Komprimierung verwendet wurde (AQUA-KV2025 (11)).
EDEN-Implementierungen sind verfügbar: in PyTorch und TensorFlowIn Intels OpenFL (7)und seine 1-Bit-Variante bei Google FedJax, TensorFlow FederatedUnd TensorFlow-Modelloptimierung.
Die vollständige technische Vergleichsanalyse mit TurboQuant (alle Zahlen, detaillierte experimentelle Methodik) finden Sie in unserem Hinweis (5).
Die ursprünglichen Ableitungen, Beweise und weiteren Erweiterungen finden Sie in unseren Originalarbeiten (1) (2).
Referenzen
- S. Vargaftik, R. Ben-Basat, A. Portnoy, G. Mendelson, Y. Ben-Itzhak, M. Mitzenmacher, ANTRIEB: Ein-Bit-Schätzung des verteilten Mittelwerts (2021), NeurIPS 2021.
- S. Vargaftik, R. Ben-Basat, A. Portnoy, G. Mendelson, Y. Ben-Itzhak, M. Mitzenmacher, EDEN: Kommunikationseffiziente und robuste verteilte Mittelwertschätzung für föderiertes Lernen (2022), ICML 2022.
- A. Zandieh, M. Daliri, A. Hadian, V. Mirrokni, TurboQuant: On-line-Vektorquantisierung mit nahezu optimaler Verzerrungsrate (2026), ICLR 2026.
- A. Zandieh, M. Daliri, I. Han, QJL: 1-Bit-quantisierte JL-Transformation für KV-Cache-Quantisierung ohne Overhead (2024), arXiv:2406.03482.
- R. Ben-Basat, Y. Ben-Itzhak, G. Mendelson, M. Mitzenmacher, A. Portnoy, S. Vargaftik, Eine Anmerkung zu TurboQuant und der früheren DRIVE/EDEN-Arbeitslinie (2026), arXiv:2604.18555.
- AT Suresh, FX Yu, S. Kumar, HB McMahan, Verteilte Mittelwertschätzung mit eingeschränkter Kommunikation (2017), ICML 2017.
- VMware Open Supply-Weblog, EDEN der VMware Analysis Group wird Teil von OpenFL (November 2022).
- N. Cohen, A. Portnoy, B. Fetahu, A. Ingber, SDR: Effizientes neuronales Re-Rating mithilfe prägnanter Dokumentdarstellung (2022), ACL 2022.
- V. Malinovskii, A. Panferov, I. Ilin, H. Guo, P. Richtárik, D. Alistarh, HIGGS: Die Grenzen der Quantisierung großer Sprachmodelle mithilfe des Linearitätssatzes erweitern (2025), NAACL 2025.
- A. Panferov, E. Schultheis, S. Tabesh, D. Alistarh, Quartett II: Genaues LLM-Vortraining in NVFP4 durch verbesserte unvoreingenommene Gradientenschätzung (2026), arXiv:2601.22813.
- A. Shutova, V. Malinovskii, V. Egiazarian, D. Kuznedelev, D. Mazur, N. Surkov, I. Ermakov, D. Alistarh, Cachen Sie mich, wenn Sie müssen: Adaptive Schlüsselwertquantisierung für große Sprachmodelle (2025), ICML 2025.
