(3)eine On-line-Vektorquantisierungsmethode, erregte auf der ICLR 2026 große öffentliche Aufmerksamkeit. Für mich kam es sehr bekannt vor: Es überschneidet sich stark mit EDENeine Quantisierungsmethode, die erstmals als 1-Bit-Methode eingeführt wurde FAHREN bei NeurIPS 2021 (1) und auf der ICML 2022 auf beliebige Bitbreiten verallgemeinert (2). Von mir gemeinsam mit Ran Ben-Basat, Yaniv Ben-Itzhak, Gal Mendelson, Michael Mitzenmacher und Shay Vargaftik verfasst.

Das TurboQuant-Papier stellt zwei Varianten vor: TurboQuant-mse Und TurboQuant-prod. Im ausführlichen neuen Vergleich (5) Wir zeigen, dass TurboQuant-mse ein degenerierter Fall von EDEN ist und dass die EDEN-Varianten ihre Gegenstücke durchweg übertreffen.

Wie EDEN einen Vektor quantisiert

Angenommen, Sie müssen a komprimieren DD-dimensionaler Vektor XX (eine Gradientenaktualisierung, eine Einbettung, ein KV-Cache-Eintrag) bis auf wenige Bits professional Koordinate. EDEN geht in vier Schritten vor:

  1. Zufällige Rotation — Mit einer zufälligen orthogonalen Matrix multiplizieren ΠPi. Nach der Drehung sind die Koordinaten identisch verteilt und für große DDungefähr Gaußsch.
  2. Skalare Quantisierung — Runden Sie jede gedrehte Koordinate auf eine von 2B2^b Ebenen aus einem Lloyd-Max-Codebuch, das auf dem trainiert wurde bekannt gedrehte Koordinatenverteilung (BB ist die Zielanzahl der Bits professional Koordinate).
  3. Skala — Mit einem Skalierungsfaktor multiplizieren SS.
  4. Inverse Rotation – Anwenden ΠPi^prime um eine Annäherung wiederherzustellen X^hat{x} des ursprünglichen Vektors.

Während frühere Arbeiten (z. B. Suresh et al. (2017) (6)) nutzte die Drehung hauptsächlich, um die Koordinaten zu verkleinern. Dynamikbereich (die Lücke zwischen dem größten und kleinsten Koordinatenwert), EDEN (1) struggle unseres Wissens nach das erste Quantisierungsschema, das eine stärkere Tatsache der zufälligen Rotation ausnutzte: Die Koordinaten nach der Rotation folgen einer bekannten Verteilung, die uns die Verwendung von a ermöglicht deterministisch Quantisierer gepaart mit einer geschlossenen Skala, die je nach Anwendung entweder MSE minimiert oder die Schätzung unverzerrt macht. Beide Skalen werden analytisch abgeleitet und die Konstruktion ergibt eine asymptotische MSE-Reduktion gegenüber dem vorherigen Ansatz.

Konkret unterscheiden sich die beiden Varianten von EDEN nur in der Wahl SS:

  • EDEN-voreingenommen – Sätze SS auf den geschlossenen Wert, der die Rekonstruktions-MSE minimiert.
  • EDEN-unvoreingenommen – wählt SS Daher ist die dekomprimierte Ausgabe im Durchschnitt korrekt (𝔼(X^)=Xmathbb{E}(hat{x}) = x), was besonders wichtig ist, wenn Sie viele quantisierte Vektoren mitteln (z. B. verteiltes Coaching, Aufmerksamkeit).

Im Vergleich zu EDEN stimmt TurboQuant-mse bei jedem Schritt überein, mit einer Ausnahme: wo EDEN die Skala ableitet SS Analytisch gesehen überspringt TurboQuant-mse die optimierte Skalierung, obwohl es auf die MSE-Minimierung abzielt.

Der folgende Pseudocode zeigt die drei nebeneinander.

Abbildung 1: EDEN-Pseudocode, instanziiert für EDEN-biased, EDEN-unbiased und TurboQuant-mse. Die drei sind identisch, außer bei Schritt 5: der Auswahl von S. Bild vom Autor (5).

Warum sich der optimale Maßstab lohnt

Der Wert der richtigen Skalierung SS wächst mit der Bitbreite. Bei B=1b = 1 Etwas, der Abstand ist marginal. Bei D=128d = 128 Und B=4b = 4 Bits reduziert EDEN-biased MSE um 2,25 % gegenüber TurboQuant-mse, und dies sind die Bitbreiten, die Praktiker tatsächlich für Einbettungen und KV-Caches verwenden.

In den Dimensionen 16 bis 4096 und allen getesteten Bitbreiten B{1,2,3,4}b in {1,2,3,4}EDEN-voreingenommenes vNMSE (vektornormalisiertes MSE, 𝔼(XX^2)/X2mathbb{E}(|x – hat{x}|^2) / |x|^2) liegt in jedem Fall unter TurboQuant-mse (Abbildung 2). Da die Dimension sehr groß wird, wird sie optimum SS Ansatz 1 und die beiden Algorithmen konvergieren, aber bei praktischen Dimensionen (128–1024) bleibt die Lücke bestehen.

Abbildung 2: vNMSE vs. Dimension im Vergleich von EDEN-biased und TurboQuant-mse über Bitbreiten hinweg B{1,2,3,4}b in {1,2,3,4} (Panels von hyperlinks nach rechts). EDEN-biased (wodurch der Skalierungsfaktor optimiert wird). SS) erreicht einen geringeren Fehler als TurboQuant-mse (was behebt S=1S=1) bei jeder getesteten Dimension. Die Kurven konvergieren bei hoher Dimension als optimum SS Ansätze 1. Bild vom Autor (5).

Unvoreingenommene Komprimierung: Einsparung von mehr als einem ganzen Bit

Die obigen Ergebnisse betreffen die voreingenommenen (MSE-minimierenden) Varianten. Betrachten Sie nun den unvoreingenommenen Fall, in dem Anwendungen wie verteiltes Coaching, ungefähre Aufmerksamkeit oder das Abrufen innerer Produkte erforderlich sind 𝔼(X^)=Xmathbb{E}(hat{x}) = x weil sie viele quantisierte Vektoren mitteln.

EDEN-unbiased verwendet denselben Single-Go-Algorithmus wie EDEN-biased, nur mit SS zur Bias-Korrektur ausgewählt. Die unvoreingenommene Variante von TurboQuant, TurboQuant-prod, geht einen anderen Weg: Sie gibt aus (B1)(b-1) Bits auf dem voreingenommenen TurboQuant-mse-Schritt und reserviert 1 Bit für einen QJL (quantisierter Johnson-Lindenstrauss) (4) Korrektur des Residuums (QJL ähnelt EDEN bei B=1b=1aber mit höherer Varianz).

EDEN-unbiased übertrifft TurboQuant-prod in jeder getesteten Konfiguration, und zwar deutlich. Die Lücke ist auf drei strukturelle Vorteile des Single-Go-Designs von EDEN zurückzuführen:

  1. EDEN optimiert den Maßstab. TurboQuant-prod erbt TurboQuant-mse S=1s=1 Die erste Stufe ist daher mit der gleichen MSE-Strafe verbunden.
  2. Die 1-Bit-Konstruktion von EDEN weist eine geringere Varianz auf als QJL. In großen Dimensionen konvergiert EDENs 1-Bit-vNMSE π/210,57pi/2 – 1 ca. 0,57 (1)während QJLs gegen konvergieren π/21,57pi/2 ca. 1,57 (4)ungefähr 2,75× höher.
  3. EDEN gibt das gesamte Bit-Price range für einen einzigen unverzerrten Quantisierer aus. TurboQuant-prod teilt das Price range auf (B1)(b-1) voreingenommene Bits plus 1 Restbit, was empirisch schlechter abschneidet als alle Ausgaben BB Bits auf einem einzigen unvoreingenommenen Quantisierer (5).

Diese Effekte verstärken sich. Das Ergebnis: 1-Bit-, 2-Bit- und 3-Bit-EDEN-Unbiased sind jeweils genauer als 2-Bit-, 3-Bit- bzw. 4-Bit-TurboQuant-Prod (Abbildung 3). Durch den Austausch in EDEN können Sie ein Bit professional Koordinate reduzieren und trotzdem die Genauigkeit von TurboQuant-prod erreichen.

Abbildung 3: vNMSE vs. Dimension im Vergleich von EDEN-unbiased und TurboQuant-prod über Bitbreiten hinweg B{1,2,3,4}b in {1,2,3,4}(Panels von hyperlinks nach rechts). EDEN-unbiased erreicht in jeder Dimension einen geringeren Fehler. Die Lücke ist groß genug, dass EDEN mit BB Bits übertrifft TurboQuant-Produkt oft mit B+1b + 1 Bits. Bild vom Autor (5).

Auf TurboQuants eigenen Benchmarks

Das gleiche Bild ergibt sich bei den standardmäßigen ANN-Benchmarks, die TurboQuant auswertet, nämlich denen von Stanford GloVe vorab trainierte Wortvektoren (Open Knowledge Commons Public Area-Widmung und -Lizenz v1.0) und Qdrants dbpedia-entities-openai3-text-embedding-3-large Einbettungen (Apache 2.0) unter Verwendung des veröffentlichten Evaluierungscodes von TurboQuant:

EDEN-biased erreicht einen niedrigeren MSE als TurboQuant-mse, EDEN-unbiased erreicht einen deutlich geringeren inneren Produktfehler als TurboQuant-prod, und die Rückruffunktion für den nächsten Nachbarn begünstigt bei beiden Datensätzen EDEN (Abbildung 4).

Abbildung 4: Rückruf des nächsten Nachbarn bei GloVe- und OpenAI3-Einbettungen bei 2 und 4 Bits professional Koordinate. EDEN-unbiased übertrifft TurboQuant-prod in allen vier Einstellungen. Bild vom Autor (5).

Fazit: Verwenden Sie EDEN; Auf die optimale Skalierung kommt es an

Die EDEN-Skala verbindet die bekannte Postrotationsverteilung mit einem analytisch optimalen Quantisierer. TurboQuant-mse behält die Rotation von EDEN und das Codebuch bei, aber Pins S=1S=1was es zu einem streng schwächeren Spezialfall macht. TurboQuant-prod fügt darüber hinaus eine 1-Bit-QJL-Stufe hinzu, in der EDEN-unbiased die gleiche Eigenschaft mit höherer Genauigkeit erhält, indem einfach eine Skala zur Bias-Korrektur ausgewählt wird.

  • Für MSE-gerichtete Komprimierung (Modellgewichtungsquantisierung, Suche nach nächsten Nachbarn, KV-Cache): EDEN-biased berechnet den optimalen Maßstab SS und schlägt durchweg TurboQuant-mse (das Ist EDEN mit S=1S=1 behoben).
  • Für eine unvoreingenommene Schätzung (verteilte Mittelwertschätzung, ungefähre Aufmerksamkeit, Abruf innerer Produkte): EDEN-unbiased übertrifft die Bit-Splitting-Strategie von TurboQuant-prod erheblich, und zwar um Margen, die mehr als ein ganzes Bit professional Koordinate wert sind.

EDEN wurde ursprünglich für die verteilte Mittelwertschätzung im föderierten und verteilten Coaching entwickelt. In späteren Arbeiten wurde es beispielsweise auf die Einbettung von Komprimierung für die Neuordnung von Dokumenten angewendet (SDR2022 (8)), angepasst für das NVFP4-LLM-Coaching (MS-EDEN In Quartett II2026 (10)), verallgemeinerte es auf Vektorquantisierung für datenfreie LLM-Gewichtskomprimierung (HIGGS2025 (9)), das dann für die KV-Cache-Komprimierung verwendet wurde (AQUA-KV2025 (11)).

EDEN-Implementierungen sind verfügbar: in PyTorch und TensorFlowIn Intels OpenFL (7)und seine 1-Bit-Variante bei Google FedJax, TensorFlow FederatedUnd TensorFlow-Modelloptimierung.

Die vollständige technische Vergleichsanalyse mit TurboQuant (alle Zahlen, detaillierte experimentelle Methodik) finden Sie in unserem Hinweis (5).

Die ursprünglichen Ableitungen, Beweise und weiteren Erweiterungen finden Sie in unseren Originalarbeiten (1) (2).

Referenzen

  1. S. Vargaftik, R. Ben-Basat, A. Portnoy, G. Mendelson, Y. Ben-Itzhak, M. Mitzenmacher, ANTRIEB: Ein-Bit-Schätzung des verteilten Mittelwerts (2021), NeurIPS 2021.
  2. S. Vargaftik, R. Ben-Basat, A. Portnoy, G. Mendelson, Y. Ben-Itzhak, M. Mitzenmacher, EDEN: Kommunikationseffiziente und robuste verteilte Mittelwertschätzung für föderiertes Lernen (2022), ICML 2022.
  3. A. Zandieh, M. Daliri, A. Hadian, V. Mirrokni, TurboQuant: On-line-Vektorquantisierung mit nahezu optimaler Verzerrungsrate (2026), ICLR 2026.
  4. A. Zandieh, M. Daliri, I. Han, QJL: 1-Bit-quantisierte JL-Transformation für KV-Cache-Quantisierung ohne Overhead (2024), arXiv:2406.03482.
  5. R. Ben-Basat, Y. Ben-Itzhak, G. Mendelson, M. Mitzenmacher, A. Portnoy, S. Vargaftik, Eine Anmerkung zu TurboQuant und der früheren DRIVE/EDEN-Arbeitslinie (2026), arXiv:2604.18555.
  6. AT Suresh, FX Yu, S. Kumar, HB McMahan, Verteilte Mittelwertschätzung mit eingeschränkter Kommunikation (2017), ICML 2017.
  7. VMware Open Supply-Weblog, EDEN der VMware Analysis Group wird Teil von OpenFL (November 2022).
  8. N. Cohen, A. Portnoy, B. Fetahu, A. Ingber, SDR: Effizientes neuronales Re-Rating mithilfe prägnanter Dokumentdarstellung (2022), ACL 2022.
  9. V. Malinovskii, A. Panferov, I. Ilin, H. Guo, P. Richtárik, D. Alistarh, HIGGS: Die Grenzen der Quantisierung großer Sprachmodelle mithilfe des Linearitätssatzes erweitern (2025), NAACL 2025.
  10. A. Panferov, E. Schultheis, S. Tabesh, D. Alistarh, Quartett II: Genaues LLM-Vortraining in NVFP4 durch verbesserte unvoreingenommene Gradientenschätzung (2026), arXiv:2601.22813.
  11. A. Shutova, V. Malinovskii, V. Egiazarian, D. Kuznedelev, D. Mazur, N. Surkov, I. Ermakov, D. Alistarh, Cachen Sie mich, wenn Sie müssen: Adaptive Schlüsselwertquantisierung für große Sprachmodelle (2025), ICML 2025.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert