Deepseek #OpenSourceWeek Tag 1: Veröffentlichung von FlashMla

Große Neuigkeiten aus Deepseek! Das Unternehmen hat offiziell sein erstes Open-Supply-Repository eingeführt, in dem Cuda-Kerne nutzt, um die Geschwindigkeit und Effizienz von LLMs zu verbessern. Im Zentrum dieses Replace ist Flasmlaein fortschrittlicher multi-latenter Aufmerksamkeits-Dekodierungskern (MLA), der speziell für Hopper-GPUs optimiert wurde. Diese Technologie verarbeitet sequenzen variabler Länge effizienter, wodurch das AI-Modell reibungsloser und schneller wird.

🚀 Tag 1 von #OpenSourceWeek: FlashMla

Es ist sich geehrt, FlashMLA zu teilen-unser effizienter MLA-Dekodierungskern für Hopper-GPUs, optimiert für Sequenzen mit variabler Länge und jetzt in der Produktion.

✅ BF16 -Unterstützung
✅ PAGED KV -Cache (Blockgröße 64)
⚡ 3000 GB/s Speichergebunden & 580 Tflops…

– Deepseek (@deepseek_ai) 24. Februar 2025

Wichtige Highlights der Veröffentlichung:

BF16 -Unterstützung
PAGED KV Cache mit einer Blockgröße von 64

Diese Optimierungen liefern bis zu 3000 GB/s in Speicherkonfigurationen und 580 TFLOPs in berechnungsgebundenen Szenarien, wenn Sie auf H800 SXM5-GPUs mit CUDA 12.6 ausgeführt werden.

Mit dieser Leistung hat AI -Inferenz nur ein großes Improve erhalten! Klingt faszinierend, oder?

Hinweis: Früher wurde MLA in Deepseek -Modellen verwendet, und jetzt macht FlashMLA mit Cuda -Kerneln das Internet hosting Deepseek AIs R1 + V3 schneller!

Was ist FlashMla?

FlashMLA ist ein optimierter MLA-Dekodierungskernel, der speziell für Hopper GPUs, die Architektur der nächsten Technology von Nvidia, entwickelt wurde. Es ist im Hinblick auf die Leistung erstellt, die Deepseeks Engagement für die Beschleunigung von KI -Modellen im Maßstab verkörpert. FlashMLA sorgt für eine schnellere und effizientere Verarbeitung, bei der jede Millisekunden zählt.

Hardwareanforderungen

FlashMLA ist so konzipiert, dass sie auf Hochleistungs-GPUs ausgeführt werden, insbesondere auf GPUs der Hopper-Architektur wie dem H800 SXM5. Es erfordert CUDA 12.3+ und Pytorch 2.0+ für eine optimale Leistung.

Präzision und Optimierung

Derzeit unterstützt BF16 Präzisionum eine effiziente Berechnung zu gewährleisten und gleichzeitig die numerische Stabilität aufrechtzuerhalten.
Implementiert a PAGED KV Cache mit a Blockgröße von 64Verbesserung der Gedächtniseffizienz und Reduzierung der Latenz in großen Modellen.

Leistungsbenchmarks

Basierend auf den Ergebnissen des Beamten Github -RepositoryFlashMLA liefert eine beeindruckende Leistung:

Speichereffizienz: Erreicht bis zu 3000 GB/s Speicherbandbreite und nähert sich dem theoretischen Peak von 3350 Gb/s für den H800 SXM5.
Kraft berechnen: Erreicht bis zu 580 tflops Für die BF16 -Matrix -Multiplikation – signifikant über den theoretischen Peak des H800 von signifikant 260 tflopsnachweisen optimierte Nutzung von Rechenressourcen.

Diese Kombination aus Bandbreiten mit hoher Speicher, effizientem Caching und außergewöhnlicher Rechendurchsatz macht FlashMLA zu einer leistungsstarken Auswahl für KI -Workloads, die excessive Leistung erfordern.

Wenn dies alles für Sie kauert ist, dann mach dir keine Sorgen, ich werde dies ausführlich erklären. Beginnen wir mit mehrköpfiger latenter Aufmerksamkeit (MLA)

Kurz gesagt über die latente Aufmerksamkeit mit mehreren Kopf (MLA)

Die latente Aufmerksamkeit mit mehreren Kopf (MLA) wurde mit der Freisetzung der Deepseek-V2-Variante der Multi-Head-Aufmerksamkeit (MHA) eingeführt. Es gehört zu einer Familie von Techniken, die eine wichtige Herausforderung bei der Skalierung großer Modelle ansprechen: Reduzierung der KV-Cache-Größe, die zu einem wichtigen Speicher Engpass werden kann. Andere Methoden in dieser Kategorie umfassen die Aufmerksamkeit der Gruppenquerien und die Aufmerksamkeit mit mehreren Quellen. Während diese Ansätze dazu beitragen, den Speicherverbrauch zu verringern, sind sie häufig mit einem Kompromiss verbunden – wobei sie eine gewisse Leistung im Austausch für eine größere Skalierbarkeit erkennen.

MLA verfolgt einen anderen Ansatz, indem sie eine faktorisierte Projektionsmatrix mit niedrigem Rang verwendet, was ähnlich wie die Aufmerksamkeit mit mehreren Quellen funktioniert. Anstatt jedoch einfach mehrmals einen einzelnen Kopf zu wiederholen, dekomprimiert er einen latenten Vektor, um für jeden Q -Kopf einen einzigartigen und geeigneten Ok- und V -Kopf zu erzeugen. Laut Deepseek reduziert diese Methode nicht nur den Speicheraufwand, sondern verbessert auch die Leistung des Modells, anstatt dies zu beeinträchtigen.

Aufmerksamkeit der Standardaufmerksamkeit und deren Grenzen

Multi-Head-Aufmerksamkeit (MHA) verbessert die Fähigkeit eines Modells, verschiedene Beziehungen in Daten durch Verarbeitung von Abfragen, Tasten und Werten unabhängig von mehreren Aufmerksamkeitsköpfen aufzunehmen. Diese Flexibilität gilt jedoch, insbesondere während der Inferenz. Der KV -Cache, der Schlüssel und Werte von früheren Token speichert, erweitert sich linear mit der Sequenzlänge. Dies wird schnell zu einem Engpass, der einen signifikanten GPU -Speicher für lange Sequenzen verbraucht.

Für ein Modell mit n_h Aufmerksamkeitsköpfe und eine Kopfdimension von d_hDie KV -Cache -Größe wird berechnet als:

Bei großen Sequenzlängen kann dies die Speichergrenzwerte überschreiten und die Modellskalierbarkeit und Effizienz des Modells einschränken.

Wie optimiert MLA den Speicherverbrauch?

Erinnerung latente Aufmerksamkeit (MLA) befasst sich mit dieser Herausforderung, indem Sie eine kompaktere Möglichkeit einführen, KV -Informationen zu speichern. Anstelle von direkten Schlüsseln und Werten komprimiert MLA sie in einen latenten Vektor c_t Für jeden Token Terhebliche Reduzierung der Speicheranforderungen. Der Prozess funktioniert wie folgt:

Der versteckte Zustand H_T wird in einen latenten Vektor projiziert c_t Verwenden einer gelernten Transformationsmatrix W^{kv}Wo c_t hat eine viel kleinere Dimension d_c (im Vergleich zu n_h * d_h).

Schlüssel (K_T) und Werte (v_t) werden mit:

Hier, W^{UK} Und W^{uv} sind Transformationsmatrizen Mapping d_c Zurück zu n_h * d_h.

Anstatt zu speichern K_T Und v_t Direkt nur MLA Caches c_tReduzierung der KV -Cache -Größe auf seq_len × d_c.

Dieser Ansatz schneidet die Speicherverwendung drastisch ab-Deepseek-V2 zeigt bis zu 93,3% Reduktionum eine längere Kontextbearbeitung und eine effizientere Verarbeitung zu ermöglichen.

Speicheroptimierung – Ermöglicht die Verarbeitung erweiterter Sequenzen, ohne die GPU -Speichergrenzen zu übertreffen.
Leistungsaufbewahrung -Verwaltet oder verbessert die Modellleistung, wie in Deepseek-V2 beobachtet.
Kosteneffizienz -Reduziert die Rechenkosten für Schulungen und Inferenz und macht groß angelegte Modelle praktischer.

Durch die Nutzung von MLA können Modelle ein längeres Kontextverständnis erreichen und gleichzeitig die Hardwareanforderungen überschaubar halten und neue Möglichkeiten für effiziente großflächige KI-Anwendungen freischalten.

Um dies ausführlich zu verstehen, lesen Sie:

Schlüsselteilendeckung: Verbesserung der autoregressiven Dekodierung

Das Caching des Schlüsselwerts (KV) ist eine leistungsstarke Optimierungstechnik, die den autoregressiven Dekodierungsprozess beschleunigt, indem zuvor berechnete Schlüsselwertpaare gespeichert und wieder verwendet werden, anstatt sie bei jedem Schritt neu zu berechnen.

Diese Methode dient hauptsächlich während der Inferenz, da das Coaching die gesamte Eingangssequenz gleichzeitig verarbeitet. Durch die Nutzung von KV -Caching vermeiden wir redundante Berechnungen, wodurch die Effizienz erheblich verbessert wird.

Wie funktioniert KV Caching?

KV Caching arbeitet typischerweise als Rollpuffer. Während jedes Dekodierungsschritts:

Nur die neue Abfrage (q) wird berechnet.
Zuvor zwischengespeicherte Schlüsselwertpaare (okay, v) werden wiederverwendet.
Der Aufmerksamkeitsmechanismus verarbeitet dann das neue Q neben dem gespeicherten Ok und V.
Die neuesten Tokens Ok und V werden für zukünftige Schritte zum Cache hinzugefügt.

Dieser Ansatz reduziert den Rechenaufwand und macht autoregressive Modelle effizienter. Es kommt jedoch mit einem Kompromiss: Erhöhter Speicherverbrauch. Da der KV -Cache proportional mit Faktoren wie Stapelgröße, Sequenzlänge, versteckter Größe und der Anzahl der Aufmerksamkeitsköpfe gewährt wird, kann es schnell zu einem Speicher Engpass werden – insbesondere für große Chargen oder lange Sequenzen.

Überwinden der Reminiscence Problem

Um diese Gedächtnisbeschränkungen anzugehen, sind zwei Schlüsselstrategien aufgetaucht:

Multiquery Achtung (MQA): Reduziert den Speicherverbrauch, indem Sie Ok und V über mehrere Abfragen teilen.
Aufmerksamkeit der Gruppierquerität (GQA): Schlägt ein Gleichgewicht zwischen Normal-Multi-Head-Aufmerksamkeit und MQA durch, indem Abfragen in kleinere Gruppen eingebunden werden, wodurch die Speicherbelastung reduziert und gleichzeitig die Effizienz beibehalten wird.

Durch die Integration dieser Techniken ermöglicht KV Caching eine schnellere und skalierbare Inferenz, was es zu einer wesentlichen Komponente für moderne transformatorbasierte Architekturen macht.

FlashMLA: Setzen Sie Deepseeks modernste Modelle an

Deepseeks Modelle nutzen den FlashMLA bemerkenswerte Effizienz und Skalierbarkeit in den folgenden Modellen zu erreichen.

Durch Integration von FlashMLADeepseek überschreitet die Grenzen der AI -Effizienz und der wirtschaftlichen Machbarkeit.

Lassen Sie uns nun über den Nvidia Hopper sprechen.

Was ist Nvidia Hopper?

NVIDIA Hopper ist eine revolutionäre GPU-Architektur, mit der künstliche Intelligenz (KI) und Hochleistungs-Computing (HPC) -Wergungen (Hochleistungs-Computing) beauftragt werden sollen. Benannt nach dem wegweisenden Informatiker Grace HopperDiese modernste Technologie ist für eine großflächige parallele Verarbeitung mit außergewöhnlicher Gedächtniseffizienz erstellt. Es ermöglicht Forschern, Entwicklern und Unternehmen, Durchbruchsgeschwindigkeiten in AI, maschinellem Lernen und Deep -Studying -Anwendungen zu erreichen.

In der Nvidia Hopper Structure

Die Nvidia Hopper -Architektur ist mit über 80 Milliarden Transistoren gepackt und basiert auf dem Superior 4N -Prozess von TSMC. Es umfasst wichtige Innovationen wie NVLink Change, Confidential Computing, die Transformator-Engine und die MIG-MIGU der zweiten Technology (Multi-Instanz-GPU). Diese Technologien befeuern die Leistung des NVIDIA -GPUs H100 und H200 und machen sie zur ultimativen Wahl für KI -Arbeitsbelastungen – von Coaching und Schlussfolgerung bis hin zu generativem KI und tiefem Lernen.

Egal, ob Sie sich mit massiven Datensätzen befassen, ausgefeilte KI -Modelle ausbilden oder komplexe Simulationen ausführen, Nvidia Hopper liefert die Geschwindigkeit, Skalierbarkeit und Effizienz, die erforderlich sind, um die Grenzen von AI und Computing zu überschreiten.

Die Leistung

Die optimierten Cuda-Kerne in der Implementierung von Deepseek AI erzielen eine tatsächliche Leistung von 580 TFLOPs (Billionen Gleitkomma-Operationen professional Sekunde) für BF16 (BFLOAT16) Matrix-Multiplikation-der mehr als das Doppelte des theoretischen Peaks von 260 Tflops für das H800-GPU ist.

Was impliziert das?

Theoretischer Peak im Vergleich zur tatsächlichen Leistung
- Theoretische Peak TFLOPS ist eine grobe Obergrenze dessen, was eine GPU unter idealen Bedingungen erreichen kann.
- In realen Szenarien ist die tatsächliche Leistung aufgrund von Ineffizienzen wie Speicher Engpässen und suboptimaler Kernelausführung häufig niedriger.
Die Grenzen mit Optimierung durchbrechen
- Deepseeks Cuda -Kerne (wie FlashMLA) optimieren, wie Berechnungen auf der GPU geplant und ausgeführt werden.
- Sie nutzen GPU -Kerne, Speicherbandbreite und Anweisungsausführung besser, um die erwartete Leistung zu übertreffen.
Wie ist das möglich?
- Zu den Optimierungen gehören wahrscheinlich Techniken wie Tensor -Kernfusion, effiziente Speicherzugriffsmuster und reduzierter Rechenaufwand.
- Anstatt sich einfach auf rohe Tflops zu verlassen, maximiert Deepseek die tatsächliche {Hardware} -Nutzung.

Die Tatsache, dass die Optimierungen von Deepseek die erwartete Leistung mehr als verdoppeln, deutet auf eine äußerst effiziente Verwendung der Rechenleistung der GPU hin, wodurch KI -Workloads viel schneller als herkömmliche Implementierungen gestaltet werden.

Abschluss

Deepseeks Freisetzung von FlashMLA markiert einen signifikanten Durchbruch in der AI -Inferenz -Effizienz, insbesondere bei Hopper -GPUs. Durch die Einführung von Multi-Latent Achtung (MLA) optimiert Deepseek die Speicherverwendung und die Aufrechterhaltung oder sogar die Verbesserung der Modellleistung. Der PAGED KV Cache und BF16-Unterstützung ermöglichen die Hochgeschwindigkeitsverarbeitung, wobei die Speicherbandbreite 3000 GB/s und die Rechenleistung von bis zu 580 TFLOPs auf H800 SXM5-GPUs erreicht.

MLA reduziert die KV-Cache-Größe drastisch-bis zu 93,3%-groß angelegte KI-Modelle effizienter und kostengünstiger. Diese Innovation ist von zentraler Bedeutung für Deepseek-V2 und V3 und ermöglicht einen längeren Kontextbeschaffung, eine schnellere Inferenz und niedrigere Schulungskosten. Mit FlashMLA drückt Deepseek die Grenzen der KI-Skalierbarkeit und macht groß angelegte KI zugänglicher und praktischer und setzt gleichzeitig neue Requirements für die Modelleffizienz und die wirtschaftliche Lebensfähigkeit.

Bleib dran Analytics Vidhya Weblog Für unsere detaillierte Analyse zu Deepseek’s Day 2 Launch!

Hallo, ich bin Pankaj Singh Negi – Senior Content material Editor | Leidenschaftlich über das Geschichtenerzählen und das Erstellen überzeugender Erzählungen, die Ideen in einen wirkungsvollen Inhalt verwandeln. Ich liebe es, über die Technologie zu lesen, die unseren Lebensstil revolutioniert.

Deepseek #OpenSourceWeek Tag 1: Veröffentlichung von FlashMla