DeepReNforce-Group führt CUDA-L1 ein: ein RLL-Framework für automatisierte Verstärkungslernen (RL) für die CUDA-Optimierung, um 3x mehr Leistung von GPUs zu entsperren

Geschätzte Lesezeit: 6 Minuten

AI hat gerade die Kraft von GPUs freigeschaltet – ohne menschliche Intervention. DeepReInforce -Group stellte ein neues Rahmen namens CUDA-L1 das liefert einen Durchschnitt 3.12 × Beschleunigung und bis zu 120 × Peakbeschleunigung Bei 250 realen GPU-Aufgaben. Dies ist kein bloßes akademisches Versprechen: Jedes Ergebnis kann mit Open-Supply-Code auf weit verbreitete NVIDIA-{Hardware} reproduziert werden.

Der Durchbruch: Kontrastives Verstärkungslernen (kontrastive RL)

Im Herzen von CUDA-L1 liegt ein großer Sprung in der KI-Lernstrategie: Kontrastives Verstärkungslernen (kontrastive RL). Im Gegensatz zu herkömmlichen RL, bei denen eine KI lediglich Lösungen generiert, erhält numerische Belohnungen und aktualisiert seine Modellparameter blind, kontrastive RL Füttert die Leistungsbewertungen und frühere Varianten direkt in die Eingabeaufforderung der nächsten Technology zurück.

Leistungsbewertungen und Codevarianten werden der KI gegeben In jeder Optimierungsrunde.
Das Modell muss dann Schreiben Sie eine „Leistungsanalyse“ in der natürlichen Sprache– reflektieren, welcher Code am schnellsten conflict, Warumund welche Strategien führten zu dieser Beschleunigung.
Jeder Schritt erzwingt komplexe Argumentationleitete das Modell, um nicht nur eine neue Codevariante, sondern auch ein allgemeineres, datengetriebenes mentales Modell dessen, was Cuda-Code schnell macht, zu synthetisieren.

Das Ergebnis? Die KI entdeckt nicht nur bekannte Optimierungenaber auch Nicht offene Tips dass selbst menschliche Experten oft übersehen – einschließlich mathematischer Verknüpfungen, die die Berechnung vollständig umgehen, oder Speicherstrategien, die auf bestimmte {Hardware} -Macken abgestimmt sind.

Das obige Diagramm erfasst die Dreistufe Trainingspipeline:

Stufe 1: Der LLM wird mit validiertem CUDA-Code fein abgestimmt-gesammelt durch Stichproben von führenden Fundamentmodellen (Deepseek-R1, GPT-4O, Claude usw.), aber nur korrekte und ausführbare Ausgaben beibehalten.
Stufe 2: Das Modell tritt in eine Selbsttrainingschleife ein: Es generiert viel CUDA-Code, hält nur die funktionalen und verwendet diese, um weiter zu lernen. Ergebnis: schnelle Verbesserung der Codekorrektheit und -abdeckung – alle ohne manuelle Beschriftung.
Stufe 3: Im Kontrastive RL-SectionDas System probiert mehrere Codevarianten ab, zeigt jeweils mit seiner gemessenen Geschwindigkeit und fordert die KI zur Debattierung, Analyse und Outsaison frühere Generationen heraus, bevor die nächste Optimierungsrunde erstellt wird. Diese Reflexions- und Improvierungsschleife ist das Schlüsselrad, das huge Beschleunigungen liefert.

Wie intestine ist CUDA-L1? Harte Daten

Beschleunigung auf der ganzen Linie

Kernelbench-Der Goldstandard-Benchmark für die Generierung von GPU-Code (250 Pytorch Workloads)-wurde zur Messung von CUDA-L1 verwendet:

Modell/Stadium	Avg. Beschleunigung	Maximale Beschleunigung	Mittlere	Erfolgsrate
Vanilla llama-3.1-405b	0,23 ×	3.14 ×	0 ×	68/250
Deepseek-R1 (RL-Tuned)	1,41 ×	44,2 ×	1,17 ×	248/250
CUDA-L1 (alle Stufen)	3.12 ×	120 ×	1,42 ×	249/250

3,12 × Durchschnittsbezirk: Die KI fand Verbesserungen in praktisch jeder Aufgabe.
120 × Maximale Beschleunigung: Einige rechnerische Engpässe und ineffizienten Code (wie diagonale Matrix -Multiplikationen) wurden mit grundsätzlich überlegenen Lösungen transformiert.
Funktioniert über {Hardware}: Codes optimiert auf Nvidia A100 GPU erhebliche Gewinne portiert auf andere Architekturen (L40, H100, RTX 3090, H20), mit mittleren Beschleunigungen von 2,37 × bis 3,12 ×medianer Gewinne über alle Geräte über 1,1 × über alle Geräte.

Fallstudie: Entdecken Sie versteckte 64 × und 120 × Beschleunigung

**Diag (a) * B – Matrix -Multiplikation mit diagonaler**

Referenz (ineffizient): torch.diag(A) @ B Konstruiert eine volle diagonale Matrix, die O (n²m) Berechnung/Speicher erfordert.
CUDA-L1 optimiert: A.unsqueeze(1) * B Nutzt die Rundfunk, nur O (NM) -Komplexität – Komplexität –was zu einer 64 -fach -Beschleunigung führt.
Warum: Die KI argumentierte, dass es unnötig sei, eine volle Diagonale zuzuweisen; Diese Erkenntnis conflict über die Brute-Power-Mutation nicht erreichbar, tauchte jedoch durch vergleichende Reflexion über erzeugte Lösungen auf.

3D transponierte Faltung – 1220 × schneller

Ursprünglicher Code: Führte die vollständige Faltung, das Pooling und die Aktivierung durch – auch wenn Eingabe oder Hyperparameter alle Nullen mathematisch garantiert haben.
Optimierter Code: Verwendet „mathematische Kurzschluss“-verabreicht das gegebene min_value=0Die Ausgabe konnte sofort auf Null eingestellt werden, Umgang mit aller Berechnungs- und Speicherzuweisung. Dieser eine Einsicht geliefert Größenordnungen Mehr Beschleunigung als Mikrooptimierungen auf {Hardware}-Ebene.

Geschäftseffekte: Warum dies wichtig ist

Für Geschäftsführer

Direkte Kosteneinsparungen: Jede 1% Beschleunigung in GPU -Workloads führt zu 1% weniger Cloud -GPusekunden, niedrigeren Energiekosten und mehr Modelldurchsatz. Hier lieferte die KI im Durchschnitt, Über 200% zusätzlicher Berechnung aus derselben Hardwareinvestition.
Schnellere Produktzyklen: Automatische Optimierung reduziert den Bedarf an CUDA -Experten. Die Groups können Leistungssteigerungen in Stunden und nicht in Monaten freischalten und sich auf Merkmale und Forschungsgeschwindigkeiten anstelle von niedrigem Stimmen konzentrieren.

Für KI -Praktiker

Überprüfbar, Open Supply: Alle 250 optimierten Cuda-Kerne sind offen. Sie können die Geschwindigkeitsgewinne selbst in A100, H100, L40 oder 3090 GPUs testen – kein Vertrauen.
Keine Cuda -schwarze Magie erforderlich: Der Prozess beruht nicht auf geheime Sauce, proprietäre Compiler oder Stimmen des Menschen in der Schleife.

Für KI -Forscher

Area Argumenting Blueprint: Contrastive-RL bietet einen neuen Ansatz zum Coaching von KI in Domänen, in denen Korrektheit und Leistung-nicht nur natürliche Sprache-Materie.
Hacking belohnen: Die Autoren tauchen tief in die Artwork und Weise ein, wie die KI subtile Heldentaten und „Cheats“ entdeckte (wie Manipulation von Asynchronstreams für falsche Beschleunigungen) und robuste Verfahren zur Erkennung und Vorbeugung eines solchen Verhaltens umzusetzen.

Technische Erkenntnisse: Warum kontrastive RL gewinnt

Efficiency-Suggestions ist jetzt im Kontext: Im Gegensatz zu Vanille RL kann die KI nicht nur durch Versuch und Irrtum lernen, sondern auch durch Veräußerte Selbstkritik.
Selbstverbesserung Schwungrad: Die Reflexionsschleife macht das Modell strong, um das Spielen zu belohnen und sowohl evolutionäre Ansätze (fester Parameter, kontextübergreifendes Lernen) als auch traditionelle RL (Blind Coverage Gradient) zu übertreffen.
Verallgemeinert und entdeckt grundlegende Prinzipien: Die KI kann Schlüsseloptimierungsstrategien wie Speicherkoaleszenz, Thread-Block-Konfiguration, Operation Fusion, Shared Reminiscence-Wiederverwendung, Verringerung der Thread-Block-Konfiguration und mathematische Äquivalenztransformationen kombinieren, rangieren und anwenden.

Tabelle: High-Techniken, die von CUDA-L1 entdeckt wurden

Optimierungstechnik	Typische Beschleunigung	Beispiel Einsicht
Speicherlayout -Optimierung	Konsistente Schubs	Zusammenhängender Speicher/Speicher für die Cache -Effizienz
Speicherzugriff (Koalescing, geteilt)	Moderat bis hohe	Vermeidet Bankkonflikte, maximiert die Bandbreite
Operation Fusion	Hoch mit pipelierten OPs	Fusion
Mathematische Kurzschluss	Extrem hoch (10-100 ×)	Erkennt, wann die Berechnung vollständig übersprungen werden kann
Thread Block/Parallel Config	Mäßig	Passt Blockgrößen/-formen an {Hardware}/Aufgabe an
Kettniveau/Zweigloser Reduzierungen	Mäßig	Verringert die Divergenz und synchronisieren Sie den Overhead
Register/Shared Speicheroptimierung	Mittelschwer	Caches Häufige Daten in der Nähe der Berechnung
Asynchronisierungsausführung, minimale Synchronisierung	Variiert	Überlappt I/O, ermöglicht die Pipeline -Berechnung

Schlussfolgerung: KI ist jetzt ein eigener Optimierungsingenieur

Mit CUDA-L1 hat AI werden ein eigener Efficiency -IngenieurBeschleunigung der Forschungsproduktivität und {Hardware} -Renditen – ohne auf seltene menschliche Fachkenntnisse zu stützen. Das Ergebnis ist nicht nur höhere Benchmarks, sondern eine Blaupause für KI -Systeme, die Lehren Sie sich selbst, wie Sie das volle Potenzial der {Hardware} nutzen können, auf der sie laufen.

AI baut jetzt ein eigenes Schwungrad auf: effizientere, aufschlussreichere und besser in der Lage, die Ressourcen zu maximieren, die wir ihm geben – für Wissenschaft, Industrie und darüber hinaus.

Schauen Sie sich das an PapierAnwesend Codes Und Projektseite. Fühlen Sie sich frei, unsere zu überprüfen Github -Seite für Tutorials, Codes und Notizbücher. Fühlen Sie sich auch frei, uns zu folgen Twitter Und vergessen Sie nicht, sich unserer anzuschließen 100k+ ml Subreddit und abonnieren Unser Publication.

Asif Razzaq ist der CEO von Marktechpost Media Inc. Sein jüngstes Bestreben ist die Einführung einer Medienplattform für künstliche Intelligenz, Marktechpost, die sich durch die ausführliche Berichterstattung über maschinelles Lernen und Deep-Studying-Nachrichten auszeichnet, die von einem breiten Publikum technisch intestine und leicht verständlich sind. Die Plattform verfügt über über 2 Millionen monatliche Ansichten und veranschaulicht ihre Beliebtheit des Publikums.

DeepReNforce-Group führt CUDA-L1 ein: ein RLL-Framework für automatisierte Verstärkungslernen (RL) für die CUDA-Optimierung, um 3x mehr Leistung von GPUs zu entsperren

Der Durchbruch: Kontrastives Verstärkungslernen (kontrastive RL)

Wie intestine ist CUDA-L1? Harte Daten

Beschleunigung auf der ganzen Linie

Fallstudie: Entdecken Sie versteckte 64 × und 120 × Beschleunigung

**Diag (a) * B – Matrix -Multiplikation mit diagonaler**

3D transponierte Faltung – 1220 × schneller

Geschäftseffekte: Warum dies wichtig ist

Für Geschäftsführer

Für KI -Praktiker

Für KI -Forscher

Technische Erkenntnisse: Warum kontrastive RL gewinnt

Tabelle: High-Techniken, die von CUDA-L1 entdeckt wurden

Schlussfolgerung: KI ist jetzt ein eigener Optimierungsingenieur

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

Neue Studie kommt zu dem Ergebnis, dass 92 % der Amazon Leo-Satelliten zu hell für wissenschaftliche Forschung sind

Der multimodale KI-Leitfaden: Imaginative and prescient, Stimme, Textual content und darüber hinaus

Über das Kontextfenster hinausgehen: Rekursive Sprachmodelle in Aktion

Finanzanalysen zeigen die versteckten Kosten auf, wenn das System nicht gewechselt wird

About

Categories

Tags

Recent Post

Neue Studie kommt zu dem Ergebnis, dass 92 % der Amazon Leo-Satelliten zu hell für wissenschaftliche Forschung sind

Der multimodale KI-Leitfaden: Imaginative and prescient, Stimme, Textual content und darüber hinaus

Der Durchbruch: Kontrastives Verstärkungslernen (kontrastive RL)

Wie intestine ist CUDA-L1? Harte Daten

Beschleunigung auf der ganzen Linie

Fallstudie: Entdecken Sie versteckte 64 × und 120 × Beschleunigung

Diag (a) * B – Matrix -Multiplikation mit diagonaler

3D transponierte Faltung – 1220 × schneller

Geschäftseffekte: Warum dies wichtig ist

Für Geschäftsführer

Für KI -Praktiker

Für KI -Forscher

Technische Erkenntnisse: Warum kontrastive RL gewinnt

Tabelle: High-Techniken, die von CUDA-L1 entdeckt wurden

Schlussfolgerung: KI ist jetzt ein eigener Optimierungsingenieur

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt

**Diag (a) * B – Matrix -Multiplikation mit diagonaler**