Trajectory veröffentlicht einen gleichzeitigen Multi-LoRA-Trainingsstapel für kontinuierliches Lernen und meldet einen 2,81-fachen Anstieg des Experimentierdurchsatzes

Der gleichzeitige Multi-LoRA-Stack von Trajectory meldet einen 2,81-fachen Anstieg des Experimentierdurchsatzes gegenüber Single-Tenant-RL, wobei sich der gesamte Code im NovaSky-AI/SkyRL-GitHub-Repository befindet.

Die meisten Sprachmodelle verbessern sich durch diskontinuierliche Sprünge. Ein Crew sammelt Daten, trainiert und versendet eine neue Model. Dies dauert Monate und führt zu bemerkenswertem oder katastrophalem Verhalten für Benutzer. Trajectory möchte diesen Zyklus durch kontinuierliches Lernen ersetzen.

Das Trajectory-Crew hat einen Erfahrungsbericht veröffentlicht, in dem beschrieben wird, wie. Es wurde eine gleichzeitige Multi-LoRA-Trainingsplattform für kontinuierlich lernende Arbeitslasten aufgebaut. Die Arbeit wurde mit UC Berkeley Sky Lab und Anyscale durchgeführt. Der gesamte Trainingscode ist Open-Supply im NovaSky-AI/SkyRL-Repository.

Das Ergebnis ist eine 2,81-fache Verbesserung des Finish-to-Finish-Experimentdurchsatzes. Der Vergleich erfolgt mit einem Single-Tenant-Trainingsframework. Trajectory meldet keine Regression bei Trainingsbelohnungen.

Was Multi-LoRA-Coaching eigentlich ist

Kontinuierliches Lernen erfordert, dass Modelle anhand von Stay-Suggestions und Produktionsinteraktionen aktualisiert werden. Ein Codierungsagent könnte technische Muster lernen, während Entwickler seine Arbeit korrigieren. Ein Supportmitarbeiter könnte Hardtickets lösen, während die Mitarbeiter in schwierigen Fällen eingreifen.

Die meisten Trainingsinfrastrukturen gehen immer noch von einem linearen Lebenszyklus aus. Groups weisen GPUs zu, initialisieren das Modell, führen einen Job aus und fahren dann herunter. Kontinuierliches Lernen überarbeitet diese Beziehung. Wenn Produktionsinteraktionen zu Trainingseingaben werden, wird die Schulung Teil eines Stay-Methods.

Modernes RL-Coaching reduziert sich auf drei Kernprimitive. Der Sampler generiert Trajektorien aus dem aktuellen Richtlinienmodell. Der Coach berechnet Farbverläufe und aktualisiert die Richtliniengewichte. Parametersynchronisation sendet aktualisierte Gewichte an Inferenzarbeiter zurück.

Trajectory nennt seinen Ansatz Steady Multi-LoRA Coaching oder C-LoRA. Jedes Experiment wird einem dedizierten LoRA-Adapter auf einer warmen, mandantenfähigen Engine zugeordnet.

Die Probleme, auf die es abzielt

Das Trajectory-Crew identifiziert vier Ineffizienzen bei herkömmlichen Stacks:

(1) Kaltstarts sind langsam: Jeder serielle Job lädt Prüfpunkte neu, initialisiert die verteilte Laufzeit und erwärmt Inferenz-Engines. Bei großen Modellen kann dieser Schritt allein 30 Minuten professional Durchlauf überschreiten.

(2) RL ist speicherintensiv: Grenzmodelle überschreiten häufig 100 Milliarden Parameter. Für Qwen3.5-397B können bis zu acht H200-Knoten erforderlich sein, um in den Speicher zu passen. LoRA reduziert die Speichernutzung um eine Größenordnung. Es friert das Basismodell ein und trainiert nur kleine Adaptergewichte.

(3) Herkömmliche Stacks sind Single-Tenant-Stacks: Sie führen jeweils ein Experiment durch. Multi-LoRA ordnet jedes Experiment einem Adapter zu, wodurch der Durchsatz um den Faktor N gemultiplext wird.

(4) Die Arbeitsauslastung ist gering: Coach und Inferenzmaschinen bleiben stehen, während sie aufeinander warten. Multi-LoRA-Lastausgleich über Jobs hinweg, um ungenutzte Kapazitäten zu füllen.

In der Architektur

Die meisten Durchsatzgewinne resultieren aus Inferenz. In vLLM werden alle Adapter im laufenden Betrieb in den GPU-Speicher geladen. Durch Dekodierschritte können dann Token von verschiedenen Adaptern im selben Stapel gemischt werden. Der Schlüsselfaktor ist der SGMV-Dekodierungskernel. Es vereint die Matrixvektorarbeit professional Adapter in einem GPU-Begin professional Dekodierschritt.

Nach jedem Optimierungsschritt werden aktualisierte LoRA-Gewichte direkt in die Inferenz-Engine geladen. Der Scheduler friert nicht ein, sodass andere Mandanten weiterhin dekodieren.

Coaching funktioniert anders. Ein aktiver LoRA-Adapter trainiert auf der GPU. Der Relaxation befindet sich im fixierten CPU-Speicher. Der Staat jedes Mieters lebt in einem AdapterStore. Es enthält LoRA-Parameter, FP32-Mastergewichte, Optimierungsmomente und Gradientenpuffer.

Die Engine tauscht den Standing eines Mandanten auf die GPU aus, führt einen einzelnen „forward_backward“-Durchlauf aus und tauscht ihn dann zurück. Dieser Trainingspfad ist immer noch ein Einzeladapter. Die Vorteile der Inferenz-Parallelität gelten noch nicht für das Coaching.

Die Zahlen

Trajektorie auf einem einzelnen H200-Knoten mit Qwen3-4B-Instruct-2507 getestet. Es führte Sync RL auf GSM8K in einer Agenteneinstellung aus. Das Trajectory-Crew hat GSM8K als Lernaufgabe für den Werkzeuggebrauch umgestaltet. Das Modell entscheidet, wann a aufgerufen wird Kalkulator und a Endgültige Antwort Werkzeug. Die Belohnung beträgt nur 1,0, wenn die endgültige Antwort mit der richtigen Antwort aufgerufen wird.

Die Richtlinie beginnt bei Schritt 0 mit einer Genauigkeit von etwa 40 %. Mit dem richtigen Lernalgorithmus steigt sie bei Schritt 9 auf über 90 %.

Das Trajectory-Crew skalierte auf acht gleichzeitige Multi-LoRA-Läufe. Die letzte Experimentzeit betrug 5433 Sekunden bei N=8, eine 2,81-fache Beschleunigung. Acht gleichzeitige Experimente wurden abgeschlossen, bevor drei aufeinanderfolgende Serienläufe stattfanden. Auch die mittlere Experimentzeit verbesserte sich und erreichte ihren Höhepunkt bei N=4 mit einer 1,88-fachen Beschleunigung. Jede Parallelitätsstufe erreichte bei Schritt 9 eine Belohnungsgenauigkeit von über 90 %.

Die Kompromisse

Höhere Durchsatzkosten professional Schrittlatenz. Wenn N zunimmt, verkürzen sich die Zeit des ersten Experiments und die Zeit des Schritts. Bei N=8 endet das erste Reihenexperiment 1,97-mal schneller. Die mittlere Schrittzeit steigt von 191 Sekunden auf 500 Sekunden, additionally nur 2,62-mal langsamer.

Der größte Teil dieser Steigerung ist auf die Einführungszeit zurückzuführen. Der Rollout wächst von 162 auf 401, was etwa 77 % des Anstiegs entspricht. Bei N=2 erhöht die Verdoppelung der Final die Rollout-Zeit nur um 15 %. Das ist der Idealfall für Multi-LoRA.

Das Muster hielt an einer härteren Arbeitsbelastung fest. Beim τ-Bench-Einzelhandel mit dem MoE-Modell NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 beendete N=2 10 Schritte 1,28-mal schneller. Die Schrittzeit professional Mandant stieg um das 1,57-fache.

Stärken und Schwächen

Stärken:

2,81-fache Steigerung des Finish-to-Finish-Experimentdurchsatzes bei acht gleichzeitigen Durchläufen
Keine Genauigkeitsregression; Die Läufe folgten in den letzten Schritten der seriellen Grundlinie innerhalb von ±1σ
LoRA reduziert den Speicher um eine Größenordnung im Vergleich zur vollständigen Feinabstimmung
Vollständig Open-Supply in NovaSky-AI/SkyRL, damit die Neighborhood darauf aufbauen kann

Schwächen:

Die Latenz professional Schritt und die Zeit für das erste Experiment nehmen mit zunehmendem N ab
Die Schulungen werden weiterhin mieterübergreifend durchgeführt. Nur die Inferenz wird gemultiplext
Getestet hauptsächlich an mittelgroßen Modellen, nicht an Parametern im Grenzmaßstab
Für die Einrichtung sind ein 8× H100/H200-Knoten und ein Megatron-Construct erforderlich

Wichtige Erkenntnisse

Trajectory hat einen gleichzeitigen Multi-LoRA-RL-Trainingsstapel für kontinuierliches Lernen erstellt, der als Open-Supply-Lösung in NovaSky-AI/SkyRL verfügbar ist.
Es wird ein 2,81-facher Anstieg des Finish-to-Finish-Experimentdurchsatzes gegenüber einer Basislinie mit einem einzelnen Mandanten gemeldet, ohne Regression der Belohnung.
Jedes Experiment wird einem dedizierten LoRA-Adapter auf einer immer heißen Engine zugeordnet, der den Durchsatz um N multiplext.
Die meisten Gewinne ergeben sich aus der vLLM-Multi-LoRA-Inferenz über den SGMV-Dekodierungskernel; Ausbildung bleibt Single-Adapter.
Der Kompromiss besteht in der Latenz professional Schritt: Bei N=8 steigt die Schrittzeit von 191 Sekunden auf 500 Sekunden.

Der visuelle Erklärer von Marktechpost

Erfahrungsbericht · 27. Mai 2026

Kontinuierliches Multi-LoRA-Coaching für kontinuierliches Lernen

Flugbahn, erstellt mit UC Berkeley Sky Lab und Anyscale.

2,81-facher Finish-to-Finish-Experiment-Durchsatzgewinn

01 – Was es ist

Ein immer heißer Motor, viele Adapter

Kontinuierliches Lernen aktualisiert Modelle anhand von Stay-Suggestions und Produktionsinteraktionen.

Trajectory nennt seinen Ansatz Kontinuierliches Multi-LoRA-Coaching (C-LoRA). Jedes Experiment wird einem dedizierten LoRA-Adapter auf einer warmen, mandantenfähigen Engine zugeordnet.

Sampler

Erzeugt Trajektorien aus dem aktuellen Richtlinienmodell.

Coach

Berechnet Farbverläufe und aktualisiert die Richtliniengewichte.

Parametersynchronisierung

Überträgt aktualisierte Gewichtungen an Inferenzarbeiter.

Der Wandel

Die Schulung wird Teil eines Stay-, verteilten Dienstes.

02 – Die Probleme, auf die es abzielt

Vier Ineffizienzen in seriellen RL-Stacks

Langsamer Kaltstart

Jeder Job lädt Prüfpunkte neu und wärmt Motoren auf. Dies kann 30 Minuten professional Lauf überschreiten.

Speicherintensives RL

Qwen3.5-397B kann bis zu acht H200-Knoten benötigen. LoRA reduziert den Speicher um eine Größenordnung.

Einzelmieter

Es wird jeweils ein Experiment ausgeführt. Multi-LoRA multiplext den Durchsatz um den Faktor N.

Geringe Auslastung

Coach und Inferenzmaschine warten aufeinander. Multi-LoRA füllt ungenutzte Kapazitäten.

03 — In der Architektur

Woher der Durchsatz kommt

Schlussfolgerung. In vLLM werden alle Adapter im laufenden Betrieb in den GPU-Speicher geladen. Der SGMV-Dekodierungskernel Sicherungen professional Adapter wirken sich auf einen GPU-Begin professional Dekodierschritt aus.
Gewichtssynchronisierung. Aktualisiertes Laden der LoRA-Gewichte vor Ort. Der Scheduler friert nicht ein, sodass andere Mandanten weiterhin dekodieren.
Ausbildung. Ein aktiver Adapter trainiert auf der GPU; Der Relaxation befindet sich im fixierten CPU-Speicher.

AdapterStore

Der Standing jedes Mandanten enthält LoRA-Parameter, FP32-Grasp-Gewichte, Optimierungsmomente und Gradientenpuffer. Dieser Pfad ist immer noch ein Einzeladapter.

04 – Der Aufbau

GSM8K, neu formuliert als Werkzeugaufgabe

Getestet auf einem einzelnen H200-Knoten mit Qwen3-4B-Instruct-2507Ausführen von sync RL auf GSM8K in einer Agenteneinstellung.

Das Modell entscheidet, wann a aufgerufen wird Kalkulator und a Endgültige Antwort Werkzeug.
Die Belohnung beträgt nur 1,0, wenn die endgültige Antwort mit der richtigen Antwort aufgerufen wird.
Die Richtlinie beginnt mit einer Genauigkeit von etwa 40 % und erreicht bei Schritt 9 einen Wert von über 90 %.

05 — Die Zahlen

2,81-facher Durchsatz, keine Belohnungsregression

2,81×

Letzte Experimentzeit bei N=8 (5433 s)

1,88×

Mittlere Experimentzeit, Höhepunkt bei N=4

>90 %

Belohnungsgenauigkeit auf jeder Ebene bis Schritt 9

Acht gleichzeitige Experimente wurden abgeschlossen, bevor drei aufeinanderfolgende Serienläufe stattfanden. Die Läufe folgten in den letzten Schritten der seriellen Grundlinie innerhalb von ±1σ.

06 – Die Kompromisse

Durchsatz erhöht, Latenz professional Schritt erhöht

Bei N=8 steigt die mittlere Schrittzeit von 191 Sekunden auf 500 Sekunden, additionally 2,62-mal langsamer.
Der Rollout wächst von 162 auf 401, was etwa 77 % des Anstiegs entspricht.
Bei N=2 verlängert eine Verdoppelung der Final die Rollout-Zeit nur um 15 % – der Idealfall.

Härtere Arbeitsbelastungsprüfung

Beim τ-Bench-Einzelhandel mit dem MoE-Modell NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 beendete N=2 10 Schritte 1,28-mal schneller; Die Schrittzeit professional Mandant stieg um das 1,57-fache.

07 – Imbissbuden

Woran Sie sich erinnern sollten

Gleichzeitiges Multi-LoRA-RL-Coaching für kontinuierliches Lernen, Open-Supply in NovaSky-AI/SkyRL.
2,81-facher Finish-to-Finish-Experiment-Durchsatzgewinn gegenüber einer Single-Tenant-Basislinie.
Die meisten Gewinne ergeben sich aus der vLLM-Multi-LoRA-Inferenz. Ausbildung bleibt Single-Adapter.
SkyRL implementiert die Tinker-API; Reproduzieren Sie auf 8× H100/H200 mit dem Tinker-Kochbuch.

Wo (Schlussfolgerungen) ausgeführt werden sollen

Führen Sie es aus / greifen Sie auf das Modell zu

Inferenz- und Rechenanbieter

Wo kann man auf das Qwen3-4B-Instruct-2507-Basismodell, den SkyRL-Trainingsstapel und die in den Experimenten verwendeten NVIDIA-GPUs zugreifen?

Schauen Sie sich das an Repo Und Technische Particulars. Sie können uns auch gerne weiter folgen Twitter und vergessen Sie nicht, bei uns mitzumachen 150.000+ ML SubReddit und Abonnieren Unser E-newsletter. Warten! Bist du im Telegram? Jetzt können Sie uns auch per Telegram kontaktieren.

Möchten Sie mit uns zusammenarbeiten, um Ihr GitHub-Repo ODER Ihre Hugging Face Web page ODER Produktveröffentlichung ODER Ihr Webinar usw. zu bewerben? Vernetzen Sie sich mit uns

Michal Sutter ist ein Knowledge-Science-Experte mit einem Grasp of Science in Knowledge Science von der Universität Padua. Mit einer soliden Grundlage in statistischer Analyse, maschinellem Lernen und Datentechnik ist Michal hervorragend darin, komplexe Datensätze in umsetzbare Erkenntnisse umzuwandeln.