Der gleichzeitige Multi-LoRA-Stack von Trajectory meldet einen 2,81-fachen Anstieg des Experimentierdurchsatzes gegenüber Single-Tenant-RL, wobei sich der gesamte Code im NovaSky-AI/SkyRL-GitHub-Repository befindet.
Die meisten Sprachmodelle verbessern sich durch diskontinuierliche Sprünge. Ein Crew sammelt Daten, trainiert und versendet eine neue Model. Dies dauert Monate und führt zu bemerkenswertem oder katastrophalem Verhalten für Benutzer. Trajectory möchte diesen Zyklus durch kontinuierliches Lernen ersetzen.
Das Trajectory-Crew hat einen Erfahrungsbericht veröffentlicht, in dem beschrieben wird, wie. Es wurde eine gleichzeitige Multi-LoRA-Trainingsplattform für kontinuierlich lernende Arbeitslasten aufgebaut. Die Arbeit wurde mit UC Berkeley Sky Lab und Anyscale durchgeführt. Der gesamte Trainingscode ist Open-Supply im NovaSky-AI/SkyRL-Repository.
Das Ergebnis ist eine 2,81-fache Verbesserung des Finish-to-Finish-Experimentdurchsatzes. Der Vergleich erfolgt mit einem Single-Tenant-Trainingsframework. Trajectory meldet keine Regression bei Trainingsbelohnungen.
Was Multi-LoRA-Coaching eigentlich ist
Kontinuierliches Lernen erfordert, dass Modelle anhand von Stay-Suggestions und Produktionsinteraktionen aktualisiert werden. Ein Codierungsagent könnte technische Muster lernen, während Entwickler seine Arbeit korrigieren. Ein Supportmitarbeiter könnte Hardtickets lösen, während die Mitarbeiter in schwierigen Fällen eingreifen.
Die meisten Trainingsinfrastrukturen gehen immer noch von einem linearen Lebenszyklus aus. Groups weisen GPUs zu, initialisieren das Modell, führen einen Job aus und fahren dann herunter. Kontinuierliches Lernen überarbeitet diese Beziehung. Wenn Produktionsinteraktionen zu Trainingseingaben werden, wird die Schulung Teil eines Stay-Methods.
Modernes RL-Coaching reduziert sich auf drei Kernprimitive. Der Sampler generiert Trajektorien aus dem aktuellen Richtlinienmodell. Der Coach berechnet Farbverläufe und aktualisiert die Richtliniengewichte. Parametersynchronisation sendet aktualisierte Gewichte an Inferenzarbeiter zurück.
Trajectory nennt seinen Ansatz Steady Multi-LoRA Coaching oder C-LoRA. Jedes Experiment wird einem dedizierten LoRA-Adapter auf einer warmen, mandantenfähigen Engine zugeordnet.
Die Probleme, auf die es abzielt
Das Trajectory-Crew identifiziert vier Ineffizienzen bei herkömmlichen Stacks:
(1) Kaltstarts sind langsam: Jeder serielle Job lädt Prüfpunkte neu, initialisiert die verteilte Laufzeit und erwärmt Inferenz-Engines. Bei großen Modellen kann dieser Schritt allein 30 Minuten professional Durchlauf überschreiten.
(2) RL ist speicherintensiv: Grenzmodelle überschreiten häufig 100 Milliarden Parameter. Für Qwen3.5-397B können bis zu acht H200-Knoten erforderlich sein, um in den Speicher zu passen. LoRA reduziert die Speichernutzung um eine Größenordnung. Es friert das Basismodell ein und trainiert nur kleine Adaptergewichte.
(3) Herkömmliche Stacks sind Single-Tenant-Stacks: Sie führen jeweils ein Experiment durch. Multi-LoRA ordnet jedes Experiment einem Adapter zu, wodurch der Durchsatz um den Faktor N gemultiplext wird.
(4) Die Arbeitsauslastung ist gering: Coach und Inferenzmaschinen bleiben stehen, während sie aufeinander warten. Multi-LoRA-Lastausgleich über Jobs hinweg, um ungenutzte Kapazitäten zu füllen.
In der Architektur
Die meisten Durchsatzgewinne resultieren aus Inferenz. In vLLM werden alle Adapter im laufenden Betrieb in den GPU-Speicher geladen. Durch Dekodierschritte können dann Token von verschiedenen Adaptern im selben Stapel gemischt werden. Der Schlüsselfaktor ist der SGMV-Dekodierungskernel. Es vereint die Matrixvektorarbeit professional Adapter in einem GPU-Begin professional Dekodierschritt.
Nach jedem Optimierungsschritt werden aktualisierte LoRA-Gewichte direkt in die Inferenz-Engine geladen. Der Scheduler friert nicht ein, sodass andere Mandanten weiterhin dekodieren.
Coaching funktioniert anders. Ein aktiver LoRA-Adapter trainiert auf der GPU. Der Relaxation befindet sich im fixierten CPU-Speicher. Der Staat jedes Mieters lebt in einem AdapterStore. Es enthält LoRA-Parameter, FP32-Mastergewichte, Optimierungsmomente und Gradientenpuffer.
Die Engine tauscht den Standing eines Mandanten auf die GPU aus, führt einen einzelnen „forward_backward“-Durchlauf aus und tauscht ihn dann zurück. Dieser Trainingspfad ist immer noch ein Einzeladapter. Die Vorteile der Inferenz-Parallelität gelten noch nicht für das Coaching.
Die Zahlen
Trajektorie auf einem einzelnen H200-Knoten mit Qwen3-4B-Instruct-2507 getestet. Es führte Sync RL auf GSM8K in einer Agenteneinstellung aus. Das Trajectory-Crew hat GSM8K als Lernaufgabe für den Werkzeuggebrauch umgestaltet. Das Modell entscheidet, wann a aufgerufen wird Kalkulator und a Endgültige Antwort Werkzeug. Die Belohnung beträgt nur 1,0, wenn die endgültige Antwort mit der richtigen Antwort aufgerufen wird.
Die Richtlinie beginnt bei Schritt 0 mit einer Genauigkeit von etwa 40 %. Mit dem richtigen Lernalgorithmus steigt sie bei Schritt 9 auf über 90 %.
Das Trajectory-Crew skalierte auf acht gleichzeitige Multi-LoRA-Läufe. Die letzte Experimentzeit betrug 5433 Sekunden bei N=8, eine 2,81-fache Beschleunigung. Acht gleichzeitige Experimente wurden abgeschlossen, bevor drei aufeinanderfolgende Serienläufe stattfanden. Auch die mittlere Experimentzeit verbesserte sich und erreichte ihren Höhepunkt bei N=4 mit einer 1,88-fachen Beschleunigung. Jede Parallelitätsstufe erreichte bei Schritt 9 eine Belohnungsgenauigkeit von über 90 %.
Die Kompromisse
Höhere Durchsatzkosten professional Schrittlatenz. Wenn N zunimmt, verkürzen sich die Zeit des ersten Experiments und die Zeit des Schritts. Bei N=8 endet das erste Reihenexperiment 1,97-mal schneller. Die mittlere Schrittzeit steigt von 191 Sekunden auf 500 Sekunden, additionally nur 2,62-mal langsamer.
Der größte Teil dieser Steigerung ist auf die Einführungszeit zurückzuführen. Der Rollout wächst von 162 auf 401, was etwa 77 % des Anstiegs entspricht. Bei N=2 erhöht die Verdoppelung der Final die Rollout-Zeit nur um 15 %. Das ist der Idealfall für Multi-LoRA.
Das Muster hielt an einer härteren Arbeitsbelastung fest. Beim τ-Bench-Einzelhandel mit dem MoE-Modell NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 beendete N=2 10 Schritte 1,28-mal schneller. Die Schrittzeit professional Mandant stieg um das 1,57-fache.
Stärken und Schwächen
Stärken:
- 2,81-fache Steigerung des Finish-to-Finish-Experimentdurchsatzes bei acht gleichzeitigen Durchläufen
- Keine Genauigkeitsregression; Die Läufe folgten in den letzten Schritten der seriellen Grundlinie innerhalb von ±1σ
- LoRA reduziert den Speicher um eine Größenordnung im Vergleich zur vollständigen Feinabstimmung
- Vollständig Open-Supply in NovaSky-AI/SkyRL, damit die Neighborhood darauf aufbauen kann
Schwächen:
- Die Latenz professional Schritt und die Zeit für das erste Experiment nehmen mit zunehmendem N ab
- Die Schulungen werden weiterhin mieterübergreifend durchgeführt. Nur die Inferenz wird gemultiplext
- Getestet hauptsächlich an mittelgroßen Modellen, nicht an Parametern im Grenzmaßstab
- Für die Einrichtung sind ein 8× H100/H200-Knoten und ein Megatron-Construct erforderlich
Wichtige Erkenntnisse
- Trajectory hat einen gleichzeitigen Multi-LoRA-RL-Trainingsstapel für kontinuierliches Lernen erstellt, der als Open-Supply-Lösung in NovaSky-AI/SkyRL verfügbar ist.
- Es wird ein 2,81-facher Anstieg des Finish-to-Finish-Experimentdurchsatzes gegenüber einer Basislinie mit einem einzelnen Mandanten gemeldet, ohne Regression der Belohnung.
- Jedes Experiment wird einem dedizierten LoRA-Adapter auf einer immer heißen Engine zugeordnet, der den Durchsatz um N multiplext.
- Die meisten Gewinne ergeben sich aus der vLLM-Multi-LoRA-Inferenz über den SGMV-Dekodierungskernel; Ausbildung bleibt Single-Adapter.
- Der Kompromiss besteht in der Latenz professional Schritt: Bei N=8 steigt die Schrittzeit von 191 Sekunden auf 500 Sekunden.
Der visuelle Erklärer von Marktechpost
Wo (Schlussfolgerungen) ausgeführt werden sollen
Inferenz- und Rechenanbieter
Wo kann man auf das Qwen3-4B-Instruct-2507-Basismodell, den SkyRL-Trainingsstapel und die in den Experimenten verwendeten NVIDIA-GPUs zugreifen?
Schauen Sie sich das an Repo Und Technische Particulars. Sie können uns auch gerne weiter folgen Twitter und vergessen Sie nicht, bei uns mitzumachen 150.000+ ML SubReddit und Abonnieren Unser E-newsletter. Warten! Bist du im Telegram? Jetzt können Sie uns auch per Telegram kontaktieren.
Möchten Sie mit uns zusammenarbeiten, um Ihr GitHub-Repo ODER Ihre Hugging Face Web page ODER Produktveröffentlichung ODER Ihr Webinar usw. zu bewerben? Vernetzen Sie sich mit uns
Michal Sutter ist ein Knowledge-Science-Experte mit einem Grasp of Science in Knowledge Science von der Universität Padua. Mit einer soliden Grundlage in statistischer Analyse, maschinellem Lernen und Datentechnik ist Michal hervorragend darin, komplexe Datensätze in umsetzbare Erkenntnisse umzuwandeln.

