Wie können KI-Groups Verstärkungslernen im Tinker-Stil für große Sprachmodelle unter Verwendung ihrer eigenen Infrastruktur und einer einzigen einheitlichen Engine durchführen? Anyscale und NovaSky (UC Berkeley) Crew Veröffentlichungen SkyRL tx v0.1.0 Dies gibt Entwicklern die Möglichkeit, eine mit Tinker kompatible Trainings- und Inferenz-Engine direkt auf ihrer eigenen {Hardware} auszuführen und dabei die gleiche minimale API beizubehalten, die Tinker im verwalteten Dienst bereitstellt.

Das Forschungsteam beschreibt SkyRL tx als einheitliche Trainings- und Inferenz-Engine, die die Tinker-API implementiert und es Benutzern ermöglicht, einen Tinker-ähnlichen Dienst auf ihrer eigenen Infrastruktur auszuführen. Diese Model v0.1.0 ist die erste ihrer Reihe, die das Reinforcement-Studying durchgängig unterstützt und außerdem die Probenentnahme erheblich beschleunigt.

Tinker API in Kürze

Tinker von Considering Machines ist eine Trainings-API, die auf vier Kernfunktionen basiert. forward_backward führt einen Vorwärtsdurchlauf und einen Rückwärtsdurchlauf durch und sammelt Steigungen. optim_step Aktualisiert die Modellgewichte basierend auf diesen Farbverläufen. pattern generiert Token für Interaktion, Auswertung oder RL-Aktionen. save_state schreibt Kontrollpunkte für die Wiederaufnahme des Trainings.

Anstelle einer vollständigen aufgabenspezifischen Feinabstimmungsabstraktion stellt Tinker diese Grundelemente auf niedriger Ebene bereit, sodass Benutzer ihre eigenen überwachten oder verstärkenden Lernschleifen in regulärem Python-Code implementieren können, während der Dienst die GPU-Planung und die verteilte Ausführung übernimmt.

SkyRL tx zielt genau auf diese API ab und implementiert ein offenes Backend, das Benutzer lokal bereitstellen können. Es behält das Tinker-Programmiermodell bei, macht es aber überflüssig, sich nur auf die gehostete Umgebung zu verlassen.

Wo SkyRL tx in SkyRL passt

SkyRL ist eine Full-Stack-Lernbibliothek zur Verstärkung für große Sprachmodelle, die Folgendes umfasst: skyrl-agent für Agenten mit langem Horizont, skyrl-train für die Ausbildung und skyrl-gym für Werkzeugumgebungen wie Mathematik, Codierung, Suche und SQL.

Innerhalb dieses Stapels skyrl-tx ist als experimentelle plattformübergreifende Bibliothek gekennzeichnet, die eine lokale Tinker-ähnliche REST-API für das Modell-Submit-Coaching bereitstellt. SkyRL tx wird daher zur Systemschicht, die RL-Logik, Umgebungen und Trainingscode über die Tinker-Schnittstelle mit konkreten GPU-Ressourcen verbindet.

Architektur, Inferenzmaschine, die auch trainiert

Die SkyRL-TX-Architektur wird als Inferenz-Engine beschrieben, die auch Rückwärtsdurchläufe unterstützt. Es besteht aus vier Hauptkomponenten:

  1. REST-API Server das eingehende Anfragen von verschiedenen Benutzern verarbeitet.
  2. Datenbank das Metadaten zu Modellen, Prüfpunkten, Anfragen und Futures verfolgt und auch als Jobwarteschlange fungiert. Die aktuelle Implementierung nutzt SQLite hinter einer Schnittstelle, die auch andere SQL-Datenbanken wie Postgres unterstützt.
  3. Motor das benutzerübergreifende Anfragen plant und bündelt. Jede Engine-Instanz bedient ein einzelnes Basismodell und kann viele LoRA-Adapter anhängen.
  4. Arbeitnehmer das Vorwärts- und Rückwärtsdurchläufe ausführt und Modelldefinitionen und Optimiererzustände enthält. Mehrere Employee würden in kommenden Versionen ein erweitertes Multi-Node-Sharding ermöglichen

Was fügt v0.1.0 hinzu?

Die Model v0.1.0 konzentriert sich auf die Unterstützung von Reinforcement Studying und Leistungsverbesserungen. Der offizielle Veröffentlichung hebt mehrere konkrete Änderungen hervor:

  • Das Sampling ist jetzt viel schneller, da es in der Engine richtig gebündelt und geshardt wird.
  • Es werden jetzt unterschiedliche Sampling-Parameter professional Anfrage, professional Anfrage-Seeds und Cease-Tokens unterstützt, was nützlich ist, wenn viele Experimente ein gemeinsames Basismodell haben.
  • Nach mehreren Korrekturen läuft die RL-Schleife jetzt ordnungsgemäß durch die Engine.
  • Unterstützung für Gradienten-Checkpointing und Mikro-Batching für die Probenahme sind implementiert.
  • Postgres wird jetzt neben SQLite als Datenbank-Backend unterstützt.

Ausführen von RL Finish-to-Finish auf 8 H100-GPUs

Die offizielle Veröffentlichung enthält ein spezifisches Coderezept für die Finish-to-Finish-Ausführung von Reinforcement Studying auf einem Cluster mit 8 H100-GPUs.

Zuerst klonen Benutzer das SkyRL-Repository und im skyrl-tx Ordner starten Sie die Engine mit:

uv run --extra gpu --extra tinker -m tx.tinker.api 
  --base-model Qwen/Qwen3-4B 
  --max-lora-adapters 3 
  --max-lora-rank 1 
  --tensor-parallel-size 8 
  --train-micro-batch-size 8 > out.log

Dann klonen sie das Tinker Cookbook vom Considering Machines-Crew und im tinker_cookbook/recipes Ordner ausführen:

export TINKER_API_KEY=dummy
export WANDB_API_KEY=<your key>
uv run --with wandb --with tinker rl_loop.py 
  base_url=http://localhost:8000 
  model_name="Qwen/Qwen3-4B" 
  lora_rank=1 
  max_length=1024 
  save_every=100

Dadurch wird eine Belohnungskurve erstellt, die bestätigt, dass die RL-Schleife korrekt durch das lokale SkyRL-TX-Backend läuft.

Wichtige Erkenntnisse

  • SkyRL tx v0.1.0 implementiert eine lokale, Tinker-kompatible Engine, die Coaching und Inferenz für das LLM-Submit-Coaching vereinheitlicht.
  • Das System stellt die Tinker-Grundelemente „forward_backward“, „optim_step“, „pattern“ und „save_state“ über REST bereit, während es intern Batchverarbeitung, LoRA-Adapter und Geräteplatzierung übernimmt.
  • Die Architektur ist in API-Server, SQL-Datenbank, Planungs-Engine und Employee unterteilt, die Vorwärts- und Rückwärtsdurchgänge für ein einzelnes Basismodell mit mehreren LoRA-Adaptern ausführen.
  • v0.1.0 bietet Finish-to-Finish-Unterstützung für verstärktes Lernen, schnelleres Jitted- und Sharded-Sampling, Sampling-Parameter professional Anfrage, Gradient Checkpointing, Micro Batching und Postgres-Unterstützung.

SkyRL tx v0.1.0 ist ein praktischer Schritt für Entwicklerteams, die Verstärkungslernen im Tinker-Stil auf ihren eigenen Clustern mit einer konsistenten Tinker-API-Oberfläche wünschen. Das Design, das das System als Inferenzmaschine behandelt, die auch Rückwärtsdurchläufe ausführt, ist sauber und reduziert Stapeldivergenz. Die Unterstützung für LoRA, Gradient Checkpointing, Micro Batching und Postgres ist ein konkretes System-Improve. Insgesamt verwandelt diese Model die Tinker-Kompatibilität in ein umsetzbares lokales RL-Backend für LLM


Schauen Sie sich das an Repo Und Offizielle Veröffentlichung. Schauen Sie sich gerne bei uns um GitHub-Seite für Tutorials, Codes und Notebooks. Sie können uns auch gerne weiter folgen Twitter und vergessen Sie nicht, bei uns mitzumachen 100.000+ ML SubReddit und Abonnieren Unser Publication. Warten! Bist du im Telegram? Jetzt können Sie uns auch per Telegram kontaktieren.


Michal Sutter ist ein Knowledge-Science-Experte mit einem Grasp of Science in Knowledge Science von der Universität Padua. Mit einer soliden Grundlage in statistischer Analyse, maschinellem Lernen und Datentechnik ist Michal hervorragend darin, komplexe Datensätze in umsetzbare Erkenntnisse umzuwandeln.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert