Coaching großer Sprachmodelle: Von TRPO bis Grpo

Deepseek hat kürzlich gemacht ein ziemes Summen In der KI -Group dank der beeindruckenden Leistung zu relativ niedrigen Kosten. Ich denke, dies ist eine perfekte Gelegenheit, tiefer in die Ausbildung von großen Sprachmodellen (LLMs) einzusteigen. In diesem Artikel konzentrieren wir uns auf die Seite der Verstärkungslernen (RL): Wir werden TRPO, PPO und in jüngerer Zeit Grpo abdecken (keine Sorge, ich werde alle diese Begriffe bald erklären!)

Ich habe darauf abzielt, diesen Artikel relativ leicht zu lesen und zugänglich zu halten, indem ich die Mathematik minimiert habe, sodass Sie keinen tiefen Hintergrund für Verstärkung benötigen, um mitzumachen. Ich gehe jedoch davon aus, dass Sie mit maschinellem Lernen, tiefem Lernen und einem grundlegenden Verständnis dafür vertraut sind, wie LLMs funktioniert.

Ich hoffe, Sie genießen den Artikel!

Die 3 Schritte des LLM -Trainings

Bevor wir in RL -Einzelheiten eintauchen, werden wir kurz die drei Hauptstadien des Trainings eines großsprachigen Modells zusammenfassen:

Vorausbildung: Das Modell wird auf einem massiven Datensatz trainiert, um das nächste Token in einer Sequenz zu vorherigen, die auf vorhergehenden Token basiert.
Übersichtliche Feinabstimmung (SFT): Das Modell ist dann fein abgestimmt über gezieltere Daten und ausgerichtet mit spezifischen Anweisungen.
Verstärkungslernen (oft genannt Rlhf Für das Verstärkungslernen mit menschlichem Suggestions): Dies steht im Mittelpunkt dieses Artikels. Das Hauptziel ist es, die Ausrichtungen der Antworten weiter auf menschliche Präferenzen zu verfeinern, indem das Modell direkt aus Suggestions lernen kann.

Grundlagen für Verstärkungslernen

Ein Roboter, der versucht, ein Labyrinth zu verlassen! (2)

Bevor wir tiefer tauchen, besuchen wir kurz die Kernideen des Verstärkungslernens.

RL ist auf hohem Niveau ziemlich einfach zu verstehen: a Agent interagiert mit einem Umfeld. Der Agent wohnt in einem spezifischen Zustand innerhalb der Umwelt und kann nehmen Aktionen Übergang zu anderen Zuständen. Jede Aktion ergibt a belohnen Aus der Umgebung: So bietet die Umgebung Suggestions, die die zukünftigen Aktionen des Agenten leitet.

Betrachten Sie das folgende Beispiel: a Roboter (der Agent) navigiert (und versucht zu verlassen) a Labyrinth (die Umgebung).

Der Zustand ist die aktuelle State of affairs der Umwelt (die Place des Roboters im Labyrinth).
Der Roboter kann anders nehmen Aktionen: Zum Beispiel kann es sich vorwärts bewegen, hyperlinks abbiegen oder rechts abbiegen.
Erfolgreich navigieren zum Ausgang liefert a optimistic Belohnungwährend das Schlagen einer Mauer oder im Labyrinth stecken adverse Belohnungen.

Einfach! Lassen Sie uns nun eine Analogie dazu bringen, wie RL im Kontext von LLMs verwendet wird.

RL im Kontext von LLMs

Bei der Verwendung während des LLM -Trainings wird RL durch die folgenden Komponenten definiert:

Die LLM selbst ist der Agent
Umfeld: Alles extern zum LLM, einschließlich Benutzeranforderungen, Suggestions -Systemen und anderen Kontextinformationen. Dies ist im Grunde der Rahmen, mit dem das LLM während des Trainings interagiert.
Aktionen: Dies sind Antworten auf eine Abfrage aus dem Modell. Genauer gesagt: Das sind die Token dass die LLM beschließt, als Reaktion auf eine Abfrage zu erzeugen.
Zustand: Die aktuelle Abfrage, die zusammen mit Token beantwortet wird, hat der LLM bisher erzeugt (dh die Teilantworten).
Belohnungen: Dies ist hier etwas schwieriger: Im Gegensatz zum Beispiel des Labyrinths oben gibt es da normalerweise Keine binäre Belohnung. Im Kontext von LLMs kommen Belohnungen normalerweise von einem separaten Belohnungsmodellder eine Punktzahl für jedes Paar (Abfrage, Antwort) ausgibt. Dieses Modell wird aus von Menschen annotierten Daten (daher „RLHF“) ausgebildet, in denen Annotatoren unterschiedliche Antworten bewerten. Ziel ist es, höhere Antworten zu erhalten, um höhere Belohnungen zu erhalten.

Hinweis: In einigen Fällen können Belohnungen tatsächlich einfacher werden. Zum Beispiel in Deepseekmath, Regelbasierte Ansätze kann verwendet werden, weil mathematische Antworten tendenziell deterministischer sind (richtige oder falsche Antwort)

Politik ist das letzte Konzept, das wir jetzt brauchen. In RL ist eine Richtlinie einfach die Strategie zur Entscheidung, welche Maßnahmen ergriffen werden sollen. Im Falle eines LLM gibt die Richtlinie bei jedem Schritt eine Wahrscheinlichkeitsverteilung über mögliche Token aus: Kurz gesagt, dies verwendet das Modell, mit dem das nächste Token generiert werden soll. Konkret wird die Richtlinie durch die Parameter des Modells (Gewichte) bestimmt. Während des RL -Trainings passen wir diese Parameter an, sodass die LLM eher „bessere“ Token produziert – das heißt Token, die höhere Belohnungswerte erzielen.

Wir schreiben oft die Richtlinie als:

Wo A ist die Aktion (ein Token zu generieren), S der Staat (die bisher generierte Anfragen und Token) und θ (Parameter des Modells).

Diese Idee, die beste Politik zu finden, ist der springende Punkt von RL! Da wir keine Daten beschriftet haben (wie wir es beim überwachten Lernen tun) Wir verwenden Belohnungen, um unsere Richtlinie anzupassen, um bessere Maßnahmen zu ergreifen. (In LLM -Begriffen: Wir passen die Parameter unseres LLM an, um bessere Token zu generieren.)

TRPO (Richtlinienoptimierung der Vertrauensregion)

Eine Analogie mit überwachtem Lernen

Machen wir einen kurzen Schritt zurück, wie beaufsichtigtes Lernen normalerweise funktioniert. Sie haben Daten gekennzeichnet und verwenden eine Verlustfunktion (wie Kreuzentropie), um zu messen, wie eng die Vorhersagen Ihres Modells an die wahren Etiketten sind.

Wir können dann Algorithmen wie Backpropagation und Gradientenabstieg verwenden, um unsere Verlustfunktion zu minimieren und die Gewichte zu aktualisieren θ unseres Modells.

Denken Sie daran, dass unsere Richtlinie auch Wahrscheinlichkeiten ausgibt! In diesem Sinne ist es analog zu den Vorhersagen des Modells im überwachten Lernen… wir sind versucht zu schreiben So etwas wie:

Wo S ist der aktuelle Zustand und A ist eine mögliche Aktion.

A (s, a) heißt das Vorteilsfunktion und misst, wie intestine die gewählte Aktion im aktuellen Zustand im Vergleich zu einer Grundlinie ist. Dies ist dem Begriff von sehr ähnlich Etiketten im überwachten Lernen, aber abgeleitet von Belohnungen anstelle einer expliziten Kennzeichnung. Zu vereinfachenWir können den Vorteil schreiben als:

In der Praxis wird die Basislinie mit a berechnet Wertfunktion. Dies ist ein häufiger Begriff in RL, den ich später erklären werde. Was Sie vorerst wissen müssen, ist, dass es die erwartete Belohnung misst, die wir erhalten würden, wenn wir weiterhin die aktuelle Richtlinie des Staates befolgen S.

Was ist TRPO?

TRPO (Belief Area Coverage Optimization) baut auf dieser Idee auf, die Vorteilsfunktion zu verwenden, fügt jedoch einen kritischen Inhaltsstoff für hinzu Stabilität: Es Einschränkungen Wie weit kann die neue Richtlinie bei jedem Aktualisierungsschritt von der alten Richtlinie abweichen (ähnlich wie wir zum Beispiel mit dem Stapelgradientenabstieg tun).

Es führt einen KL -Divergenzbegriff (siehe ihn als Maß für die Ähnlichkeit) zwischen dem aktuellen und der alten Politik ein:

Es unterteilt auch die Politik durch die alte Politik. Dieses Verhältnis multipliziert mit der Vorteilsfunktion gibt uns ein Gefühl dafür, wie vorteilhaft jedes Replace ist relativ zur alten Politik.

TRPO alles zusammenfügen und versucht dazu zu maximieren ein Ersatzziel (das den Vorteil und das Richtlinienverhältnis beinhaltet) von a KL -Divergenzbeschränkung.

PPO (proximale Richtlinienoptimierung)

Während TRPO ein erheblicher Fortschritt struggle, wird es in der Praxis, insbesondere für Trainings -LLMs, aufgrund seiner rechnerisch intensiven Gradientenberechnungen nicht mehr weit verbreitet.

Stattdessen ist PPO jetzt der bevorzugte Ansatz in den meisten LLMs -Architekturen, einschließlich Chatgpt, Gemini und mehr.

Es ist TRPO eigentlich ziemlich ähnlich, aber anstatt durchzusetzen eine harte Einschränkung der KL -DivergenzPPO führt eine “ein“abgeschnitten Ersatzziel “, das die Richtlinienaktualisierungen implizit einschränkt und den Optimierungsprozess erheblich vereinfacht.

Hier ist eine Aufschlüsselung der PPO -Zielfunktion, die wir maximieren, um die Parameter unseres Modells zu optimieren.

GRPO (Gruppenrelative Richtlinienoptimierung)

Wie wird die Wertfunktion normalerweise erhalten?

Lassen Sie uns zuerst mehr über die sprechen Vorteil und die Wertfunktionen Ich habe früher vorgestellt.

In typischen Setups (wie PPO), a Wertmodell wird neben der Richtlinie geschult. Sein Ziel ist es, den Wert jeder von uns ergriffenen Aktion vorherzusagen (jedes vom Modell erzeugte Token), wobei die von uns erhaltenen Belohnungen (denken Sie daran, dass der Wert die erwartete kumulative Belohnung darstellen sollte).

So funktioniert es in der Praxis. Nehmen Sie die Abfrage „Was ist 2+2?“ als Beispiel. Unser Modell gibt „2+2 4“ aus und erhält eine Belohnung von 0,8 für diese Antwort. Wir gehen dann rückwärts und schreiben zu. ermäßigte Belohnungen zu jedem Präfix:

„2+2 ist 4“ erhält einen Wert von 0,8
„2+2 ist“ (1 Token rückwärts) erhält einen Wert von 0,8γ
„2+2“ (2 Token rückwärts) erhält einen Wert von 0,8γ²
usw.

Wo γ ist der Rabattfaktor (zum Beispiel 0,9). Wir verwenden dann diese Präfixe und zugehörigen Werte, um das Wertmodell zu trainieren.

Wichtiger Hinweis: Das Wertmodell und das Belohnungsmodell sind zwei verschiedene Dinge. Das Belohnungsmodell wird vor dem RL -Prozess trainiert und verwendet Paare von (Abfrage, Reaktion) und menschlichem Rating. Das Wertmodell wird gleichzeitig in die Richtlinie geschult und zielt darauf ab, die zukünftige erwartete Belohnung bei jedem Schritt des Erzeugungsprozesses vorherzusagen.

Was ist neu in Grpo

Auch wenn in der Praxis das Belohnungsmodell häufig aus der Richtlinie abgeleitet wird (nur Schulungen des „Kopfes“), behalten wir immer noch viele Modelle bei und bewältigen mehrere Schulungsverfahren (Richtlinien, Belohnung, Wertmodell). Grpo optimiert dies durch Einführung einer effizienteren Methode.

Erinnerst du dich, was ich früher gesagt habe?

In PPO haben wir uns entschlossen, unsere Wertfunktion als Basislinie zu verwenden. Grpo wählt etwas anderes aus: Hier ist das, was Grpo tut: konkret, Für jede AbfrageGrpo generiert eine Gruppe von Antworten (Gruppe von Größe G) und verwendet ihre Belohnungen, um den Vorteil jeder Antwort als A zu berechnen Z-Rating:

Wo rᵢ ist die Belohnung der ich-D -Antwort und μ Und σ sind der Mittelwert und die Standardabweichung von Belohnungen in dieser Gruppe.

Dies beseitigt natürlich die Notwendigkeit eines separaten Wertmodells. Diese Idee ist sehr sinnvoll, wenn Sie darüber nachdenken! Es richtet sich an die Wertefunktion, die wir zuvor eingeführt haben und misst in gewissem Sinne auch eine „erwartete“ Belohnung, die wir erhalten können. Außerdem ist diese neue Methode intestine an unser Drawback angepasst, da LLMs problemlos mehrere generieren können Nichtdeterministische Ausgänge durch Verwendung eines Tiefes Temperatur (kontrolliert die Zufälligkeit der Token -Erzeugung).

Dies ist die Hauptidee hinter Grpo: das Wertmodell loszuwerden.

Schließlich fügt Grpo a hinzu KL -Divergenz Der Begriff (um genau zu sein, verwendet Grpo eine einfache Annäherung der KL -Divergenz, um den Algorithmus weiter zu verbessern) direkt in sein Ziel und vergleicht die aktuelle Richtlinie mit a Referenzrichtlinie (Oft das Put up-STT-Modell).

Siehe die endgültige Formulierung unten:

Und … das ist meistens für Grpo! Ich hoffe, dies gibt Ihnen einen klaren Überblick über den Prozess: Es stützt sich immer noch auf dieselben grundlegenden Ideen wie TRPO und PPO, führt jedoch zusätzliche Verbesserungen ein, um das Coaching effizienter, schneller und billiger zu gestalten – Schlüsselfaktoren hinter sich Deepseeks Erfolg.

Abschluss

Das Verstärkungslernen ist zu einem Eckpfeiler für die Ausbildung der heutigen großartigen Modelle von PPO und in jüngerer Zeit von GRPO geworden. Jede Methode beruht auf den gleichen RL -Grundlagen – Staaten, Handlungen, Belohnungen und Richtlinien -, fügt jedoch eine eigene Wendung hinzu, um Stabilität, Effizienz und menschliche Ausrichtung auszugleichen:

• Trpo Einführte strenge politische Einschränkungen über KL -Divergenz

• PPO erleichterte diese Einschränkungen mit einem abgeschnittenen Ziel

• Grpo machte einen zusätzlichen Schritt, indem die Wertschöpfungsmodellanforderung entfernt und gruppenbasierte Belohnungsnormalisierung verwendet wurde. Natürlich profitiert Deepseek auch von anderen Innovationen wie hochwertigen Daten und anderen Schulungsstrategien, aber das ist für eine andere Zeit!

Ich hoffe, dieser Artikel hat Ihnen ein klareres Bild darüber gegeben, wie sich diese Methoden verbinden und weiterentwickeln. Ich glaube, dass Verstärkungslernen werden wird Das Hauptaugenmerk auf dem Coaching LLMs Um ihre Leistung zu verbessern, übertreffen Sie die Vorausbildung und SFT bei der Förderung zukünftiger Innovationen.

Wenn Sie sich für tieferes Tauchen interessieren, können Sie sich die folgenden Referenzen ansehen oder meine vorherigen Beiträge erkunden.

Vielen Dank fürs Lesen und können Sie einen Klatschen und einen Kommentar hinterlassen!

Möchten Sie mehr über Transformatoren erfahren oder in die Mathematik hinter dem Fluch der Dimensionalität eintauchen? Schauen Sie sich meine vorherigen Artikel an:

Referenzen: