Willkommen in Teil 2 meines LLM Deep Dive. Wenn Sie Teil 1 nicht gelesen haben, ermutige ich Sie dringend prüfen Sie es zuerst.
Zuvor haben wir die ersten beiden Hauptstadien des Trainings als LLM behandelt:
- Vorausbildung-Lernen von massiven Datensätzen zur Bildung eines Basismodells.
- Übersichtliche Feinabstimmung (SFT)-Verfeinerung des Modells mit kuratierten Beispielen, um es nützlich zu machen.
Jetzt tauchen wir in die nächste große Bühne: Verstärkungslernen (RL). Während sich vor der Ausbildung und der SFT intestine etabliert sind, entwickelt sich RL immer noch weiter, ist jedoch zu einem kritischen Bestandteil der Trainingspipeline geworden.
Ich habe Referenz von genommen von Andrej Karpathys weit verbreitete 3,5-stündige YouTube. Andrej ist Gründungsmitglied von Openai, seine Erkenntnisse sind Gold – Sie haben die Idee.
Lass uns gehen 🚀
Was ist der Zweck des Verstärkungslernens (RL)?
Menschen und LLMs verarbeiten Informationen unterschiedlich. Was für uns intuitiv ist – wie die grundlegende Arithmetik – ist möglicherweise nicht für ein LLM, der nur Textual content als Sequenzen von Token sieht. Umgekehrt kann ein LLM Experten-Degree-Antworten zu komplexen Themen generieren, nur weil es während des Trainings genügend Beispiele gesehen hat.
Dieser Unterschied in der Wahrnehmung macht es für menschliche Annotatoren schwierig, die „perfekte“ Etiketten zu liefern, die eine LLM konsequent zur richtigen Antwort führen.
RL überbrückt diese Lücke, indem er das Modell zulässt aus eigener Erfahrung lernen.
Anstatt sich ausschließlich auf explizite Etiketten zu verlassen, untersucht das Modell verschiedene Token -Sequenzen und empfängt Suggestions – Belohnungssignale -, auf denen die Ausgänge am nützlichsten sind. Im Laufe der Zeit lernt es, sich mit der menschlichen Absicht besser auszurichten.
Instinct hinter Rl
LLMs sind stochastisch – was bedeutet, dass ihre Antworten nicht festgelegt sind. Selbst bei der gleichen Eingabeaufforderung variiert der Ausgang, da er aus einer Wahrscheinlichkeitsverteilung abgetastet wird.
Wir können diese Zufälligkeit nutzen, indem wir Tausende oder sogar Millionen möglicher Antworten erzeugen parallel. Betrachten Sie es als das Modell, das verschiedene Wege erforscht – einige gute, manche schlecht. Unser Ziel ist es, es zu ermutigen, die besseren Wege öfter aufzunehmen.
Dazu trainieren wir das Modell auf den Sequenzen von Token, die zu besseren Ergebnissen führen. Im Gegensatz zu beaufsichtigten Feinabstimmungen, bei denen menschliche Experten beschriftete Daten liefern, liefern sie. Das Verstärkungslernen ermöglicht das Modell von sich selbst lernen.
Das Modell entdeckt, welche Antworten am besten funktionieren, und nach jedem Trainingsschritt aktualisieren wir seine Parameter. Im Laufe der Zeit führt das Modell mit höherer Wahrscheinlichkeit hochwertige Antworten, wenn sie in Zukunft ähnliche Eingabeaufforderungen erhalten.
Aber wie bestimmen wir, welche Antworten am besten sind? Und wie viel RL sollen wir tun? Die Particulars sind schwierig, und sie richtig zu machen ist nicht trivial.
RL ist nicht „neu“ – es kann das menschliche Fachwissen übertreffen (Alphago, 2016)
Ein großartiges Beispiel für RLs Kraft ist DeepMinds Alphago, die erste KI, die einen professionellen Go-Spieler besiegt und späteres Spiel auf Menschenebene übertroffen hat.
Im 2016 Naturpapier (Graph unten) Als ein Modell nur durch SFT trainiert wurde (Angabe des Modells Tonnen guter Beispiele zum Nachahmung) konnte das Modell in der Lage sein, die Leistung auf menschlicher Ebene zu erreichen. Aber übertreffen Sie es niemals.
Die gepunktete Linie repräsentiert Lee Sedols Leistung – der beste Go -Spieler der Welt.
Dies liegt daran, dass es bei SFT um Replikation und nicht um Innovation geht. Es erlaubt das Modell nicht, neue Strategien über das menschliche Wissen hinaus zu entdecken.
RL ermöglichte Alphago jedoch, gegen sich selbst zu spielen, seine Strategien zu verfeinern und letztendlich das menschliche Fachwissen übertreffen (blaue Linie).

RL repräsentiert eine aufregende Grenze in der KI, an der Modelle Strategien, die über die menschliche Vorstellungskraft hinausgehen, untersuchen können, wenn wir sie auf einem vielfältigen und herausfordernden Pool von Problemen ausbilden, um die Denkstrategien zu verfeinern.
RL Foundations Recap
Lassen Sie uns die Schlüsselkomponenten eines typischen RL -Setups schnell wiederholen:

- Agent – Der Lernende oder Entscheidungsträger. Es beobachtet die aktuelle Scenario (Zustand), wählt eine Aktion aus und aktualisiert dann ihr Verhalten anhand des Ergebnisses ((belohnen).
- Umfeld– Das externe System, in dem der Agent arbeitet.
- Zustand – Ein Schnappschuss der Umgebung in einem bestimmten Schritt T.
Bei jedem Zeitstempel führt der Agent eine durch Aktion In der Umgebung, die den Staat der Umwelt in einen neuen verwandelt. Der Agent erhält außerdem Suggestions, die angeben, wie intestine oder schlecht die Aktion warfare.
Dieses Suggestions heißt a belohnenund wird in numerischer Kind dargestellt. Eine constructive Belohnung fördert dieses Verhalten, und eine detrimental Belohnung entmutigt es.
Durch die Verwendung von Suggestions aus verschiedenen Zuständen und Aktionen lernt der Agent allmählich die optimale Strategie zu Maximieren Sie die Gesamtbelohnung im Laufe der Zeit.
Politik
Die Richtlinie ist die Strategie des Agenten. Wenn der Agent einer guten Richtlinie folgt, wird er konsequent gute Entscheidungen treffen, was zu höheren Belohnungen in vielen Schritten führt.
In mathematischer Begriffen ist es eine Funktion, die die Wahrscheinlichkeit verschiedener Ausgaben für einen bestimmten Zustand bestimmt –(πθ (a | s)).
Wertfunktion
Eine Schätzung, wie intestine es in einem bestimmten Zustand ist, wenn man die langfristige erwartete Belohnung berücksichtigt. Für eine LLM kann die Belohnung aus menschlichem Suggestions oder einem Belohnungsmodell stammen.
Schauspieler-kritische Architektur
Es ist ein beliebtes RL -Setup, das zwei Komponenten kombiniert:
- Schauspieler – lernt und aktualisiert die Politik (πθ) und entscheiden, welche Aktion in jedem Zustand ergreifen soll.
- Kritiker – bewertet die Wertfunktion (V (s)) dem Schauspieler Suggestions darüber geben, ob seine gewählten Aktionen zu guten Ergebnissen führen.
Wie es funktioniert:
- Der Schauspielerwählt eine Aktion aus, die auf ihrer aktuellen Richtlinie basiert.
- Der KritikerBewertet das Ergebnis (Belohnung + nächster Zustand) und aktualisiert seine Wertschätzung.
- Das Suggestions des Kritikers hilft dem Akteur, seine Richtlinie so zu verfeinern, dass zukünftige Maßnahmen zu höheren Belohnungen führen.
Alles zusammen für LLMs zusammenstellen
Der Staat kann der aktuelle Textual content (Aufforderung oder Konversation) sein, und die Aktion kann das nächste Token sein, das generiert werden muss. Ein Belohnungsmodell (z. B. menschliches Suggestions) sagt dem Modell, wie intestine oder schlecht es erzeugt wird.
Die Richtlinie ist die Strategie des Modells zur Auswahl des nächsten Tokens, während die Wertfunktion schätzt, wie vorteilhaft der aktuelle Textkontext ist, um schließlich qualitativ hochwertige Antworten zu erzeugen.
Deepseek-R1 (veröffentlicht am 22. Januar 2025)
Um die Bedeutung von RL hervorzuheben, lassen Sie uns erkunden Deepseek-R1, ein Argumentationsmodell, das eine erstklassige Leistung erzielt und gleichzeitig Open-Supply bleibt. Das Papier führte zwei Modelle vor: Deepseek-R1-Zero und Deepseek-R1.
- Deepseek-R1-Null wurde ausschließlich über groß angelegte RL ausgebildet und übersprungen beaufsichtigte Feinabstimmungen (SFT).
- Deepseek-R1 baut darauf auf und befasst sich mit den auftretenden Herausforderungen.
Lassen Sie uns in einige dieser wichtigen Punkte eintauchen.
1. RL Algo: Gruppenrelative Richtlinienoptimierung (GRPO)
Ein wichtiger RL -Algorithmus für Spiele ist die Gruppenrelationsrichtlinie (GRPO), eine Variante der weit verbreiteten proximalen Richtlinienoptimierung (PPO). Grpo wurde im Februar 2024 in der Papier von Deepseekmath eingeführt.
Warum Grpo über PPO?
PPO kämpft mit Argumentationsaufgaben aufgrund von:
- Abhängigkeit von einem Kritikermodell.
PPO benötigt ein separates Kritikermodell, das den Speicher und Berechnung effektiv verdoppelt.
Coaching des Kritikers kann für nuancierte oder subjektive Aufgaben komplex sein. - Hohe Rechenkosten als RL -Pipelines erfordern erhebliche Ressourcen, um die Antworten zu bewerten und zu optimieren.
- Absolute Belohnungsbewertungen
Wenn Sie sich auf eine absolute Belohnung verlassen-was bedeutet, dass es einen einzigen Commonplace oder eine Metrik gibt, um zu beurteilen, ob eine Antwort „intestine“ oder „schlecht“ ist-kann es schwierig sein, die Nuancen offener, vielfältiger Aufgaben über verschiedene Argumentationsbereiche hinweg zu erfassen.
Wie GRPO diese Herausforderungen ansprach:
GRPO eliminiert das Kritikermodell durch Verwendung Relative Bewertung– Die Antworten werden in einer Gruppe verglichen und nicht nach einem festen Commonplace beurteilt.
Stellen Sie sich vor, Studenten, die ein Drawback lösen. Anstatt dass ein Lehrer sie einzeln bewertet, vergleichen sie Antworten und lernen voneinander. Im Laufe der Zeit konvergiert die Leistung in Richtung höherer Qualität.
Wie passt Grpo in den gesamten Trainingsprozess?
GRPO modifiziert, wie der Verlust berechnet wird, während andere Trainingsschritte unverändert bleiben:
- Daten sammeln (Abfragen + Antworten)
– Für LLMs sind Abfragen wie Fragen
– Die alte Richtlinie (älterer Schnappschuss des Modells) generiert mehrere Kandidatenantworten für jede Abfrage - Belohnungen zuweisen– Jede Antwort in der Gruppe wird bewertet (die „Belohnung“).
- Berechnen Sie den Grpo -Verlust
Traditionell berechnen Sie einen Verlust – der die Abweichung zwischen der Modellvorhersage und dem wahren Etikett zeigt.
In GRPO messen Sie jedoch:
a) Wie wahrscheinlich ist die neue Richtlinie, um vergangene Antworten zu produzieren?
b) Sind diese Antworten relativ oder schlechter?
c) Anwenden Sie das Ausschneiden an, um excessive Updates zu verhindern.
Dies ergibt einen skalaren Verlust. - Rückenausbreitung + Gradientenabstieg
– Die Rückausbreitung berechnet, wie jeder Parameter zum Verlust beigetragen hat
– Gradientenabstieg aktualisiert diese Parameter, um den Verlust zu verringern
– Über viele Iterationen verändert dies die neue Richtlinie nach und nach, um höhere Belohnungsantworten zu bevorzugen - Aktualisieren Sie die alte Richtlinie gelegentlich, um die neue Richtlinie zu entsprechen.
Dies aktualisiert die Grundlinie für die nächste Vergleichsrunde.
2. Denkkette (COT)
Traditionelles LLM-Coaching folgt vor der Coaching → SFT → RL. Deepseek-R1-Null übersprungen sftdamit das Modell das COT -Argumentation direkt erforschen kann.
Wie Menschen, die durch eine schwierige Frage nachdenken, ermöglicht COT Modellen, Probleme in Zwischenschritte zu unterteilen und komplexe Argumentationsfunktionen zu steigern. Das O1 -Modell von OpenAI nutzt dies auch, wie in seinem Bericht im September 2024 erwähnt: Die Leistung von O1 verbessert sich mit mehr RL (Zug-Zeit-Laptop) und mehr Argumentationszeit (Take a look at-Time-Laptop).
Deepseek-R1-Null zeigte reflektierende Tendenzen und verfeinerte seine Argumentation autonom.
Ein Schlüsseldiagramm (unten) in der Arbeit zeigte während des Trainings ein erhöhtes Denken, was zu längeren (mehr Token), detaillierteren und besseren Antworten führte.

Ohne explizite Programmierung begann es, vergangene Argumentationsschritte zu überdenken und die Genauigkeit zu verbessern. Dies unterstreicht die Gedankenkette als eine aufstrebende Eigenschaft der RL-Ausbildung.
Das Modell hatte auch einen „AHA -Second“ (unten) – ein faszinierendes Beispiel dafür, wie RL zu unerwarteten und raffinierten Ergebnissen führen kann.

Hinweis: Im Gegensatz zu Deepseek-R1 zeigt Openai in O1 keine genauen Denkketten, da sie über ein Destillationsrisiko besorgt sind-wo jemand hereinkommt und versucht, diese Argumentationsspuren nachzuahmen und einen Großteil der Argumentationsleistung wiederzugewinnen, indem sie nur nachahmt. Stattdessen nur Zusammenfassungen dieser Ketten von Gedanken.
Verstärkungslernen mit menschlichem Suggestions (RLHF)
Bei Aufgaben mit überprüfbaren Ausgängen (z. B. Mathematikproblemen, sachlichen Q & A) können AI -Antworten leicht bewertet werden. Aber was ist mit Bereichen wie Summarisierung oder kreativem Schreiben, wo es keine einzige „korrekte“ Antwort gibt?
Hier kommt das menschliche Suggestions ins Spiel – aber naive RL -Ansätze sind unvergleichlich.

Schauen wir uns den naiven Ansatz mit einigen willkürlichen Zahlen an.

Das sind eine Milliarde menschliche Bewertungen, die benötigt werden! Dies ist zu kostspielig, langsam und unvergleichlich. Eine intelligentere Lösung besteht daher darin, ein KI -Belohnungsmodell zu schulen, um menschliche Vorlieben zu erlernen und die menschliche Anstrengung dramatisch zu verringern.
Rating -Antworten ist auch einfacher und intuitiver als absolutes Tor.

Höflichkeiten von RLHF
- Kann auf jede Domäne angewendet werden, einschließlich kreatives Schreiben, Gedichte, Zusammenfassung und anderen offenen Aufgaben.
- Rating Outputs ist für menschliche Lager viel einfacher als selbst kreative Ausgänge zu generieren.
Nachteile von RLHF
- Das Belohnungsmodell ist eine Annäherung – es spiegelt möglicherweise die menschlichen Vorlieben nicht perfekt wider.
- RL ist intestine darin, das Belohnungsmodell zu spielen – wenn zu lange ausgeführt wird, kann das Modell Lücken ausnutzen und unsinnige Ausgänge generieren, die immer noch hohe Punktzahlen erzielen.
Beachten Sie das Rlhf ist nicht dasselbe wie die traditionelle RL.
Für empirische, überprüfbare Bereiche (z. B. Mathematik, Codierung) kann RL unbegrenzt ausgeführt und neuartige Strategien entdecken. RLHF hingegen ist eher ein feinabstimmiger Schritt, um Modelle mit menschlichen Vorlieben auszurichten.
Abschluss
Und das ist ein Wrap! Ich hoffe, Sie haben Teil 2 🙂 genossen, wenn Sie Teil 1 noch nicht gelesen haben –Schau es dir hier an.
Haben Sie Fragen oder Ideen für das, was ich als nächstes behandeln sollte? Lass sie in die Kommentare fallen – ich würde gerne deine Gedanken hören. Wir sehen uns im nächsten Artikel!