WTF ist Grpo?!?
Bild von Autor | Ideogramm

Verstärkungslernen Algorithmen sind seit einiger Zeit Teil der künstlichen Intelligenz und des maschinellen Lernens. Diese Algorithmen zielen darauf ab Verfolgen Sie ein Ziel, indem Sie kumulative Belohnungen durch Versuchs- und Error-Interaktionen mit einer Umgebung maximieren.

Während sie seit mehreren Jahrzehnten überwiegend auf simulierte Umgebungen wie Robotik, Spiele und komplexe Rätsellösung angewendet wurden, gab es in den letzten Jahren eine large Verschiebung in Richtung Verstärkungslernen für eine besonders wirkungsvolle Verwendung in realen Anwendungen. Und hier Grpo (Gruppenrelative Politikoptimierung) eine Methode, die von entwickelt wurde von Deepseekist immer relevanter geworden.

Dieser Artikel enthüllt, was Grpo ist, und erklärt, wie er im Kontext von LLMs funktioniert, indem er eine einfachere und verständliche Erzählung verwendet. Fangen wir an!

Innerhalb von GRPO (Gruppenrelative Richtlinienoptimierung)

LLMs sind manchmal begrenzt, wenn sie die Aufgabe haben, Antworten auf Benutzeranfragen zu generieren, die auf dem Kontext hoch basieren. Wenn Sie beispielsweise gebeten werden, eine Frage zu beantworten, die auf einem bestimmten Dokument, Code-Snippet oder einem von Benutzer bereitgestellten Hintergrund basiert, ist wahrscheinlich allgemeines „Weltwissen“ überschrieben oder widerspricht. Im Wesentlichen kann das von der LLM beim Coaching gewonnene Wissen – das heißt, mit Tonnen von Textdokumenten genährt, um zu lernen, um zu verstehen und Sprache zu erzeugen – manchmal falsch ausgerichtet oder sogar mit den Informationen oder Kontext in Konflikt stehen, die neben der Eingabeaufforderung des Benutzers bereitgestellt werden.

GRPO wurde entwickelt, um die LLM-Funktionen zu verbessern, insbesondere wenn sie die oben beschriebenen Probleme aufweisen. Es ist eine Variante eines weiteren populären Ansatzes für Verstärkungslernen, proximale Richtlinienoptimierung (PPO), und es ist so konzipiert, dass sie sich bei mathematischen Argumentation übertrifft und gleichzeitig die Einschränkungen der Speichernutzung von PPO optimiert.

Um Grpo besser zu verstehen, schauen wir uns zuerst einen kurzen Blick auf PPO. In einfachen Worten und im Kontext von LLMs versucht PPO, die generierten Antworten des Modells auf den Benutzer durch Versuch und Irrtum sorgfältig zu verbessern, ohne dass das Modell zu weit von dem, was sein bereits bekannt ist, von dem bereits bekannten Wissen entfernt ist. Dieses Prinzip ähnelt dem Prozess der Ausbildung eines Schülers, um bessere Aufsätze zu schreiben: Während PPO nicht möchte, dass der Schüler seinen Schreibstil auf Suggestions -Teilen vollständig ändert, würde der Algorithmus sie lieber mit kleinen und stetigen Korrekturen führen und dem Schüler dabei helfen, seine Fähigkeiten zum Schreiben von Aufsätzen allmählich zu verbessern.

In der Zwischenzeit geht Grpo einen Schritt darüber hinaus, und hier kommt das „G“ für die Gruppe in Grpo ins Spiel. Zurück zum vorherigen Schülerbeispiel beschränkt sich Grpo nicht auf die individuelle Korrektur der Schreibfähigkeiten des Schülers. Dies geschieht, indem er beobachtet, wie eine Gruppe anderer Schüler auf ähnliche Aufgaben reagiert und diejenigen belohnt, deren Antworten die genauesten, konsequentesten und kontextuell mit anderen Schülern in der Gruppe ausgerichtet sind. Zurück zu LLM- und Verstärkungs -Lernjargon trägt diese Artwork von kollaborativem Ansatz dazu bei, die argumentativen Muster zu verstärken, die logischer, robuster und mit dem gewünschten LLM -Verhalten ausgerichtet sind, insbesondere bei herausfordernden Aufgaben, wie beispielsweise bei der Konsistenz über lange Gespräche oder die Lösung mathematischer Probleme.

In der obigen Metapher ist der Schüler, der geschult wird, um zu verbessern, die Richtlinie des aktuellen Verstärkungslernens, die mit der Aktualisierung der LLM -Model verbunden ist. Eine Verstärkungslernpolitik ähnelt im Grunde genommen dem internen Reiseführer des Modells. Das Modell mit der Auswahl des nächsten Zuges oder seiner Antwort basierend auf der aktuellen State of affairs oder Aufgabe. In der Zwischenzeit ist die Gruppe anderer Schüler in GRPO wie eine Inhabitants alternativer Reaktionen oder Richtlinien, die normalerweise aus mehreren Modellvarianten oder unterschiedlichen Trainingsphasen (Reifegradversionen) desselben Modells abgetastet wurden.

Die Bedeutung von Belohnungen in Grpo

Ein wichtiger Aspekt bei der Verwendung von GRPO ist, dass es häufig davon profitiert, sich konsequent auf konsequent zu verlassen messbare Belohnungen effektiv arbeiten. In diesem Zusammenhang kann eine Belohnung als objektives Sign verstanden werden, das die allgemeine Angemessenheit der Reaktion eines Modells angibt – unter Berücksichtigung von Faktoren wie Qualität, sachlicher Genauigkeit, Sprach- und Kontextrelevanz.

Zum Beispiel, wenn der Benutzer eine Frage zu „zu“ stellte „Welche Viertel in Osaka sollten Sie das beste Road Meals ausprobiert?„Eine angemessene Antwort sollte in erster Linie spezifische, aktuelle Vorschläge für Standorte in Osaka wie z. Dotonbori oder Kuromon Ichiba Marktzusammen mit kurzen Erklärungen darüber, was Road Meals dort zu finden ist (ich sehe Sie an, Takoyaki -Bälle). Eine weniger geeignete Antwort kann irrelevante Städte oder falsche Orte auflisten, vage Vorschläge liefern oder einfach das Road Meals zum Versuch erwähnen, wobei das „Wo“ -Teil der Antwort vollständig ignoriert wird.

Messbare Belohnungen helfen dabei, den GRPO -Algorithmus zu leiten, indem er eine Reihe möglicher Antworten entworfen und vergleichen kann, die nicht alle durch das Subjektmodell isoliert erzeugt werden, sondern indem sie beobachtet, wie andere Modellvarianten auf dieselbe Eingabeaufforderung reagierten. Das Subjektmodell wird daher dazu ermutigt, Muster und Verhalten aus den höheren (am meisten belohnten) Antworten über die Gruppe der Variantenmodelle zu übernehmen. Das Ergebnis? Zuverlässigere, konsistentere und kontextbezogene Antworten werden an den Endbenutzer geliefert, insbesondere in Frage-Anlern-Aufgaben, die Argumentation beinhalten, nuancierte Abfragen oder die Ausrichtung auf menschliche Vorlieben erfordern.

Abschluss

GRPO ist ein Ansatz für Verstärkungslernen, der von entwickelt wurde von Deepseek Verbesserung der Leistung hochmoderner großer Sprachmodelle, indem Sie dem Prinzip des „Lernens, bessere Antworten zu generieren, indem Sie beobachten, wie Gleichaltrige in einer Gruppe reagieren“. Mit einer sanften Erzählung hat dieser Artikel Aufschluss darüber geben, wie GRPO funktioniert und wie er den Wert erhöht, indem Sprachmodelle bei der Behandlung komplexer oder nuancierter Konverszenarien robuster, kontextbewusster und effektiver werden.

Iván Palomares Carrascosa ist ein Führer, Schriftsteller, Sprecher und Berater in KI, maschinellem Lernen, Deep Studying & LLMs. Er trainiert und führt andere darin, KI in der realen Welt zu nutzen.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert