Der Paradigmenwechsel hin zur Umgehung der Feinabstimmung
In unserem vorheriger Artikelhaben wir die Kernkonzepte von GPT-1 sowie die Inspirationsquellen noch einmal Revue passieren lassen. Durch die Kombination der autoregressiven Sprachmodellierung vor dem Coaching mit dem reinen Decoder-Transformer hatte GPT-1 das Gebiet des NLP revolutioniert und geschaffen Vortraining plus Feinabstimmung ein Standardparadigma.
Aber OpenAI hörte hier nicht auf.
Während sie versuchten zu verstehen, warum das Sprachmodell-Vortraining von Transformers effektiv ist, bemerkten sie vielmehr das Zero-Shot-Verhalten von GPT-1, bei dem das Modell mit fortschreitendem Vortraining seine Leistung bei Aufgaben stetig verbessern konnte dass daran keine Feinabstimmung vorgenommen wurde, was zeigt, dass das Vortraining seine Nullschussfähigkeit tatsächlich verbessern konnte, wie in der folgenden Abbildung dargestellt:
Dies motivierte den Paradigmenwechsel von „Vortraining plus Feinabstimmung“ Zu „Nur vor dem Coaching“oder mit anderen Worten, ein aufgabenunabhängiges vorab trainiertes Modell, das verschiedene Aufgaben bewältigen kann ohne Feinabstimmung.
Sowohl GPT-2 als auch GPT-3 sind nach dieser Philosophie konzipiert.
Aber warum, fragen Sie sich vielleicht, ist das nicht Vortraining plus Feinabstimmung Magie Funktioniert es einwandfrei? Welche zusätzlichen Vorteile bietet das Umgehen der Feinabstimmungsphase?
Einschränkungen der Feinabstimmung
Die Feinabstimmung funktioniert bei einigen klar definierten Aufgaben intestine, aber nicht bei allen, und das Downside besteht darin, dass es zahlreiche Aufgaben im NLP-Bereich gibt, mit denen wir noch nie experimentieren konnten.
Für diese Aufgaben bedeutet die Anforderung einer Feinabstimmungsphase, dass wir für jede einzelne neue Aufgabe einen Feinabstimmungsdatensatz von sinnvoller Größe sammeln müssen, was eindeutig nicht ideally suited ist, wenn wir möchten, dass unsere Modelle eines Tages wirklich clever sind.
Mittlerweile haben Forscher in einigen Arbeiten beobachtet, dass das Risiko der Ausnutzung falscher Korrelationen in den Feinabstimmungsdaten zunimmt, je größer die von uns verwendeten Modelle werden. Dadurch entsteht ein Paradoxon: Das Modell muss groß genug sein, damit es während des Trainings so viele Informationen wie möglich aufnehmen kann, aber die Feinabstimmung eines so großen Modells auf einem kleinen, eng verteilten Datensatz wird bei der Verallgemeinerung auf eine Out-of-Distribution Schwierigkeiten bereiten Proben.
Ein weiterer Grund ist, dass wir als Menschen keine großen überwachten Datensätze benötigen, um die meisten Sprachaufgaben zu lernen, und wenn wir möchten, dass unsere Modelle eines Tages nützlich sind, möchten wir, dass sie auch eine solche Fluidität und Allgemeingültigkeit aufweisen.
Die eigentliche Frage lautet nun vielleicht: Was können wir tun, um dieses Ziel zu erreichen und die Feinabstimmung zu umgehen?
Bevor wir uns mit den Particulars von GPT-2 und GPT-3 befassen, werfen wir zunächst einen Blick auf die drei Schlüsselelemente, die ihr Modelldesign beeinflusst haben: aufgabenunabhängiges Lernen, die Skalenhypothese und kontextbezogenes Lernen.
Aufgabenunabhängiges Lernen
Aufgabenunabhängiges Lernen, auch bekannt als Meta-Lernen oder Lernen lernenbezieht sich auf ein neues Paradigma im maschinellen Lernen, bei dem das Modell zur Trainingszeit ein breites Spektrum an Fähigkeiten entwickelt und diese Fähigkeiten dann zur Inferenzzeit nutzt, um sich schnell an eine neue Aufgabe anzupassen.
Zum Beispiel in MAML (Mannequin-Agnostic Meta-Studying) zeigten die Autoren, dass sich die Modelle mit sehr wenigen Beispielen an neue Aufgaben anpassen konnten. Genauer gesagt: Während jeder inneren Schleife (blau hervorgehoben) tastet das Modell zunächst eine Aufgabe aus einer Reihe von Aufgaben ab und führt einige Gradientenabstiegsschritte durch, was zu einem angepassten Modell führt. Dieses angepasste Modell wird für dieselbe Aufgabe in der äußeren Schleife ausgewertet (orange hervorgehoben), und dann wird der Verlust zur Aktualisierung der Modellparameter verwendet.
MAML zeigt, dass das Lernen allgemeiner und flexibler sein könnte, was mit der Richtung übereinstimmt, die Feinabstimmung für jede einzelne Aufgabe zu umgehen. In der folgenden Abbildung erklärten die Autoren von GPT-3, wie diese Idee in Kombination mit kontextbezogenem Lernen auf Sprachlernmodelle ausgeweitet werden kann, wobei die äußere Schleife verschiedene Aufgaben durchläuft, während die innere Schleife mithilfe von beschrieben wird Lernen im Kontextwas in späteren Abschnitten näher erläutert wird.
Die Skalenhypothese
Als vielleicht einflussreichste Idee hinter der Entwicklung von GPT-2 und GPT-3 bezieht sich die Skalenhypothese auf die Beobachtungen, dass große Modelle beim Coaching mit größeren Daten irgendwie automatisch und ohne explizite Aufsicht neue Fähigkeiten entwickeln könnten, oder mit anderen Worten: auftauchend Beim Hochskalieren könnten neue Fähigkeiten auftreten, genau wie wir es bei den Zero-Shot-Fähigkeiten des vorab trainierten GPT-1 gesehen haben.
Sowohl GPT-2 als auch GPT-3 können als Experimente zum Testen dieser Hypothese betrachtet werden, wobei GPT-2 testen soll, ob ein größeres Modell, das vorab auf einem größeren Datensatz trainiert wurde, direkt zur Lösung nachgelagerter Aufgaben verwendet werden kann, und GPT- 3 soll testen, ob kontextbezogenes Lernen bei weiterer Skalierung Verbesserungen gegenüber GPT-2 bringen kann.
Wir werden in späteren Abschnitten ausführlicher darüber sprechen, wie sie diese Idee umgesetzt haben.
Lernen im Kontext
Wie wir in Abbildung 3 zeigen, bezieht sich das Lernen im Kontext im Kontext von Sprachmodellen auf die innere Schleife des Meta-Lernprozesses, in dem dem Modell zum Zeitpunkt der Inferenz eine natürliche Sprachanweisung und einige Demonstrationen der Aufgabe gegeben werden. Von ihm wird dann erwartet, dass er diese Aufgabe erledigt, indem er automatisch die Muster in den gegebenen Demonstrationen erkennt.
Beachten Sie, dass in der Testphase kontextbezogenes Lernen stattfindet ohne dass Verlaufsaktualisierungen durchgeführt wurdenwas sich völlig von der herkömmlichen Feinabstimmung unterscheidet und eher der Artwork und Weise ähnelt, wie Menschen neue Aufgaben ausführen.
Falls Sie mit der Terminologie nicht vertraut sind, Demonstrationen bedeutet normalerweise beispielhafte Eingabe-Ausgabe-Paare, die einer bestimmten Aufgabe zugeordnet sind, wie wir im „Beispiele“ Teil in der Abbildung unten:
Die Idee des kontextbezogenen Lernens wurde implizit in GPT-2 und dann formeller in GPT-3 untersucht, wo die Autoren drei verschiedene Einstellungen definierten: Zero-Shot, One-Shot und Fence-Shot, je nachdem, wie viele Demonstrationen es gibt dem Modell gegeben.
Zusamenfassend, Aufgabenunabhängiges Lernen unterstreicht das Potenzial der Umgehung der Feinabstimmung, während die Skalenhypothese und das Lernen im Kontext einen praktischen Weg vorschlagen, dies zu erreichen.
In den folgenden Abschnitten gehen wir auf weitere Particulars zu GPT-2 bzw. GPT-3 ein.