Moderne große Sprachmodelle werden nicht mehr nur auf rohen Internettext trainiert. Immer häufiger nutzen Unternehmen leistungsstarke „Lehrer“-Modelle, um kleinere oder effizientere „Schüler“-Modelle auszubilden. Dieser Prozess, allgemein bekannt als LLM-Destillation oder Modell-zu-Modell-Schulungist zu einer Schlüsseltechnik für die Erstellung leistungsstarker Modelle mit geringerem Rechenaufwand geworden. Meta nutzte sein riesiges Llama 4 Behemoth-Modell, um Llama 4 Scout und Maverick zu trainieren, während Google bei der Entwicklung von Gemma 2 und Gemma 3 Gemini-Modelle nutzte. In ähnlicher Weise destillierte DeepSeek die Argumentationsfunktionen von DeepSeek-R1 in kleinere Qwen- und Llama-basierte Modelle.

Die Kernidee ist einfach: Anstatt ausschließlich aus von Menschen geschriebenen Texten zu lernen, kann ein Schülermodell auch aus den Ergebnissen, Wahrscheinlichkeiten, Argumentationsspuren oder Verhaltensweisen eines anderen LLM lernen. Dadurch können kleinere Modelle Fähigkeiten wie Argumentation, Befehlsfolge und strukturierte Generierung von viel größeren Systemen erben. Die Destillation kann während der Vorschulung erfolgen, wenn Lehrer- und Schülermodelle gemeinsam trainiert werden, oder während der Nachschulung, wenn ein vollständig ausgebildeter Lehrer Wissen auf ein separates Schülermodell überträgt.

In diesem Artikel werden wir drei Hauptansätze untersuchen, die zum Trainieren eines LLM mithilfe eines anderen verwendet werden: Delicate-Label-Destillationwobei der Schüler aus den Wahrscheinlichkeitsverteilungen des Lehrers lernt; Laborious-Label-Destillationwobei der Schüler die vom Lehrer generierten Ergebnisse nachahmt; Und Co-DestillationDabei lernen mehrere Modelle gemeinsam, indem sie während des Trainings Vorhersagen und Verhaltensweisen austauschen.

Delicate-Label-Destillation

Delicate-Label-Destillation ist eine Trainingstechnik, bei der eine kleinere Pupil LLM lernt durch Nachahmung der Ausgabewahrscheinlichkeitsverteilung eines größeren Lehrer LLM. Anstatt nur auf dem richtigen nächsten Token zu trainieren, wird der Schüler darauf trainiert, die Softmax-Wahrscheinlichkeiten des Lehrers im gesamten Wortschatz abzugleichen. Wenn der Lehrer beispielsweise den nächsten Spielstein mit Wahrscheinlichkeiten wie … vorhersagt „Katze“ = 70 %, „Hund“ = 20 %Und „Tier“ = 10 %lernt der Schüler nicht nur die endgültige Antwort, sondern auch die Beziehungen und Unsicherheiten zwischen verschiedenen Token. Dieses reichhaltigere Sign wird oft als „dunkles Wissen“ des Lehrers bezeichnet, da es verborgene Informationen über Denkmuster und semantisches Verständnis enthält.

Der größte Vorteil der Delicate-Label-Destillation besteht darin, dass sie es kleineren Modellen ermöglicht, Fähigkeiten von viel größeren Modellen zu erben und gleichzeitig schneller und kostengünstiger bereitzustellen. Da der Schüler anhand der vollständigen Wahrscheinlichkeitsverteilung des Lehrers lernt, wird das Coaching stabiler und informativer als das Lernen allein anhand harter Ein-Wort-Ziele. Allerdings bringt diese Methode auch praktische Herausforderungen mit sich. Um Delicate Labels zu generieren, benötigen Sie Zugriff auf die Logits oder Gewichte des Lehrermodells, was bei Closed-Supply-Modellen oft nicht möglich ist. Darüber hinaus wird das Speichern von Wahrscheinlichkeitsverteilungen für jeden Token in Vokabularien mit mehr als 100.000 Token im LLM-Maßstab extrem speicherintensiv, was die reine Delicate-Label-Destillation für Billionen-Token-Datensätze teuer macht.

Laborious-Label-Destillation

Die Laborious-Label-Destillation ist ein einfacherer Ansatz, bei dem der Schüler-LLM nur aus dem endgültigen vorhergesagten Ausgabetoken des Lehrermodells und nicht aus seiner vollständigen Wahrscheinlichkeitsverteilung lernt. In diesem Setup generiert ein vorab trainiertes Lehrermodell den wahrscheinlichsten nächsten Token oder die nächste Antwort, und das Schülermodell wird mithilfe von standardmäßigem überwachtem Lernen trainiert, um diese Ausgabe zu reproduzieren. Der Lehrer fungiert im Wesentlichen als hochwertiger Annotator, der synthetische Trainingsdaten für den Schüler erstellt. DeepSeek nutzte diesen Ansatz, um die Argumentationsfunktionen von DeepSeek-R1 in kleinere Qwen- und Llama 3.1-Modelle zu destillieren.

Im Gegensatz zur Delicate-Label-Destillation sieht der Schüler nicht die internen Vertrauenswerte oder Token-Beziehungen des Lehrers, sondern erfährt nur die endgültige Antwort. Dies macht die Laborious-Label-Destillation rechnerisch viel kostengünstiger und einfacher zu implementieren, da nicht für jeden Token huge Wahrscheinlichkeitsverteilungen gespeichert werden müssen. Dies ist auch besonders nützlich, wenn mit proprietären „Black-Field“-Modellen wie GPT-4-APIs gearbeitet wird, bei denen Entwickler nur Zugriff auf den generierten Textual content und nicht auf die zugrunde liegenden Protokolle haben. Während Hardlabels weniger Informationen enthalten als Softlabels, bleiben sie für die Befehlsoptimierung, Argumentationsdatensätze, die Generierung synthetischer Daten und domänenspezifische Feinabstimmungsaufgaben äußerst effektiv.

Co-Destillation

Co-Destillation ist ein Trainingsansatz, bei dem sowohl das Lehrer- als auch das Schülermodell gemeinsam trainiert werden, anstatt einen festen, vorab ausgebildeten Lehrer einzusetzen. In diesem Setup verarbeiten der Lehrer-LLM und der Schüler-LLM gleichzeitig dieselben Trainingsdaten und generieren ihre eigenen Softmax-Wahrscheinlichkeitsverteilungen. Der Lehrer wird normalerweise mit den harten Etiketten der Grundwahrheit geschult, während der Schüler lernt, indem er die weichen Etiketten des Lehrers mit den tatsächlich richtigen Antworten abgleicht. Meta nutzte eine Kind dieses Ansatzes beim Coaching von Llama 4 Scout und Maverick neben dem größeren Llama 4 Behemoth-Modell.

Eine Herausforderung bei der Co-Destillation besteht darin, dass das Lehrermodell in den frühen Phasen noch nicht vollständig trainiert ist, was bedeutet, dass seine Vorhersagen zunächst verrauscht oder ungenau sein können. Um dies zu überwinden, wird der Schüler in der Regel mit einer Kombination aus Delicate-Label-Destillationsverlust und Normal-Laborious-Label-Kreuzentropieverlust geschult. Dies erzeugt ein stabileres Lernsignal und ermöglicht gleichzeitig den Wissenstransfer zwischen Modellen. Im Gegensatz zur herkömmlichen Einwegdestillation ermöglicht die Co-Destillation die gemeinsame Verbesserung beider Modelle während des Trainings, was häufig zu einer besseren Leistung, einem stärkeren Switch von Argumenten und kleineren Leistungsunterschieden zwischen den Modellen von Lehrer und Schüler führt.

Vergleich der drei Destillationstechniken

Die Delicate-Label-Destillation vermittelt die umfassendste Kind des Wissens, da der Schüler aus der vollständigen Wahrscheinlichkeitsverteilung des Lehrers lernt und nicht nur aus der endgültigen Antwort. Dies hilft kleineren Modellen, Denkmuster, Unsicherheiten und Beziehungen zwischen Token zu erfassen, was häufig zu einer besseren Gesamtleistung führt. Es ist jedoch rechenintensiv, erfordert Zugriff auf die Protokolle oder Gewichtungen des Lehrers und ist schwierig zu skalieren, da das Speichern von Wahrscheinlichkeitsverteilungen für umfangreiche Vokabulare enorm viel Speicher beansprucht.

Die Laborious-Label-Destillation ist einfacher und praktischer. Der Schüler lernt nur aus den endgültigen Ergebnissen des Lehrers, was die Implementierung wesentlich kostengünstiger und einfacher macht. Es funktioniert besonders intestine mit proprietären Black-Field-Modellen wie GPT-4-APIs, bei denen interne Wahrscheinlichkeiten nicht verfügbar sind. Während dieser Ansatz einiges des tieferen „dunklen Wissens“ verliert, das in Delicate Labels vorhanden ist, bleibt er für die Befehlsabstimmung, die Generierung synthetischer Daten und die aufgabenspezifische Feinabstimmung äußerst effektiv.

Die Co-Destillation verfolgt einen kollaborativen Ansatz, bei dem Lehrer- und Schülermodelle während des Trainings gemeinsam lernen. Der Lehrer verbessert sich, während er gleichzeitig den Schüler anleitet, sodass beide Modelle von gemeinsamen Lernsignalen profitieren können. Dies kann die Leistungslücke verringern, die bei herkömmlichen Einweg-Destillationsmethoden auftritt, macht das Coaching jedoch auch komplexer, da die Vorhersagen des Lehrers zunächst instabil sind. In der Praxis wird die Delicate-Label-Destillation für einen maximalen Wissenstransfer, die Laborious-Label-Destillation für Skalierbarkeit und Praktikabilität und die Co-Destillation für groß angelegte gemeinsame Trainingsaufbauten bevorzugt.


Ich habe einen Abschluss im Bauingenieurwesen (2022) von Jamia Millia Islamia, Neu-Delhi, und interessiere mich sehr für Datenwissenschaft, insbesondere für neuronale Netze und deren Anwendung in verschiedenen Bereichen.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert