Was sind destillierte Modelle?

Wir haben vielleicht von Deepseek gehört, aber haben Sie auch Erwähnungen von Deepseeks destillierten Modellen auf Ollama beobachtet? Oder, wenn Sie Croq Cloud ausprobiert haben, haben Sie vielleicht ähnliche Modelle gesehen. Aber was genau sind diese „Distil“ -Modelle? In diesem Zusammenhang steht Distil für destillierte Versionen der ursprünglichen Modelle, die von den Organisationen veröffentlicht wurden. Destillierte Modelle sind grundsätzlich kleinere und effizientere Modelle, um das Verhalten größerer Modelle zu replizieren und gleichzeitig die Ressourcenanforderungen zu verringern.

Vorteile destillierter Modelle

Reduzierter Speicherausdruck und Berechnungsanforderungen
Niedrigerer Energieverbrauch während der Inferenz und des Trainings
Schnellere Verarbeitungszeiten

Lesen Sie auch: Aufbau eines Lappensystems für KI -Argumentation mit Deepseek R1 Destilliertem Modell

Wie wurden destillierte Modelle eingeführt?

Dieser Prozess zielt darauf ab, die Leistung aufrechtzuerhalten und gleichzeitig den Speicherausdruck und die Berechnungsanforderungen zu reduzieren. Es handelt sich um eine Type der Modellkomprimierung, die von Geoffrey Hinton in seinem Artikel von 2015 eingeführt wurde. „Destillieren des Wissens in einem neuronalen Netzwerk.“

Hinton warf die Frage: Ist es möglich, ein großes neuronales Netzwerk zu trainieren und dann sein Wissen in eine kleinere zu komprimieren? Seiner Ansicht nach fungiert das kleinere Netzwerk als Schüler, während das größere Netzwerk als Lehrer dient. Das Ziel ist es, dass der Schüler die vom Lehrer gelernten wichtigsten Gewichte wiederholt.

Indem Hinton und seine Kollegen das Verhalten des Lehrers und seine Vorhersagen analysierten, entwickelten sie eine Trainingsmethode, mit der ein kleineres (Schüler-) Netzwerk seine Gewichte effektiv lernen kann. Die Kernidee bestand darin, den Fehler zwischen der Ausgabe des Schülers und zwei Arten von Zielen zu minimieren: die tatsächliche Grundwahrheit (hartes Ziel) und die Vorhersage des Lehrers (Tender Goal).

Doppelverlustkomponenten

Harter Verlust: Dies ist der Fehler, der gegen die wahren (Grundwahrheitsbezeichnungen) gemessen wird. Es ist das, was Sie normalerweise im Standardtraining optimieren würden, um sicherzustellen, dass das Modell die richtige Ausgabe lernt.
Weicher Verlust: Dies ist der Fehler, der an den Vorhersagen des Lehrers gemessen wird. Während der Lehrer möglicherweise nicht perfekt ist, enthalten seine Vorhersagen wertvolle Informationen über die relativen Wahrscheinlichkeiten der Ausgangsklassen, die das Schülermodell für eine bessere Verallgemeinerung führen können.

Das Trainingsziel besteht darin, die gewichtete Summe dieser beiden Verluste zu minimieren. Das dem weiche Verlust zugewiesene Gewicht wird durch das λ bezeichnet:

In dieser Formulierung bestimmt der Parameter λ (Weichgewicht) das Gleichgewicht zwischen dem Lernen aus den tatsächlichen Beschriftungen und der Nachahmung der Ausgabe des Lehrers. Obwohl man argumentieren könnte, dass die wahren Labels für das Coaching ausreichen sollten, kann die Einbeziehung der Vorhersage des Lehrers (Tender Loss) dazu beitragen, das Coaching zu beschleunigen und die Leistung zu verbessern, indem der Schüler mit nuancierten Informationen geführt wird.

Die Softmax -Funktion und Temperatur

Eine Schlüsselkomponente in dieser Methodik ist die Modifikation der Softmax -Funktion über einen Parameter, der als Temperatur (T) bezeichnet wird. Die Softmax -Funktion, auch als normalisierte Exponentialfunktion bezeichnet, wandelt Rohausgangswerte (Logits) aus einem neuronalen Netzwerk in Wahrscheinlichkeiten um. Für einen Knoten I mit Wert y_i ist der Commonplace -Softmax definiert als:

Hinton führte eine neue Model der Softmax -Funktion ein, die den Temperaturparameter enthält:

Wenn t = 1: Die Funktion verhält sich wie der Commonplace -Softmax.
Wenn t> 1: Die Exponentiale werden weniger extrem und erzeugen eine „weichere“ Wahrscheinlichkeitsverteilung über Klassen. Mit anderen Worten, die Wahrscheinlichkeiten verbreiten sich gleichmäßiger und enthüllen weitere Informationen über die relative Wahrscheinlichkeit jeder Klasse.

Einstellen des Verlusts mit Temperatur

Da die Anwendung einer höheren Temperatur eine weichere Verteilung erzeugt, skaliert sie die Gradienten während des Trainings effektiv. Um dies zu korrigieren und ein effektives Lernen aus den weichen Zielen aufrechtzuerhalten, wird der weiche Verlust mit T^2 multipliziert. Die aktualisierte Gesamtverlustfunktion wird:

Diese Formulierung stellt sicher, dass sowohl der harte Verlust (aus den tatsächlichen Beschriftungen) als auch der temperaturbereinigte Tender-Verlust (aus den Vorhersagen des Lehrers) angemessen zur Ausbildung des Schülermodells beitragen.

Überblick

Lehrer-Schüler-Dynamik: Das Schülermodell lernt, indem er Fehler sowohl gegen die wahren Labels (harter Verlust) als auch die Vorhersagen des Lehrers (Tender Loss) minimiert.
Gewichtungsverlustfunktion: Der allgemeine Trainingsverlust ist eine gewichtete Summe von harten und weichen Verlusten, die vom Parameter λ gesteuert werden.
Temperaturbereinigte Softmax: Die Einführung der Temperatur T in der Softmax -Funktion macht die Wahrscheinlichkeitsverteilung weich und multipliziert den Tender -Verlust mit T^2 diesen Effekt während des Trainings.

Durch die Kombination dieser Elemente wird das destillierte Netzwerk effizient geschult, wodurch sowohl die Präzision von Hardetiketten als auch die reichhaltigere, informative Anleitung durch die Vorhersagen des Lehrers genutzt werden. Dieser Prozess beschleunigt nicht nur das Coaching, sondern hilft dem kleineren Netzwerk auch bei der Annäherung an die Leistung seines größeren Gegenstücks.

Distilbert

Distilbert passt die Destillationsmethode von Hinton mit einer leichten Modifikation durch Hinzufügen a an Cosinus -Einbettungsverlust Messung der Entfernung zwischen den Einbettungsvektoren des Schülers und des Lehrers. Hier ist ein kurzer Vergleich:

Distilbert: 6 Schichten, 66 Millionen Parameter
Bert-Base: 12 Schichten, 110 Millionen Parameter

Beide Modelle wurden auf demselben Datensatz (englischer Wikipedia und dem Toronto Ebook Corpus) umgeschrieben. Bei Bewertungsaufgaben:

Kleberaufgaben: Bert-Base betrug durchschnittlich 79,5% Genauigkeit gegenüber 77% von Distilbert.
Squad -Datensatz: Bert-Base erzielte 88,5% F1 im Vergleich zu Distilbert ~ 86%.

Destillgpt2

Für GPT-2, das ursprünglich in vier Größen veröffentlicht wurde:

Das kleinste GPT-2 hat 12 Schichten und ungefähr 117 Millionen Parameter (einige Berichte Anmerkung 124 Millionen aufgrund von Implementierungsunterschieden).
Destillgpt2 ist die destillierte Model mit 6 Schichten und 82 Millionen Parametern, während die gleiche Einbettungsgröße (768) beibehält.

Sie können das Modell untersuchen Umarmtes Gesicht.

Obwohl Destillgpt2 doppelt so schnell wie GPT-2 ist, ist die Verwirrung bei großen Textdatensätzen um 5 Punkte höher. In NLP weist eine geringere Verwirrung eine bessere Leistung an. Somit übertrifft das kleinste GPT-2 sein destilliertes Gegenstück immer noch.

Implementierung der LLM -Destillation

Das Implementieren von Destillation mit großer Sprachmodell (LLM) umfasst mehrere Schritte und die Verwendung von spezialisierten Frameworks und Bibliotheken. Unten finden Sie einen Überblick über den Prozess:

Frameworks und Bibliotheken

Umarmende Gesichtstransformatoren: Bietet eine Distiller -Klasse, die das Übertragen von Wissen von einem Lehrer in ein Schülermodell vereinfacht.
Andere Bibliotheken:
- TensorFlow -Modelloptimierung: Bietet Werkzeuge für das Modell von Modellbeschnitten, Quantisierung und Destillation.
- Pytorch Distilller: Enthält Dienstprogramme zum Komprimieren von Modellen mithilfe von Destillationstechniken.
- Deepspeed: Es wurde von Microsoft entwickelt und umfasst Funktionen sowohl für das Modelltraining als auch für die Destillation.

Schritte beteiligt

Datenvorbereitung: Erstellen Sie einen Datensatz, der für die Zielaufgaben repräsentativ ist. Datenvergrößerungstechniken können die Vielfalt der Schulungsbeispiele weiter verbessern.
Auswahl der Lehrermodell: Wählen Sie ein intestine leistungsstarkes Lehrermodell vorgeblendet. Die Qualität des Lehrers beeinflusst direkt die Leistung des Schülers.
Destillationsprozess
- Trainingseinrichtung: Initialisieren Sie das Schülermodell und konfigurieren Sie Trainingsparameter (z. B. Lernrate, Chargengröße).
- Wissenstransfer: Verwenden Sie das Lehrermodell, um Softziele (Wahrscheinlichkeitsverteilungen) neben harten Zielen (Bodenwahrheitsbezeichnungen) zu generieren.
- Trainingsschleife: Trainieren Sie das Schülermodell, um den kombinierten Verlust zwischen seinen Vorhersagen und den weichen/harten Zielen zu minimieren.
Bewertungsmetriken: Häufige Metriken zur Beurteilung des destillierten Modells umfassen:
- Genauigkeit: Prozentsatz der korrekten Vorhersagen.
- Inferenzgeschwindigkeit: Zeit erforderlich, um Eingaben zu verarbeiten.
- Modellgröße: Verringerung der Größe und Recheneffizienz.
- Ressourcenauslastung: Effizienz in Bezug auf den Rechenressourcenverbrauch während der Inferenz.

Modelldestillation verstehen

Schlüsselkomponenten der Modelldestillation

Lehrer- und Schülermodellarchitekturen auswählen

Das Schülermodell kann entweder eine vereinfachte oder quantisierte Model des Lehrers sein oder eine völlig andere, optimierte Architektur haben. Die Wahl hängt von den spezifischen Anforderungen der Bereitstellungsumgebung ab.

Der Destillationsprozess erklärte

Im Kern dieses Prozesses besteht das Schulungsmodell aus, um das Verhalten des Lehrers nachzuahmen. Dies wird erreicht, indem der Unterschied zwischen den Vorhersagen des Schülers und den Ergebnissen des Lehrers minimiert wird – ein beaufsichtigter Lernansatz, der die Grundlage der Modelldestillation bildet.

Herausforderungen und Einschränkungen

Während destillierte Modelle klare Vorteile bieten, müssen einige Herausforderungen berücksichtigt werden:

Kompromisse in Genauigkeit: Destillierte Modelle haben im Vergleich zu ihren größeren Gegenstücken oft einen leichten Leistungsrückgang.
Komplexität des Destillationsprozesses: Die Konfiguration der richtigen Trainingsumgebung und der Feinabstimmung Hyperparameter (wie λ und Temperatur T) kann eine Herausforderung sein.
Domänenanpassung: Die Wirksamkeit der Destillation kann je nach spezifischer Domäne oder Aufgabe, für die das Modell verwendet wird, variieren.

Zukünftige Richtungen in der Modelldestillation

Das Feld der Modelldestillation entwickelt sich schnell weiter. Einige vielversprechende Bereiche umfassen:

Fortschritte bei Destillationstechniken: Die laufende Forschung zielt darauf ab, die Leistungslücke zwischen Lehrer- und Studentenmodellen zu schließen.
Automatisierte Destillationsprozesse: Es entstehen neue Ansätze, um die Hyperparameterabstimmung zu automatisieren und die Destillation zugänglicher und effizienter zu machen.
Breitere Anwendungen: Über NLP hinaus gewinnt die Modelldestillation an Computernision, Verstärkungslernen und anderen Bereichen an die Antriebsaktion und verändert möglicherweise die Bereitstellung in ressourcenbezogenen Umgebungen.

Anwendungen in der Praxis

Destillierte Modelle finden praktische Anwendungen in verschiedenen Branchen:

Cellular und Edge Computing: Ihre kleinere Größe macht sie splendid für die Bereitstellung auf Geräten mit begrenzter Rechenleistung und sorgt für eine schnellere Schlussfolgerung in mobilen Apps und IoT -Geräten.
Energieeffizienz: In groß angelegten Bereitstellungen wie Cloud-Diensten ist ein reduzierter Stromverbrauch von entscheidender Bedeutung. Destillierte Modelle helfen, den Energieverbrauch zu senken.
Schnelles Prototyping: Für Startups und Forscher bieten destillierte Modelle ein Gleichgewicht zwischen Leistung und Ressourceneffizienz und ermöglichen schnellere Entwicklungszyklen.

Abschluss

Destillierte Modelle haben das tiefgreifende Lernen durch das Erreichen eines empfindlichen Gleichgewichts zwischen hoher Leistung und Recheneffizienz verändert. Während sie aufgrund ihrer geringeren Größe und Abhängigkeit von Tender Loss-Coaching ein wenig Genauigkeit opfern, machen sie schnellere Verarbeitung und reduzierte Ressourcenanforderungen besonders wertvoll in ressourcenbezogenen Umgebungen.

Im Wesentlichen emuliert ein destilliertes Netzwerk das Verhalten seines größeren Gegenstücks, kann es jedoch aufgrund seiner begrenzten Kapazität niemals in der Leistung überschreiten. Dieser Kompromiss macht destillierte Modelle zu einer intelligenten Wahl, wenn die Berechnung von Ressourcen begrenzt ist oder wenn ihre Leistung eng dem des ursprünglichen Modells annähert. Wenn der Leistungsabfall erheblich ist oder wenn die Rechenleistung durch Methoden wie Parallelisierung leicht verfügbar ist, kann es die bessere Possibility sein, sich für das ursprüngliche, größere Modell zu entscheiden.

Genai Praktikant @ Analytics Vidhya | Letzte Jahr @ Vit Chennai
Leidenschaftlich für KI und maschinelles Lernen, ich bin bestrebt, als KI/ML -Ingenieur oder Datenwissenschaftler in Rollen einzutauchen, wo ich einen echten Einfluss haben kann. Ich freue mich sehr, modern Lösungen und hochmoderne Fortschritte auf den Tisch zu bringen. Meine Neugier treibt mich an, KI über verschiedene Bereiche hinweg zu erkunden und die Initiative zu ergreifen, um sich mit Knowledge Engineering zu befassen, um sicherzustellen, dass ich vorne bleibe und wirksame Projekte liefere.

Was sind destillierte Modelle?

Vorteile destillierter Modelle