Menschen nutzen große Sprachmodelle für eine Vielzahl von Aufgaben, von der Übersetzung eines Artikels bis zur Erkennung von Finanzbetrug. Trotz der unglaublichen Fähigkeiten und Vielseitigkeit dieser Modelle erzeugen sie jedoch manchmal ungenaue Antworten.

Hinzu kommt, dass die Modelle bei falschen Antworten zu selbstsicher sein können und bei richtigen Antworten zu wenig Vertrauen haben. Dadurch ist es für den Benutzer schwierig einzuschätzen, ob ein Modell vertrauenswürdig ist.

Forscher kalibrieren ein maschinelles Lernmodell normalerweise, um sicherzustellen, dass sein Vertrauensniveau mit seiner Genauigkeit übereinstimmt. Ein intestine kalibriertes Modell sollte weniger Vertrauen in eine falsche Vorhersage haben und umgekehrt. Da große Sprachmodelle (LLMs) jedoch auf eine scheinbar endlose Sammlung unterschiedlicher Aufgaben angewendet werden können, sind herkömmliche Kalibrierungsmethoden unwirksam.

Nun haben Forscher vom MIT und dem MIT-IBM Watson AI Lab eine Kalibrierungsmethode vorgestellt, die auf große Sprachmodelle zugeschnitten ist. Ihre Methode, genannt Thermometerbeinhaltet den Aufbau eines kleineren Hilfsmodells, das auf einem großen Sprachmodell läuft, um es zu kalibrieren.

Thermometer ist effizienter als andere Ansätze, da es weniger stromhungrige Berechnungen erfordert, während die Genauigkeit des Modells erhalten bleibt und es besser kalibrierte Antworten auf Aufgaben liefert, die es noch nicht gesehen hat.

Indem Thermometer die effiziente Kalibrierung eines LLM für eine Reihe von Aufgaben ermöglicht, kann es Benutzern dabei helfen, Situationen zu erkennen, in denen ein Modell zu sehr auf falsche Vorhersagen vertraut. So können sie das Modell letztlich nicht in einer Scenario einsetzen, in der es möglicherweise versagt.

„Mit Thermometer wollen wir dem Benutzer ein klares Sign geben, das ihm mitteilt, ob die Antwort eines Modells richtig oder falsch ist, und zwar auf eine Weise, die die Unsicherheit des Modells widerspiegelt, sodass er weiß, ob das Modell zuverlässig ist“, sagt Maohao Shen, ein Doktorand der Elektrotechnik und Informatik (EECS) und Hauptautor eines Papier auf Thermometer.

An der Arbeit sind neben Shen Gregory Wornell beteiligt, der Sumitomo-Professor für Ingenieurwissenschaften, der das Alerts, Info, and Algorithms Laboratory im Analysis Laboratory for Electronics leitet und Mitglied des MIT-IBM Watson AI Lab ist; die leitende Autorin Soumya Ghosh, eine wissenschaftliche Mitarbeiterin im MIT-IBM Watson AI Lab; sowie weitere Mitarbeiter am MIT und dem MIT-IBM Watson AI Lab. Die Forschungsarbeit wurde kürzlich auf der Worldwide Convention on Machine Studying vorgestellt.

Universelle Kalibrierung

Da herkömmliche Machine-Studying-Modelle normalerweise für die Ausführung einer einzelnen Aufgabe konzipiert sind, wird für ihre Kalibrierung normalerweise eine aufgabenspezifische Methode verwendet. Da LLMs andererseits die Flexibilität haben, viele Aufgaben auszuführen, kann die Verwendung einer herkömmlichen Methode zur Kalibrierung dieses Modells für eine Aufgabe seine Leistung bei einer anderen Aufgabe beeinträchtigen.

Die Kalibrierung eines LLM erfordert häufig die mehrfache Stichprobenentnahme aus dem Modell, um unterschiedliche Vorhersagen zu erhalten. Anschließend werden diese Vorhersagen aggregiert, um eine besser kalibrierte Zuverlässigkeit zu erreichen. Da diese Modelle jedoch Milliarden von Parametern haben, summieren sich die Rechenkosten solcher Ansätze schnell.

„In gewisser Weise sind große Sprachmodelle universell, da sie verschiedene Aufgaben bewältigen können. Wir brauchen additionally eine universelle Kalibrierungsmethode, die auch viele verschiedene Aufgaben bewältigen kann“, sagt Shen.

Mit Thermometer entwickelten die Forscher eine vielseitige Technik, die eine klassische Kalibrierungsmethode namens Temperaturskalierung nutzt, um ein LLM effizient für eine neue Aufgabe zu kalibrieren.

In diesem Zusammenhang ist eine „Temperatur“ ein Skalierungsparameter, der verwendet wird, um die Zuverlässigkeit eines Modells an seine Vorhersagegenauigkeit anzupassen. Traditionell bestimmt man die richtige Temperatur mithilfe eines gekennzeichneten Validierungsdatensatzes mit aufgabenspezifischen Beispielen.

Da LLMs häufig für neue Aufgaben eingesetzt werden, kann es quick unmöglich sein, beschriftete Datensätze zu erhalten. Ein Benutzer, der beispielsweise ein LLM einsetzen möchte, um Kundenfragen zu einem neuen Produkt zu beantworten, verfügt wahrscheinlich nicht über einen Datensatz mit solchen Fragen und Antworten.

Anstatt einen beschrifteten Datensatz zu verwenden, trainieren die Forscher ein Hilfsmodell, das auf einem LLM läuft, um automatisch die Temperatur vorherzusagen, die zur Kalibrierung für diese neue Aufgabe erforderlich ist.

Sie verwenden gekennzeichnete Datensätze einiger repräsentativer Aufgaben, um das Thermometer-Modell zu trainieren. Nach dem Coaching kann es jedoch auf neue Aufgaben in einer ähnlichen Kategorie verallgemeinert werden, ohne dass zusätzliche gekennzeichnete Daten erforderlich sind.

Ein Thermometer-Modell, das anhand einer Sammlung von A number of-Selection-Fragen-Datensätzen trainiert wurde (darunter möglicherweise einer mit Algebra-Fragen und einer mit medizinischen Fragen), könnte zum Kalibrieren eines LLM verwendet werden, das beispielsweise Fragen zu Geometrie oder Biologie beantwortet.

„Das ehrgeizige Ziel ist, dass es für jede Aufgabe funktioniert, aber so weit sind wir noch nicht“, sagt Ghosh.

Das Thermometermodell muss nur auf einen kleinen Teil der inneren Funktionsweise des LLM zugreifen, um die richtige Temperatur vorherzusagen, mit der seine Vorhersage für Datenpunkte einer bestimmten Aufgabe kalibriert wird.

Ein effizienter Ansatz

Wichtig ist, dass die Technik keine mehreren Trainingsläufe erfordert und das LLM nur geringfügig verlangsamt. Und da die Temperaturskalierung die Vorhersagen eines Modells nicht verändert, behält Thermometer seine Genauigkeit.

Als sie Thermometer bei mehreren Aufgaben mit mehreren Baselines verglichen, lieferte es durchweg besser kalibrierte Unsicherheitsmaße und erforderte dabei wesentlich weniger Rechenleistung.

„Solange wir ein Thermometer-Modell anhand einer ausreichend großen Anzahl von Aufgaben trainieren, sollte es in der Lage sein, jede neue Aufgabe intestine zu verallgemeinern. Genau wie ein großes Sprachmodell ist es auch ein universelles Modell“, fügt Shen hinzu.

Die Forscher fanden außerdem heraus, dass, wenn sie ein Thermometermodell für ein kleineres LLM trainieren, dieses direkt zur Kalibrierung eines größeren LLM innerhalb derselben Familie angewendet werden kann.

In Zukunft möchten sie Thermometer für komplexere Textgenerierungsaufgaben anpassen und die Technik auf noch größere LLMs anwenden. Die Forscher hoffen auch, die Vielfalt und Anzahl der beschrifteten Datensätze quantifizieren zu können, die man braucht, um ein Thermometer-Modell zu trainieren, damit es auf eine neue Aufgabe verallgemeinert werden kann.

Diese Forschung wurde zum Teil vom MIT-IBM Watson AI Lab finanziert.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert