Große Sprachmodelle (LLMs) können glaubwürdige, aber ungenaue Antworten generieren. Daher haben Forscher Methoden zur Unsicherheitsquantifizierung entwickelt, um die Zuverlässigkeit von Vorhersagen zu überprüfen. Eine beliebte Methode besteht darin, dieselbe Eingabeaufforderung mehrmals zu senden, um zu sehen, ob das Modell dieselbe Antwort generiert.

Aber diese Methode misst das Selbstvertrauen, und selbst der beeindruckendste LLM könnte mit Sicherheit falsch liegen. Übermäßiges Vertrauen kann Benutzer hinsichtlich der Genauigkeit einer Vorhersage irreführen, was in wichtigen Bereichen wie dem Gesundheitswesen oder dem Finanzwesen verheerende Folgen haben kann.

Um diesen Mangel zu beheben, führten MIT-Forscher eine neue Methode zur Messung einer anderen Artwork von Unsicherheit ein, die sichere, aber falsche LLM-Antworten zuverlässiger identifiziert.

Ihre Methode besteht darin, die Reaktion eines Zielmodells mit den Antworten einer Gruppe ähnlicher LLMs zu vergleichen. Sie fanden heraus, dass die Messung modellübergreifender Meinungsverschiedenheiten diese Artwork von Unsicherheit genauer erfasst als herkömmliche Ansätze.

Sie kombinierten ihren Ansatz mit einem Maß für die LLM-Selbstkonsistenz, um eine Gesamtunsicherheitsmetrik zu erstellen, und bewerteten diese anhand von 10 realistischen Aufgaben, wie etwa der Beantwortung von Fragen und dem mathematischen Denken. Diese Gesamtunsicherheitsmetrik übertraf durchweg andere Maße und conflict besser in der Lage, unzuverlässige Vorhersagen zu identifizieren.

„Selbstkonsistenz wird in vielen verschiedenen Ansätzen zur Unsicherheitsquantifizierung verwendet, aber wenn Ihre Schätzung der Unsicherheit nur auf dem Ergebnis eines einzelnen Modells beruht, ist sie nicht unbedingt vertrauenswürdig. Wir gingen zurück zu den Anfängen, um die Grenzen aktueller Ansätze zu verstehen, und nutzten diese als Ausgangspunkt, um eine ergänzende Methode zu entwerfen, die die Ergebnisse empirisch verbessern kann“, sagt Kimia Hamidieh, eine Doktorandin der Elektrotechnik und Informatik (EECS) am MIT und Hauptautorin eines Papier über diese Technik.

Sie wird bei dem Artikel von Veronika Thost unterstützt, einer Wissenschaftlerin am MIT-IBM Watson AI Lab; Walter Gerych, ein ehemaliger MIT-Postdoc, der jetzt Assistenzprofessor am Worcester Polytechnic Institute ist; Mikhail Yurochkin, wissenschaftlicher Mitarbeiter am MIT-IBM Watson AI Lab; und der leitende Autor Marzyeh Ghassemi, außerordentlicher Professor für EECS und Mitglied des Instituts für Medizintechnik und des Labors für Informations- und Entscheidungssysteme.

Selbstüberschätzung verstehen

Viele gängige Methoden zur Unsicherheitsquantifizierung bestehen darin, ein Modell nach einem Konfidenzwert zu fragen oder die Konsistenz seiner Antworten auf dieselbe Eingabeaufforderung zu testen. Diese Methoden schätzen die aleatorische Unsicherheit oder wie sicher ein Modell in seiner eigenen Vorhersage ist.

Allerdings können LLMs zuversichtlich sein, wenn sie völlig falsch liegen. Untersuchungen haben gezeigt, dass epistemische Unsicherheit oder die Unsicherheit darüber, ob man das richtige Modell verwendet, eine bessere Möglichkeit sein kann, die tatsächliche Unsicherheit zu beurteilen, wenn ein Modell zu selbstsicher ist.

Die MIT-Forscher schätzen die epistemische Unsicherheit, indem sie die Meinungsverschiedenheiten in einer ähnlichen Gruppe von LLMs messen.

„Wenn ich ChatGPT mehrmals dieselbe Frage stelle und immer wieder die gleiche Antwort bekomme, bedeutet das nicht, dass die Antwort unbedingt richtig ist. Wenn ich zu Claude oder Gemini wechsle und ihnen dieselbe Frage stelle und eine andere Antwort bekomme, wird mir das ein Gefühl für die epistemische Unsicherheit geben“, erklärt Hamidieh.

Die epistemische Unsicherheit versucht zu erfassen, wie weit ein Zielmodell vom idealen Modell für diese Aufgabe abweicht. Da es jedoch unmöglich ist, ein ideales Modell zu erstellen, verwenden Forscher Ersatzwerte oder Näherungen, die häufig auf fehlerhaften Annahmen beruhen.

Um die Quantifizierung der Unsicherheit zu verbessern, benötigten die MIT-Forscher eine genauere Methode zur Schätzung der epistemischen Unsicherheit.

Ein Ensemble-Ansatz

Die von ihnen entwickelte Methode besteht darin, die Divergenz zwischen dem Zielmodell und einem kleinen Ensemble von Modellen mit ähnlicher Größe und Architektur zu messen. Sie fanden heraus, dass ein Vergleich der semantischen Ähnlichkeit oder der Übereinstimmung der Bedeutungen der Antworten eine bessere Schätzung der epistemischen Unsicherheit liefern könnte.

Um die genaueste Schätzung zu erhalten, benötigten die Forscher eine Reihe von LLMs, die unterschiedliche Antworten abdeckten, dem Zielmodell nicht zu sehr ähnelten und nach Glaubwürdigkeit gewichtet wurden.

„Wir haben herausgefunden, dass der einfachste Weg, alle diese Eigenschaften zu erfüllen, darin besteht, Modelle zu verwenden, die von verschiedenen Unternehmen trainiert wurden. Wir haben viele verschiedene, komplexere Ansätze ausprobiert, aber dieser sehr einfache Ansatz hat am Ende am besten funktioniert“, sagt Hamidieh.

Nachdem sie diese Methode zur Schätzung epistemischer Unsicherheit entwickelt hatten, kombinierten sie sie mit einem Standardansatz, der die aleatorische Unsicherheit misst. Diese Gesamtunsicherheitsmetrik (TU) spiegelt am genauesten wider, ob das Konfidenzniveau eines Modells vertrauenswürdig ist.

„Die Unsicherheit hängt von der Unsicherheit der gegebenen Eingabeaufforderung sowie davon ab, wie nahe unser Modell am optimalen Modell liegt. Deshalb wird uns die Zusammenfassung dieser beiden Unsicherheitsmetriken die beste Schätzung liefern“, sagt Hamidieh.

TU könnte Situationen, in denen ein LLM halluziniert, effektiver identifizieren, da epistemische Unsicherheit sichere falsche Ergebnisse anzeigen kann, die aleatorische Unsicherheit möglicherweise übersieht. Es könnte Forschern auch ermöglichen, die souverän korrekten Antworten eines LLM während des Trainings zu verstärken, was möglicherweise die Leistung verbessert.

Sie testeten TU mit mehreren LLMs für zehn gängige Aufgaben wie Fragenbeantwortung, Zusammenfassung, Übersetzung und mathematisches Denken. Ihre Methode identifizierte unzuverlässige Vorhersagen effektiver als jedes einzelne Maß allein.

Die Messung der Gesamtunsicherheit erforderte häufig weniger Abfragen als die Berechnung der aleatorischen Unsicherheit, wodurch die Rechenkosten gesenkt und Energie gespart werden konnten.

Ihre Experimente zeigten auch, dass die epistemische Unsicherheit am effektivsten bei Aufgaben mit einer eindeutig richtigen Antwort ist, wie z. B. der Beantwortung sachlicher Fragen, bei Aufgaben mit offenerem Ergebnis jedoch möglicherweise schlechter abschneidet.

In Zukunft könnten die Forscher ihre Technik anpassen, um die Leistung bei offenen Abfragen zu verbessern. Sie können auf dieser Arbeit auch aufbauen, indem sie andere Formen aleatorischer Unsicherheit untersuchen.

Diese Arbeit wird teilweise vom MIT-IBM Watson AI Lab finanziert.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert