Trotz ihrer beeindruckenden Fähigkeiten sind große Sprachmodelle alles andere als perfekt. Diese Modelle der künstlichen Intelligenz „halluzinieren“ manchmal, indem sie als Reaktion auf eine Anfrage falsche oder nicht unterstützte Informationen generieren.
Aufgrund dieses Halluzinationsproblems werden die Antworten eines LLM häufig von menschlichen Faktenprüfern überprüft, insbesondere wenn ein Modell in einem Umfeld mit hohem Risiko wie dem Gesundheitswesen oder dem Finanzwesen eingesetzt wird. Bei Validierungsprozessen müssen Benutzer jedoch in der Regel lange, vom Modell zitierte Dokumente durchlesen. Diese Aufgabe ist so mühsam und fehleranfällig, dass sie einige Benutzer möglicherweise von der Bereitstellung abhält generative KI-Modelle an erster Stelle.
Um menschliche Validatoren zu unterstützen, haben MIT-Forscher ein benutzerfreundliches System entwickelt, das es Menschen ermöglicht, die Antworten eines LLM viel schneller zu überprüfen. Mit diesem Instrument, genannt SymGenein LLM generiert Antworten mit Zitaten, die direkt auf die Stelle in einem Quelldokument verweisen, beispielsweise eine bestimmte Zelle in einer Datenbank.
Benutzer bewegen den Mauszeiger über hervorgehobene Teile der Textantwort, um Daten anzuzeigen, die das Modell zum Generieren dieses bestimmten Wortes oder Satzes verwendet hat. Gleichzeitig zeigen die nicht hervorgehobenen Teile den Benutzern, welche Phrasen besondere Aufmerksamkeit zur Überprüfung und Verifizierung erfordern.
„Wir geben den Leuten die Möglichkeit, sich gezielt auf Teile des Textes zu konzentrieren, über die sie sich mehr Sorgen machen müssen. „Am Ende kann SymGen den Menschen ein größeres Vertrauen in die Antworten eines Modells geben, weil sie einfacher einen genaueren Blick darauf werfen können, um sicherzustellen, dass die Informationen verifiziert sind“, sagt Shannon Shen, Doktorandin der Elektrotechnik und Informatik und Co-Hauptautorin von a Artikel über SymGen.
Durch eine Benutzerstudie stellten Shen und seine Mitarbeiter fest, dass SymGen die Überprüfungszeit im Vergleich zu manuellen Verfahren um etwa 20 Prozent verkürzte. Indem SymGen die Validierung von Modellergebnissen für Menschen schneller und einfacher macht, könnte es Menschen dabei helfen, Fehler in LLMs zu erkennen, die in einer Vielzahl realer Situationen eingesetzt werden, von der Erstellung klinischer Notizen bis hin zur Zusammenfassung von Finanzmarktberichten.
Shen wird bei dem Artikel von Lucas Torroba Hennigen, dem Co-Hauptautor und Kommilitonen des EECS-Doktoranden, unterstützt. EECS-Doktorandin Aniruddha „Ani“ Nrusimha; Bernhard Gapp, Präsident der Good Information Initiative; und die leitenden Autoren David Sontag, Professor für EECS, Mitglied der MIT Jameel Clinic und Leiter der Scientific Machine Studying Group des Pc Science and Synthetic Intelligence Laboratory (CSAIL); und Yoon Kim, Assistenzprofessorin für EECS und Mitglied von CSAIL. Die Forschung wurde kürzlich auf der Convention on Language Modeling vorgestellt.
Symbolische Referenzen
Um die Validierung zu unterstützen, sind viele LLMs so konzipiert, dass sie Zitate generieren, die auf externe Dokumente verweisen, zusammen mit ihren sprachbasierten Antworten, damit Benutzer sie überprüfen können. Allerdings werden diese Verifizierungssysteme meist nachträglich entwickelt, ohne den Aufwand zu berücksichtigen, der für die Durchsicht zahlreicher Zitate erforderlich ist, sagt Shen.
„Generative KI soll die Zeit des Benutzers für die Erledigung einer Aufgabe verkürzen. Wenn Sie Stunden damit verbringen müssen, all diese Dokumente durchzulesen, um zu überprüfen, ob das Modell etwas Vernünftiges aussagt, ist es weniger hilfreich, die Generationen in der Praxis zu haben“, sagt Shen.
Die Forscher näherten sich dem Validierungsproblem aus der Perspektive der Menschen, die die Arbeit erledigen werden.
Ein SymGen-Benutzer stellt dem LLM zunächst Daten zur Verfügung, auf die es in seiner Antwort verweisen kann, beispielsweise eine Tabelle mit Statistiken zu einem Basketballspiel. Dann fordern die Forscher das Modell nicht sofort auf, eine Aufgabe zu erledigen, etwa eine Spielzusammenfassung aus diesen Daten zu erstellen, sondern führen einen Zwischenschritt durch. Sie veranlassen das Modell, seine Antwort in symbolischer Type zu generieren.
Bei dieser Eingabeaufforderung muss das Modell jedes Mal, wenn es Wörter in seiner Antwort zitieren möchte, die spezifische Zelle aus der Datentabelle schreiben, die die Informationen enthält, auf die es verweist. Wenn das Modell beispielsweise in seiner Antwort den Ausdruck „Portland Trailblazers“ zitieren möchte, würde es diesen Textual content durch den Zellennamen in der Datentabelle ersetzen, der diese Wörter enthält.
„Da wir diesen Zwischenschritt haben, der den Textual content in einem symbolischen Format hat, sind wir in der Lage, wirklich feinkörnige Referenzen zu erhalten. Wir können sagen, dass für jeden einzelnen Textabschnitt in der Ausgabe genau die Stelle in den Daten vorhanden ist, der er entspricht“, sagt Torroba Hennigen.
Anschließend löst SymGen jede Referenz mithilfe eines regelbasierten Instruments auf, das den entsprechenden Textual content aus der Datentabelle in die Antwort des Modells kopiert.
„Auf diese Weise wissen wir, dass es sich um eine wörtliche Kopie handelt, sodass wir wissen, dass der Teil des Textes, der der tatsächlichen Datenvariablen entspricht, keine Fehler enthält“, fügt Shen hinzu.
Optimierte Validierung
Aufgrund der Artwork und Weise, wie das Modell trainiert wird, kann es symbolische Reaktionen erzeugen. Große Sprachmodelle werden mit Unmengen von Daten aus dem Web gefüttert, und einige Daten werden im „Platzhalterformat“ aufgezeichnet, in dem Codes die tatsächlichen Werte ersetzen.
Wenn SymGen das Modell auffordert, eine symbolische Antwort zu generieren, verwendet es eine ähnliche Struktur.
„Wir gestalten die Eingabeaufforderung auf eine bestimmte Artwork und Weise, um die Fähigkeiten des LLM zu nutzen“, fügt Shen hinzu.
Während einer Benutzerstudie gab die Mehrheit der Teilnehmer an, dass SymGen die Überprüfung von LLM-generiertem Textual content erleichtert. Sie konnten die Antworten des Modells etwa 20 Prozent schneller validieren, als wenn sie Standardmethoden verwenden würden.
Allerdings ist SymGen durch die Qualität der Quelldaten begrenzt. Das LLM könnte eine falsche Variable zitieren und ein menschlicher Prüfer könnte nichts davon wissen.
Darüber hinaus muss der Benutzer über Quelldaten in einem strukturierten Format wie einer Tabelle verfügen, um sie in SymGen einspeisen zu können. Derzeit funktioniert das System nur mit tabellarischen Daten.
In Zukunft verbessern die Forscher SymGen, sodass es beliebige Texte und andere Datenformen verarbeiten kann. Mit dieser Funktion könnte es beispielsweise dabei helfen, Teile von KI-generierten Zusammenfassungen von Rechtsdokumenten zu validieren. Sie planen außerdem, SymGen mit Ärzten zu testen, um zu untersuchen, wie es Fehler in KI-generierten klinischen Zusammenfassungen erkennen kann.
Diese Arbeit wird teilweise von Liberty Mutual und der MIT Quest for Intelligence Initiative finanziert.