

Bild von Editor | Chatgpt
# Einführung
Halluzinationen-der Fluch des Sprachmodells (LM) und seiner Benutzer-sind die plausiblen, aber sachlich falschen Aussagen, die von LMS erstellt wurden. Diese Halluzinationen sind problematisch, weil sie das Vertrauen der Benutzer untergraben, Fehlinformationen verbreiten und nachgeschaltete Entscheidungen irreführend sind, selbst wenn die Ausgabe mit hohem Vertrauen ausgedrückt wird. Diese Halluzinationen sind besonders problematisch in Szenarien, in denen Benutzer Ansprüche (technische Antworten, medizinische oder rechtliche Zusammenfassungen, Datenanalyse) nicht leicht überprüfen können, da die Unsicherheit der falschen Informationsmasken zugrunde liegt und kleine Modellierungsfehler in mögliche Fehler mit hoher Einsätze verwandeln.
Eine aktuelle Zeitung „,“Warum Sprachmodelle halluzinieren„Von Kalai, Nachum, Vempala und Zhang, hat die Aufgabe übernommen, sowohl die statistischen Wurzeln dieser Fehler als auch die sozio-technischen Anreize zu analysieren, die sie am Leben erhalten. Die Autoren verbinden generative Fehler mit einfacher Klassifizierungsdynamik und untersuchen, wie das heutige Coaching und Bewertung praktizieren. Veränderungen können sie in der Praxis verringern.
Das Papier bietet mehrere hochrangige und aufschlussreiche Enthüllungen in Bezug auf die Ursachen und Beharrlichkeit von LM-Halluzinationen, und wir werden uns fünf davon ansehen.
# 1. Die Grundursache für Halluzinationen
Tl; dr: Halluzinationen werden hauptsächlich durch Schulungs- und Bewertungsverfahren verursacht, die das Erraten von Unsicherheiten belohnen.
Das Kernargument des Papiers ist, dass Halluzinationen, die als believable und dennoch falsche Aussagen definiert sind, bestehen bleiben, da die für das Coaching und Bewertungen verwendeten Verfahren selbstbewusst selbstbewusstes Erraten und nicht die Anerkennung der Unsicherheit belohnen. LMs sind so optimiert, dass sie als „gute Testteilnehmer“ fungieren, was bedeutet, dass sie sich nicht sicher erraten, wenn sie sich nicht sicher sind, ihre Punktzahl unter Bewertungsschemata zu maximieren, die unsichere Antworten bestrafen (z. B. „Ich weiß nicht“ oder IDK). Nach einem gemeinsamen binären 0: 1-Bewertungsschema maximiert er, wann unsicher die erwartete Punktzahl maximiert.


Vorgeschlagene Aufforderung, „selbstbewusstes Erraten“ zu mildern und „die Anerkennung der Unsicherheit“ zu fördern und zu fördern „
Bild von Autor | Zwillinge
# 2. Die Ursprünge der Halluzinationen
Tl; dr: Der statistische Ursprung der Halluzinationen ist auf einfache Fehler in der binären Klassifizierung reduzierbar.
Das Papier entmystifiziert Halluzinationen, indem sie argumentiert, dass sie nicht mysteriös sind, sondern einfach als Fehler in der binären Klassifizierung entstehen. Die Analyse verbindet generative Fehler (wie Halluzinationen) mit einem überwachten Lernproblem, das als „is-it-valid (iIV)“ -Klassifizierung bezeichnet wird. Das statistische Ziel minimiert während des Vorabbaues (Querentropieverlust) führt natürlich zu generativen Fehlern, wenn das System falsche Aussagen statistisch nicht statistisch von Fakten unterscheiden kann. Diese Analyse zeigt eine mathematische Beziehung: Die generative Fehlerrate ist ungefähr proportional zu der doppelten IIV -Fehlklassifizierungsrate.


Die Fehlklassifizierung von Aussagen als „gültig“ führt zu Halluzinationen
Bild von Autor | Zwillinge
# 3. Halluzinationen sind unvermeidlich
Tl; dr: Kalibrierte Basismodelle sind mathematisch gezwungen, selbst mit fehlerfreien Trainingsdaten zu halluzinieren.
Das Papier zeigt, dass selbst wenn das Trainingskorpus perfekt und fehlerfrei wäre, der Prozess der Minimierung des statistischen Ziels während der Vorbereitung immer noch das Sprachmodell dazu führen würde, Fehler zu erzeugen. Dies ist mit dem Konzept der Kalibrierung verbunden. Da Fehler eine natürliche Folge des Customary-Cross-Entropy-Ziels sind, muss jedes intestine ausgebildete Basismodell, das kalibriert wird (dh seine vorhergesagten Wahrscheinlichkeiten, mit der Realität übereinstimmt), unweigerlich Fehler erzeugen, insbesondere wenn sie mit inhärent unlernbarer Tatsachen konfrontiert sind. Umgekehrt muss ein Basismodell, das Fehler vermeidet, notwendigerweise gesäumt werden (dh seine Unsicherheitsschätzungen müssen falsch sein).
# 4. Halluzinationen sind hartnäckig
Tl; dr: Die Persistenz von Halluzinationen wird durch eine „Epidemie“ falsch ausgerichteter primärer Bewertungen angetrieben.
Trotz der nach dem Trainingstechniken, die häufig darauf abzielten, Falschheiten zu verringern, bleiben die Halluzinationen bestehen, da die überwiegende Mehrheit der vorhandenen, einflussreichen Benchmarks und Bestenlisten überwiegend binäre Sortiersysteme (wie Genauigkeit oder Cross-Fee) verwendet, die die Entfernung und Unsicherheit bestrafen. Dies schafft ein „sozio-technisches“ Downside. Wenn Modell A die Unsicherheit korrekt signalisiert, aber Modell B immer erraten, wenn sie nicht sicher sind, übertrifft Modell B das Modell A unter 0: 1-Bewertungsschemata und verstärkt das Halluzinations-ähnliche Verhalten des Erraten. Diese Dominanz von falsch ausgerichteten Bewertungen ist das Wurzelproblem, das nicht einfach durch Hinzufügen eines kleinen Bruchteils neuer halluzinationsspezifischer Bewertungen gelöst werden kann.
# 5. Die Rolle der Willküren
Tl; dr: Die statistische Unsicherheit, die sich aus willkürlichen Tatsachen (niedrige Datenfrequenz) ergibt, ist ein wichtiger Treiber für Vorabstörungen.
Ein wesentlicher statistischer Faktor, der zu Fehlern voraberbringt, ist die Existenz willkürlicher Tatsachen, die als spezifische, zufällige Tatsachen definiert werden, bei denen kein kurzes Muster die Zielfunktion erklärt, was zu epistemischer Unsicherheit führt, da das notwendige Wissen in den Trainingsdaten fehlt oder selten ist. Beispiele sind individuelle Geburtstage. Die Analyse zeigt, dass für willkürliche Tatsachen die erwartete Halluzinationsrate durch die Singleton-Fee oder der Anteil der Fakten, die genau einmal in den Trainingsdaten erscheinen, eine geringere Verbreitung ist. Wenn beispielsweise 20% der Geburtstagsfakten nur einmal erscheinen, wird erwartet, dass Modelle mindestens 20% dieser Fakten halluzinieren. Andere generative Fehlerfaktoren umfassen schlechte Modelle (bei denen die Modellfamilie das Konzept nicht intestine darstellen kann, wie das Beispiel für die Buchstabensbekämpfung) und Gigo (Müll in, Müll aus, wo Modelle Fehler aus Trainingsdaten replizieren).
# Key Takeaways
Ein paar Themen binden das Papier zusammen.
Erstens sind Halluzinationen keine mystischen Fehler. Stattdessen entstehen sie aus gewöhnlichen Fehlklassifizierungen der Gültigkeit, die gleiche Artwork von Binärfehlern, die ein Klassifizierer macht, wenn er nicht zuverlässig von False zutreffen kann.
Zweitens belohnt unsere dominante Bewertungskultur implizit selbstbewusstes Erraten, indem sie Ausdrücke von Unsicherheit bestrafen. Modelle, die niemals „Ich weiß nicht“, sehen auf Bestenlisten besser aus, selbst wenn sie sich irren.
Drittens kommt der langlebige Fortschritt nicht von Schraubenflecken. Es erfordert eine Änderung der Benchmark -Bewertung in Wert auf kalibrierte Unsicherheit und Entfernung sowie die Ausrichtung des Trainings und des Einsatzes auf diese Anreize.
Etwas zu überlegen: Wie würde Ihr Informationskonsum aussehen, wenn Sie Menschen und Maschinen belohnt hätten, um zu wissen, wann Sie nicht antworten sollen?
Matthew Mayo (@Mattmayo13) hat einen Grasp -Abschluss in Informatik und ein Diplom in Information Mining. Als Geschäftsführer von Kdnuggets & Statologieund beitragen Redakteur bei Meisterschaft für maschinelles LernenMatthew zielt darauf ab, komplexe Datenwissenschaftskonzepte zugänglich zu machen. Zu seinen beruflichen Interessen zählen natürliche Sprachverarbeitung, Sprachmodelle, Algorithmen für maschinelles Lernen und die Erforschung der aufstrebenden KI. Er ist von der Mission getrieben, das Wissen in der Datenwissenschaftsgemeinschaft zu demokratisieren. Matthew kodiert seit seinem 6 -jährigen Lebensjahr.
