Vertrauen ist überzeugend. In Systemen der künstlichen Intelligenz ist es oft irreführend.

Die leistungsstärksten Argumentationsmodelle von heute haben eine Eigenschaft mit der lautesten Stimme im Raum gemeinsam: Sie liefern jede Antwort mit der gleichen unerschütterlichen Sicherheit, egal, ob sie richtig liegt oder nur vermutet. Forscher am Laptop Science and Synthetic Intelligence Laboratory (CSAIL) des MIT haben diese Selbstüberschätzung nun auf einen bestimmten Fehler in der Artwork und Weise, wie diese Modelle trainiert werden, zurückgeführt und eine Methode entwickelt, die das Downside behebt, ohne dabei an Genauigkeit einzubüßen.

Die RLCR (Reinforcement Studying with Calibration Rewards) genannte Technik trainiert Sprachmodelle, um neben ihren Antworten kalibrierte Konfidenzschätzungen zu erstellen. Das Modell ermittelt nicht nur eine Antwort, sondern berücksichtigt auch die Unsicherheit dieser Antwort und gibt einen Konfidenzwert aus. In Experimenten mit mehreren Benchmarks reduzierte RLCR den Kalibrierungsfehler um bis zu 90 Prozent und bewahrte oder verbesserte gleichzeitig die Genauigkeit, sowohl bei den Aufgaben, für die das Modell trainiert wurde, als auch bei völlig neuen Aufgaben, die es noch nie gesehen hatte. Die Arbeit wird später in diesem Monat auf der Worldwide Convention on Studying Representations vorgestellt.

Das Downside hat eine überraschend einfache Ursache. Die Reinforcement Studying (RL)-Methoden hinter den jüngsten Durchbrüchen im KI-Denken, einschließlich des Trainingsansatzes, der in Systemen wie o1 von OpenAI verwendet wird, belohnen Modelle für die richtige Antwort und bestrafen sie für eine falsche Antwort. Nichts dazwischen. Ein Modell, das durch sorgfältiges Nachdenken zur richtigen Antwort kommt, erhält die gleiche Belohnung wie eines, das durch Zufall richtig rät. Im Laufe der Zeit werden Modelle dadurch trainiert, jede Frage, die ihnen gestellt wird, souverän zu beantworten, unabhängig davon, ob sie starke Beweise haben oder tatsächlich eine Münze werfen.

Diese Selbstüberschätzung hat Konsequenzen. Wenn Modelle in der Medizin, im Recht, im Finanzwesen oder in anderen Bereichen eingesetzt werden, in denen Benutzer Entscheidungen auf der Grundlage von KI-Ergebnissen treffen, wird ein System, das unabhängig von seiner tatsächlichen Sicherheit ein hohes Vertrauen ausdrückt, auf eine Weise unzuverlässig, die von außen schwer zu erkennen ist. Ein Modell, das sagt „Ich bin zu 95 Prozent sicher“, obwohl es nur in der Hälfte der Fälle richtig ist, ist gefährlicher als eines, das einfach eine falsche Antwort gibt, weil Benutzer kein Sign haben, eine zweite Meinung einzuholen.

„Der Commonplace-Trainingsansatz ist einfach und wirkungsvoll, aber er gibt dem Modell keinen Anreiz, Unsicherheit auszudrücken oder zu sagen, ich weiß es nicht“, sagt Mehul Damani, MIT-Doktorand und Co-Hauptautor des Buches Papier. „Das Modell lernt additionally auf natürliche Weise zu raten, wenn es unsicher ist.“

RLCR behebt dieses Downside, indem es der Belohnungsfunktion einen einzelnen Begriff hinzufügt: einen Brier-Rating, ein etabliertes Maß, das die Lücke zwischen der angegebenen Konfidenz eines Modells und seiner tatsächlichen Genauigkeit bestraft. Während des Trainings lernen Modelle, sowohl über das Downside als auch über ihre eigene Unsicherheit nachzudenken und gemeinsam eine Antwort und eine Vertrauensschätzung zu erstellen. Selbstbewusst falsche Antworten werden bestraft. Dies gilt auch für unnötig unsichere korrekte Angaben.

Die Mathematik bestätigt es: Das Crew hat formal bewiesen, dass diese Artwork der Belohnungsstruktur sowohl genaue als auch intestine kalibrierte Modelle garantiert. Anschließend testeten sie den Ansatz an einem 7-Milliarden-Parameter-Modell anhand einer Reihe von Frage-Antwort- und Mathematik-Benchmarks, darunter sechs Datensätze, an denen das Modell noch nie trainiert worden conflict.

Die Ergebnisse zeigten ein einheitliches Muster. Beim Commonplace-RL-Coaching wurde die Kalibrierung im Vergleich zum Basismodell aktiv verschlechtert, sodass die Modelle ihre eigene Unsicherheit schlechter einschätzen konnten. RLCR kehrte diesen Effekt um und verbesserte die Kalibrierung erheblich, ohne dass die Genauigkeit verloren ging. Die Methode übertraf auch Publish-hoc-Ansätze, bei denen ein separater Klassifikator darauf trainiert wird, im Nachhinein Konfidenzwerte zuzuweisen. „Was auffällt, ist, dass normales RL-Coaching die Kalibrierung nicht einfach nur nicht unterstützt, sondern sie sogar beeinträchtigt“, sagt Isha Puri, Doktorandin am MIT und Co-Hauptautorin. „Die Fashions werden gleichzeitig leistungsfähiger und selbstbewusster.“

Das Crew zeigte außerdem, dass die von RLCR erstellten Konfidenzschätzungen zum Zeitpunkt der Inferenz praktisch nützlich sind. Wenn Modelle mehrere Kandidatenantworten generieren, verbessert die Auswahl der Antwort mit der höchsten selbstberichteten Konfidenz oder die Gewichtung der Stimmen nach Konfidenz in einem Mehrheitsabstimmungsschema sowohl die Genauigkeit als auch die Kalibrierung bei der Berechnung.

Ein weiterer Befund legt nahe, dass der Akt des Nachdenkens über die Unsicherheit selbst einen Wert hat. Die Forscher trainierten Klassifikatoren anhand von Modellausgaben und stellten fest, dass die Einbeziehung der expliziten Unsicherheitsbegründung des Modells in die Eingabe die Leistung des Klassifikators insbesondere bei kleineren Modellen verbesserte. Die selbstreflexive Argumentation des Modells darüber, was es tut und was nicht, enthält echte Informationen, nicht nur Dekoration.

Neben Damani und Puri sind Stewart Slocum, Idan Shenfeld, Leshem Choshen und die leitenden Autoren Jacob Andreas und Yoon Kim weitere Autoren des Artikels.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert