Die KI-Modell-Vertrauensfalle

Ich battle an einem Samstag etwas skurril und beschloss, ChatGPT eine ziemlich einfache Frage zu stellen: „Wer hat 2025 den Nobelpreis für Physik gewonnen?”

ChatGPT antwortete sofort: „Der Nobelpreis für Physik 2025 wurde verliehen an…„Es enthielt sogar Namen, Forschungsgebiete und eine Erklärung der spezifischen Forschung, die ihnen den Nobelpreis einbrachte!

Es gab nur ein Downside – eigentlich ein sehr kleines. Der Nobelpreis hatte noch nicht angekündigt worden. Dennoch zögerte das Modell nicht; es machte keine Pause; es hieß sicherlich nicht: „Ich habe nicht genügend Informationen“ oder noch besser: „Der Nobelpreisträger für 2025 steht noch nicht fest!”

Stattdessen betrat es selbstbewusst den Raum, setzte sich und lieferte Romane mit der Energie eines Menschen, der eine Doktorarbeit verteidigt. Als jemand, der einmal einen Doktortitel verteidigt hat, wünschte ich, ich hätte das Vertrauen von ChatGPT, wenn es um Dinge geht!

Als Menschen neigen wir dazu, etwas Interessantes selbstbewusst zu tun; wir assoziieren es mit Korrektheit, aber das ist nicht immer der Fall. Wenn jemand sagt: „Ich denken die Antwort könnte 42 sein“ und eine andere Individual sagt: „Die Antwort ist absolut 42“ vertrauen die meisten von uns instinktiv der zweiten Individual mehr, selbst wenn beide mit gleicher Wahrscheinlichkeit falsch liegen. Für uns fungiert Vertrauen manchmal als nützliches Sign der Richtigkeit. Für KI-Systeme kann Vertrauen jedoch ein überraschend unzuverlässiger Erzähler sein.

In diesem Artikel werden wir untersuchen, warum.

Vertrauen fühlt sich wie Wahrscheinlichkeit an

Nehmen wir an, wir haben einen LLM gebeten, vorherzusagen, um welches Tier es sich auf einem bestimmten Bild handelt. Es heißt:

Cat: 0.97
Canine: 0.02
Hen: 0.01

Die meisten werden das so interpretieren: „Das Mannequin ist sich zu 97 % sicher, dass es sich um eine Katze handelt.“

Das ist eine vernünftige Annahme. Leider ist das oft nicht das, was diese Zahlen bedeuten. Wir müssen bedenken, dass viele KI-Modelle eine Funktion namens Softmax verwenden, um Vorhersagen zu generieren.

Die Softmax-Funktion wandelt Rohausgaben (sogenannte Logits) in Werte um, die in der Summe eins ergeben und Wahrscheinlichkeiten ähneln. Wichtig hierbei ist der Exponentialterm, der dazu führen kann, dass kleine Unterschiede plötzlich sehr groß werden.

Im Grunde sagt das Modell additionally nicht: „Ich habe überwältigende Beweise dafür, dass es sich um eine Katze handelt.“ Vielleicht heißt es einfach: „Bei diesen Optionen hat cat zufällig mit einem kleinen Vorsprung gewonnen.“ Das sind sehr unterschiedliche Aussagen mit völlig unterschiedlicher Bedeutung.

Menschen und KI gehen unterschiedlich mit Unsicherheit um

Auch wenn es unangenehm sein magazine, dabei zu sitzen, sind Menschen überraschend intestine darin, Unsicherheit auszudrücken und damit umzugehen.

Ständig hören wir: „Ich könnte mich irren …“, „Ich bin mir ziemlich sicher…“„Vielleicht…„, oder „Ich finde…„Unser Selbstvertrauen existiert tendenziell in einem Spektrum. KI-Systeme verhalten sich jedoch oft wie die eine Individual in einem Gruppenprojekt, die selbstbewusst etwas erklärt, was sie vor drei Minuten gelernt hat (ich bin sicher, wir hatten alle diesen Klassenkameraden …).

Wenn Sie additionally mit einem LLM chatten, erhalten Sie die gleiche Energie, wenn Sie ihm sagen: „Ich denke, Paris ist die Hauptstadt Frankreichs“, und er antwortet: „Paris ist mit einer Wahrscheinlichkeit von 99,8 % die Hauptstadt Frankreichs“, als würden Sie ihm sagen: „Ich denke, Atlantis ist fiktiv“ und er antwortet: „Atlantis liegt etwa 400 Meilen westlich von Portugal mit einer Wahrscheinlichkeit von 98,7 %.“

Obwohl die beiden Fälle sehr unterschiedliche Ergebnisse haben, werden sie vom LLM gleich behandelt.

Das Downside des selbstbewussten Narren

Dadurch entsteht das, was ich als das Downside des selbstbewussten Narren bezeichne. Wo ein System spektakulär falsch sein und gleichzeitig spektakulär sicher klingen kann. Und leider steigt das Selbstvertrauen oft genau dann, wenn wir mehr Vorsicht bevorzugen würden.

Dies macht sich insbesondere dann bemerkbar, wenn LLMs auf Situationen außerhalb ihrer Ausbildungsverteilung stoßen.

Angenommen, wir trainieren einen Bildklassifizierer, um Katzen und Hunde zu identifizieren. Aber dann haben wir beschlossen, ihm ein Bild von einem Toaster zu geben! Im Idealfall sollte das Mannequin sagen: „Ich habe absolut keine Ahnung, was das ist.“ Wie würden die meisten Menschen reagieren, wenn ihnen etwas gezeigt würde, was sie noch nie zuvor gesehen haben? Anstatt das zu sagen, könnte das Modell antworten:

Canine: 98%
Cat: 2%

Sofern Ihr Toaster nicht die Kind eines Pudels hat, ist diese Antwort eindeutig falsch!

Warum passiert das? Die Antwort ist einfacher als die meisten Leute denken. Es passiert einfach, weil dem Modell nie beigebracht wurde, zu sagen: „Nichts des oben Genannten.“ Wenn es additionally auf etwas Unbekanntes stößt, wählt es die höchste verfügbare Punktzahl aus den Optionen.

Es ist, als würde man jemanden zwingen, zu antworten: „Welche Frucht ist das?“, während sie auf ein Fahrrad zeigen. Schließlich wählen sie eine Frucht aus, nur um die Scenario zu lösen, und sagen: „Banane?”

Lassen Sie uns ein Modell simulieren, das zu selbstsicher ist.

Wenn das Modell „90 % Konfidenz“ meldet, würden wir hoffen, dass es in etwa 90 % der Fälle korrekt ist. Stattdessen sehen viele Systeme eher nach „90 % Vertrauen, 65 % Genauigkeit“ aus. Diese Lücke zwischen Vertrauen und Genauigkeit ist der Grund, warum die Artwork und Weise, wie wir diese LLMs trainieren, so wichtig ist.

Modellen beibringen, ehrlicher zu sein

Okay, wir wissen, warum Modelle dazu neigen, so sicher falsch zu liegen, aber wie können wir das überwinden, um bessere Modelle mit höherer Genauigkeit oder einer Genauigkeit zu haben, die ihrem Vertrauen entspricht? Hier kommt die Kalibrierung ins Spiel.

Die Kalibrierung verbessert nicht unbedingt die Vorhersagen. Stattdessen verbessert es die Ehrlichkeit! Wenn additionally ein Modell nach der Kalibrierung 90 % angibt, sollte dies bedeuten: „Historisch gesehen waren Vorhersagen mit diesem Konfidenzniveau in etwa 90 % der Fälle korrekt.“

Methoden wie:

Platt-Skalierung
Temperaturskalierung
Isotonische Regression

Versuchen Sie, das vorhergesagte Vertrauen mit den beobachteten Ergebnissen in Einklang zu bringen.

Mal sehen, wie das aussieht:

Warum das wichtig ist

Es ist leicht zu lachen, wenn eine KI denkt, ein Toaster sei ein Hund. Denn das ist wohl sehr lustig. Es gibt jedoch viele weniger lustige Situationen. Nicht nur weniger lustig, sondern auch kritisch und vielleicht sogar lebensgefährlich. Der Einsatz von LLMs in medizinischen Diagnosesystemen, autonomen Fahrzeugen, Betrugserkennung und Finanzprognosen erfordert eine hohe Genauigkeit.

Wenn ein Mannequin einem Arzt sagt: „Krebswahrscheinlichkeit: 99 %“ oder „Krebswahrscheinlichkeit: 62 %„Die Reaktion des Arztes wird erheblich variieren!

Wenn die Konfidenzwerte schlecht kalibriert sind, vertrauen Menschen möglicherweise Vorhersagen, die kein Vertrauen verdienen. Und der Mensch ist hier besonders verletzlich, weil Selbstvertrauen überzeugend wirkt. Auch wenn wir es besser wissen.

Da Modelle immer mehr in reale Arbeitsabläufe integriert werden, müssen wir möglicherweise aufhören zu fragen: „Wie genau ist das Modell?“ und beginnen zu fragen: „Wenn das Modell 90 % sagt, bedeutet das dann tatsächlich 90 %?“ Denn es gibt einen Unterschied zwischen einem smarten Modell und einem vertrauenswürdigen Modell.

Auch der Mensch ist nicht perfekt im Umgang mit Unsicherheit. Wir werden ständig übermütig. Wir glauben, dass wir ein Projekt in zwei Tagen abschließen können. Wir glauben, dass wir Möbel zusammenbauen können, ohne die Anleitung zu lesen. Wir glauben, dass wir nur eine Fahrt mit dem Auto brauchen, um Lebensmittel einzukaufen. Auch wenn die Geschichte etwas anderes vermuten lässt.

Vielleicht erbt die KI einfach einige unserer schlechten Gewohnheiten? Der Unterschied besteht darin, dass normalerweise nur wenige Menschen leiden, wenn Menschen sicher falsch liegen. Wenn die KI sicher falsch liegt, kann sich der Fehler auf Millionen ausweiten, und Vertrauen in großem Maßstab ist ein ganz anderes Downside.

Letzte Gedanken

Seit Jahren messen wir den KI-Fortschritt, indem wir immer eindrucksvollere Fragen stellen:

Kann es Code schreiben? Kann daraus Kunst entstehen? Kann es Prüfungen bestehen? Kann es argumentieren?

Diese Fragen sind nützlich, können uns aber manchmal von einer wichtigeren Frage ablenken:

Können wir ihm vertrauen?

Ein Modell, das einmal die richtige Antwort liefert, ist spannend. Ein Modell, das wiederholt die richtige Antwort liefert und gleichzeitig weiß, wann sie falsch sein könnte, ist etwas ganz anderes. Zuverlässigkeit sorgt selten für auffällige Schlagzeilen.

Das Selbstvertrauen selbst ist nicht das Downside. Das Downside beginnt, wenn Vertrauen eher zu einer Leistung als zu einem sinnvollen Maß für Sicherheit wird. Da KI-Systeme weiterhin in die Bereiche Gesundheitswesen, Bildung, Finanzen, Forschung und Entscheidungsfindung vordringen, müssen wir möglicherweise aufhören, Konfidenzwerte als Wahrheitsindikatoren zu betrachten, und sie stattdessen als Schätzungen behandeln, die einer Validierung bedürfen.

Denn ein Modell, das sicher klingt, ist einfach, während ein Modell, das weiß, wann es nicht sicher sein muss, eines der schwierigsten Probleme sein kann, die wir noch lösen müssen.

Die KI-Modell-Vertrauensfalle

Vertrauen fühlt sich wie Wahrscheinlichkeit an

Menschen und KI gehen unterschiedlich mit Unsicherheit um

Das Downside des selbstbewussten Narren

Modellen beibringen, ehrlicher zu sein

Warum das wichtig ist

Letzte Gedanken

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

Genauigkeit, Voreingenommenheit und die Kontrollen, die Kreditgeber jetzt benötigen |

Liquid AI veröffentlicht LFM2.5-Encoder-230M und LFM2.5-Encoder-350M: Bidirektionale Encoder, die bei 8K-Kontext auf der CPU schnell bleiben

Die 20 wichtigsten Befehle für Entwickler

Die 5 besten KI-Instruments für die Datenanalyse, die Sie 2026 ausprobieren sollten

About

Categories

Tags

Recent Post

Genauigkeit, Voreingenommenheit und die Kontrollen, die Kreditgeber jetzt benötigen |

Liquid AI veröffentlicht LFM2.5-Encoder-230M und LFM2.5-Encoder-350M: Bidirektionale Encoder, die bei 8K-Kontext auf der CPU schnell bleiben

Die KI-Modell-Vertrauensfalle

Vertrauen fühlt sich wie Wahrscheinlichkeit an

Menschen und KI gehen unterschiedlich mit Unsicherheit um

Das Downside des selbstbewussten Narren

Modellen beibringen, ehrlicher zu sein

Warum das wichtig ist

Letzte Gedanken

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt