Seit Jahren bin ich an vielen Gesprächen über generative KI beteiligt (und Sie wahrscheinlich auch!). Die Schwerpunkte dieser Gespräche variierten, von Gesprächen mit der breiten Öffentlichkeit über den Einsatz von KI bis hin zu Gesprächen mit eher technisch versierten Personen über die Genauigkeit von Modellen. Unabhängig davon, mit wem ich mich unterhalte, sind die Menschen oft fasziniert und neugierig, was Modelle können.
Kann ein LLM einen funktionierenden Kernel-Treiber schreiben? Es kann. Kann es ein Lied darüber schreiben, wie sehr Sie Ihre Katze lieben? ICHDas kann ich sicher nicht. Kann ein Diffusionsmodell ein fotorealistisches Bild eines mittelalterlichen Astronauten erzeugen? Es kann.
Aber, tut es „dürfen“ Heißt das, es wird intestine? Stellt sich heraus, was ist „möglich“ Bei den meisten Modellen kann die Messlatte überraschend niedrig sein.
Als jemand, der sich mit Wahrscheinlichkeitsrechnung oder Statistik beschäftigt hat, wissen Sie wahrscheinlich, dass in einem ausreichend großen Stichprobenraum quick alles möglich ist. Die Herausforderung besteht nicht darin, festzustellen, ob ein Ergebnis erzielt werden kann; Es geht darum zu verstehen, wie wahrscheinlich dieses Ergebnis ist und ob wir uns wiederholt darauf verlassen können.
Genau das ist etwas, was viele an der Wahrscheinlichkeitstheorie verwirren: ob sie mit generativer KI zusammenhängt. Diese Unterscheidung ist wichtig, da sich der Aufbau eines Produktions-KI-Methods stark vom Aufbau einer Demo unterscheidet. Demos leben von interessanten Randfällen. Produktionssysteme sind auf Konsistenz angewiesen.
Da KI-Systeme zu einem immer größeren und wichtigeren Bestandteil von Arbeitsabläufen und Entscheidungen werden, lohnt es sich, grundlegende Ideen der Wahrscheinlichkeitstheorie noch einmal zu überdenken und zu untersuchen, wo gängige Annahmen über die Zuverlässigkeit von KI zu versagen beginnen.
1. Dimensionalität und der Raum der Möglichkeiten
Fairerweise muss man sagen, dass es viel einfacher ist, über zuverlässige Systeme zu sprechen, als sie zu bauen. Um zu verstehen, warum Zuverlässigkeit nach wie vor sehr schwierig ist, ist es hilfreich, einen Schritt zurückzutreten und über Beispielräume nachzudenken. Beginnen wir mit dem einfachsten Fall, einem Münzwurf. Für einen Münzwurf: . Die möglichen Ergebnisse sind leicht zu visualisieren, da nur ein kleiner Raum an Möglichkeiten vorhanden ist.
Betrachten Sie nun ein Sprachmodell, das eine Folge von 512 Token mit einem Vokabular von 50.000 möglichen Token generiert, was einen Beispielraum der Größe ergibt . Die Größe dieses Beispielraums ist kaum zu begreifen, geschweige denn zu visualisieren (im Kopf oder in der Praxis).
In solchen Fällen, in denen wir über einen großen Raum verfügen, kann der Bereich, der nützlichen, kohärenten und sachlich korrekten Ausgaben entspricht, im Verhältnis zur Anzahl plausibler Alternativen überraschend klein werden. Mit anderen Worten: Das Meer der möglichen Ergebnisse, das Wahrscheinliche, ist ein Teich …
Wenn das Modell eine Antwort zurückgibt, dass es möglich, aber nicht wahrscheinlich ist, nennen wir es eine Halluzination. Und eine Halluzination ist additionally nicht unbedingt ein Softwarefehler. Stattdessen geschieht dies, weil das Modell Stichproben aus Regionen der Verteilung mit einer Wahrscheinlichkeit ungleich Null, aber nur geringem praktischem Wert durchführt.
Auf den ersten Blick denken Sie vielleicht:
„Wenn wir einfach mehr Daten sammeln, werden Halluzinationen verschwinden.“
Die Herausforderung besteht jedoch darin, dass Halluzinationen auf natürliche Weise in Wahrscheinlichkeitssystemen entstehen. Die Stichprobenentnahme aus einer Verteilung birgt immer die Möglichkeit, in Regionen mit geringer Wahrscheinlichkeit zu landen.

2. Frequentistische Messungen vs. Bayesianische Erwartungen
Bei der Bewertung von KI-Systemen gibt es oft zwei sehr unterschiedliche Ansätze. Das erste ist mehr oder weniger ein Frequentist Perspektive: Sie führen 1000 Benchmark-Aufgaben durch und messen die Leistung. Wenn ein Modell 850 richtig löst, nennen wir es ein 85 % genaues System.
Der zweite ist ein Bayesianisch Perspektive, bei der Sie mit Erwartungen darüber beginnen, wie sich ein intelligentes System verhalten sollte, und diese Überzeugungen aktualisieren, wenn unerwartete Fehler auftreten.
Dieser Unterschied ist wichtig, da Eingabeaufforderungen selten unabhängige Ereignisse sind. Angenommen, ein Modell beantwortet neun mathematische Fragen richtig. Auf dieser Grundlage können wir davon ausgehen, dass die Wahrscheinlichkeit, Frage zehn richtig zu beantworten, in der angegebenen Genauigkeit liegt.
Aber Sprachmodelle sind keine Ansammlung isolierter Bernoulli-Versuche. Ihre Ergebnisse hängen vom vorherigen Kontext, versteckten Darstellungen und der Dichte verwandter Beispiele innerhalb der Trainingsverteilung ab.
Das bedeutet, dass ihre Leistung häufig ist bedingt statt statisch.
3. Vertrauen ist nicht dasselbe wie Wahrscheinlichkeit
Eine der am häufigsten verwendeten Funktionen beim maschinellen Lernen ist die Softmax-Funktion. Wir interpretieren Softmax-Ausgaben oft als Konfidenzwerte: „Wenn das Modell für Katze 0,90 ausgibt, ist es zu 90 % sicher.“ Aber diese Interpretation kann irreführend sein.
Okay, gehen Sie einen Second zurück: Die Softmax-Funktion besagt, dass aufgrund des Exponentialterms kleine Unterschiede zwischen Logits verstärkt werden können.
Ein Mannequin kann additionally sehr selbstbewusst wirken, nicht weil es „weiß” etwas, aber weil ein Logit zufällig etwas größer struggle als die anderen und die Exponentialoperation den Unterschied verstärkte.
Wenn ChatGPT additionally das nächste Wort vorhersagt, antwortet es im Wesentlichen:
„Welcher von allen möglichen Token ist nach Softmax am wahrscheinlichsten?“
Dadurch entsteht das, was ich als „selbstbewusster Narr„Drawback: ein System, das selbstbewusst etwas Falsches behauptet, weil es nicht gelernt hat, Unsicherheit auszudrücken.“

4. Das Gesetz der großen Zahlen und warum mehr Daten nicht automatisch mehr Wahrheit bedeuten
Das Gesetz der großen Zahlen besagt, dass sich die beobachteten Durchschnittswerte mit zunehmender Stichprobengröße ihren erwarteten Werten annähern. Diese Idee motiviert oft die Verwendung extrem großer Datensätze zum Trainieren unserer Modelle. Wenn ein Modell schließlich genügend Beispiele sieht, sollte es doch irgendwann die Wahrheit erfahren, oder?
Auf den ersten Blick klingt das vernünftig, vor allem weil wir so lernen! Im Gesetz der großen Zahlen verbirgt sich jedoch eine wichtige Annahme: Die zugrunde liegende Verteilung muss relativ stabil bleiben.
Menschliches Wissen und Sprache sind keine stabilen Verteilungen. Sie ändern sich ständig und enthalten Widersprüche, Vorurteile und Ungenauigkeiten. Die gesprochene Sprache variiert von Area zu Area. Selbst innerhalb derselben Stadt würden die Menschen dieselbe Sprache, dieselben Ausdrücke und dieselben Wörter unterschiedlich verwenden.
Infolgedessen konvergiert das Modell nicht unbedingt in Richtung „Wahrheit.“ Stattdessen konvergiert es in Richtung dominanter Muster. Wenn additionally ein Missverständnis häufig genug in den Daten auftritt, kann das Modell es lernen, da es statistisch gesehen die wahrscheinlichste Fortsetzung ist.
5. Stochastik ist nicht unbedingt Kreativität
Viele bezeichnen KI-Systeme oft als „kreativ“, wenn sie überraschende Ergebnisse liefern. Aus probabilistischer Sicht könnte jedoch noch etwas anderes passieren.
Die Temperaturmessung verändert die Wahrscheinlichkeit, dass das Modell weniger wahrscheinliche Token auswählt. Proben mit niedriger Temperatur sind vorhersehbar und sicher! Menschen mit hoher Temperatur neigen dazu, vielfältiger und überraschender zu sein, was oft zu einem höheren Risiko für Halluzinationen führt.
Durch eine Erhöhung der Temperaturmessung wird die Wahrscheinlichkeitsverteilung effektiv abgeflacht. Das bedeutet, dass Ergebnisse mit geringerer Wahrscheinlichkeit häufiger untersucht werden. Was wir manchmal als Kreativität interpretieren, könnte stattdessen die modellhafte Erkundung weniger wahrscheinlicher Regionen der Verteilung sein.

6. Übergang von möglich zu zuverlässig
Wenn es unser Ziel ist, KI-Systeme zu entwickeln, die konsistent in realen Umgebungen funktionieren, müssen wir über die Frage hinausgehen, ob etwas möglich ist, und uns auf die Zuverlässigkeit konzentrieren. Auch hier ist es leichter gesagt als getan. Zu den nützlichen Ansätzen hierfür gehören jedoch:
1- Verwendung von Techniken wie Platt-Skalierung und isotonischer Regression, um die Konfidenzwerte mit der beobachteten Leistung in Einklang zu bringen.
2- Verwendung von Methoden wie Bayes’schen neuronalen Netzen oder Monte-Carlo-Dropout, um zu quantifizieren, was ein Modell nicht weiß.
3- Verwenden Sie externe Validierungsmethoden, um die Ausgabestruktur und -anforderungen durchzusetzen, anstatt davon auszugehen, dass das Modell natürlich den Regeln folgt.
Letzte Gedanken
Vor ein paar Jahren struggle jeder von KI-Systemen beeindruckt, die einfach das nächste Wort vorhersagten. Jetzt entdecken wir, dass die Vorhersage des nächsten Wortes nur ein Teil des Issues ist.
Die schwierigere Herausforderung besteht darin, das richtige Wort wiederholt und zuverlässig vorherzusagen. Vor allem, weil jeden Tag neue Modelle auf den Markt kommen. Mit beeindruckenden Modellen und vielen Versprechen auf eine tolle Leistung. Wenn Sie additionally das nächste Mal eine beeindruckende KI-Demo sehen, empfehle ich Ihnen (sich selbst oder die Particular person, die das Modell präsentiert):
„Tut das Modell normalerweise so, oder handelt es sich hier um ein besonders glückliches Exemplar?“
In einer Welt mit nahezu unendlichen Möglichkeiten kann quick alles passieren. Bei der Technik geht es jedoch selten darum, was passieren kann. Es geht darum, worauf Sie vertrauen können, dass es wieder passiert.
