Da Modelle des maschinellen Lernens falsche Vorhersagen liefern können, statten Forscher sie häufig mit der Fähigkeit aus, einem Benutzer mitzuteilen, wie sicher er sich bei einer bestimmten Entscheidung ist. Dies ist insbesondere in Situationen wichtig, in denen viel auf dem Spiel steht, etwa wenn Modelle verwendet werden, um Krankheiten in medizinischen Bildern zu identifizieren oder Bewerbungen zu filtern.
Die Unsicherheitsquantifizierungen eines Modells sind jedoch nur dann sinnvoll, wenn sie genau sind. Wenn ein Modell angibt, dass es zu 49 Prozent sicher ist, dass ein medizinisches Bild einen Pleuraerguss zeigt, dann sollte das Modell in 49 Prozent der Fälle richtig liegen.
Forscher des MIT haben einen neuen Ansatz vorgestellt, der die Unsicherheitsschätzungen in Modellen des maschinellen Lernens verbessern kann. Ihre Methode liefert nicht nur genauere Unsicherheitsschätzungen als andere Techniken, sondern ist auch effizienter.
Darüber hinaus lässt sich die Technik aufgrund ihrer Skalierbarkeit auf große Deep-Studying-Modelle anwenden, die zunehmend im Gesundheitswesen und in anderen sicherheitskritischen Situationen eingesetzt werden.
Diese Technik könnte Endbenutzern, von denen viele über keine Fachkenntnisse im Bereich maschinelles Lernen verfügen, bessere Informationen liefern, mit deren Hilfe sie entscheiden können, ob den Vorhersagen eines Modells vertraut werden kann oder ob das Modell für eine bestimmte Aufgabe eingesetzt werden sollte.
„Man kann leicht erkennen, dass diese Modelle in Szenarien, in denen sie sehr intestine sind, wirklich intestine funktionieren, und dann davon ausgehen, dass sie in anderen Szenarien genauso intestine sein werden. Deshalb ist es besonders wichtig, diese Artwork von Arbeit voranzutreiben, die darauf abzielt, die Unsicherheit dieser Modelle besser zu kalibrieren, um sicherzustellen, dass sie mit menschlichen Vorstellungen von Unsicherheit übereinstimmen“, sagt Hauptautor Nathan Ng, ein Doktorand an der Universität von Toronto, der Gaststudent am MIT ist.
Ng verfasste das Papier gemeinsam mit Roger Grosse, einem Assistenzprofessor für Informatik an der Universität Toronto, und der Hauptautorin Marzyeh Ghassemi, einer außerordentlichen Professorin in der Fakultät für Elektrotechnik und Informatik und Mitglied des Instituts für Medizintechnikwissenschaften und des Labors für Informations- und Entscheidungssysteme. Die Forschungsarbeit wird auf der Worldwide Convention on Machine Studying vorgestellt.
Quantifizierung der Unsicherheit
Methoden zur Quantifizierung von Unsicherheiten erfordern häufig komplexe statistische Berechnungen, die sich nicht intestine auf maschinelle Lernmodelle mit Millionen von Parametern skalieren lassen. Diese Methoden erfordern außerdem, dass Benutzer Annahmen über das Modell und die Daten treffen, mit denen es trainiert wurde.
Die MIT-Forscher verfolgten einen anderen Ansatz. Sie verwendeten das sogenannte Minimal Description Size Precept (MDL), das keine Annahmen erfordert, die die Genauigkeit anderer Methoden beeinträchtigen können. MDL wird verwendet, um die Unsicherheit für Testpunkte, die das Modell kennzeichnen soll, besser zu quantifizieren und zu kalibrieren.
Die von den Forschern entwickelte Technik namens IF-COMP macht MDL schnell genug für den Einsatz mit großen Deep-Studying-Modellen, die in vielen realen Umgebungen eingesetzt werden.
Bei MDL werden alle möglichen Bezeichnungen berücksichtigt, die ein Modell einem Testpunkt geben könnte. Wenn es für diesen Punkt viele various Bezeichnungen gibt, die intestine passen, sollte das Vertrauen in die gewählte Bezeichnung entsprechend abnehmen.
„Eine Möglichkeit, herauszufinden, wie zuverlässig ein Modell ist, besteht darin, ihm einige kontrafaktische Informationen mitzuteilen und zu sehen, wie wahrscheinlich es ist, dass es Ihnen glaubt“, sagt Ng.
Betrachten wir beispielsweise ein Modell, das angibt, dass ein medizinisches Bild einen Pleuraerguss zeigt. Wenn die Forscher dem Modell mitteilen, dass dieses Bild ein Ödem zeigt, und es bereit ist, seine Annahme zu aktualisieren, sollte das Modell weniger Vertrauen in seine ursprüngliche Entscheidung haben.
Wenn ein Modell bei MDL sicher ist, wann es einen Datenpunkt beschriftet, sollte es einen sehr kurzen Code verwenden, um diesen Punkt zu beschreiben. Wenn es sich bei seiner Entscheidung nicht sicher ist, weil der Punkt viele andere Beschriftungen haben könnte, verwendet es einen längeren Code, um diese Möglichkeiten zu erfassen.
Die Menge an Code, die zum Beschriften eines Datenpunkts verwendet wird, wird als stochastische Datenkomplexität bezeichnet. Wenn die Forscher das Modell fragen, wie bereit es ist, seine Meinung über einen Datenpunkt angesichts gegenteiliger Beweise zu aktualisieren, sollte die stochastische Datenkomplexität abnehmen, wenn das Modell zuversichtlich ist.
Das Testen jedes einzelnen Datenpunkts mithilfe von MDL würde jedoch einen enormen Rechenaufwand erfordern.
Den Prozess beschleunigen
Mit IF-COMP entwickelten die Forscher eine Näherungstechnik, die die stochastische Datenkomplexität mithilfe einer speziellen Funktion, einer sogenannten Einflussfunktion, genau schätzen kann. Sie verwendeten außerdem eine statistische Technik namens Temperaturskalierung, die die Kalibrierung der Modellergebnisse verbessert. Diese Kombination aus Einflussfunktionen und Temperaturskalierung ermöglicht qualitativ hochwertige Näherungen der stochastischen Datenkomplexität.
Letztendlich kann IF-COMP effizient intestine kalibrierte Unsicherheitsquantifizierungen erstellen, die die wahre Zuverlässigkeit eines Modells widerspiegeln. Die Technik kann auch feststellen, ob das Modell bestimmte Datenpunkte falsch beschriftet hat oder welche Datenpunkte Ausreißer sind.
Die Forscher testeten ihr System anhand dieser drei Aufgaben und stellten fest, dass es schneller und genauer battle als andere Methoden.
„Es ist wirklich wichtig, eine gewisse Sicherheit zu haben, dass ein Modell intestine kalibriert ist, und es besteht ein wachsender Bedarf, festzustellen, wenn eine bestimmte Vorhersage nicht ganz richtig erscheint. Prüfwerkzeuge werden bei Problemen des maschinellen Lernens immer notwendiger, da wir große Mengen ungeprüfter Daten verwenden, um Modelle zu erstellen, die auf menschliche Probleme angewendet werden“, sagt Ghassemi.
IF-COMP ist modellagnostisch und kann daher genaue Unsicherheitsquantifizierungen für viele Arten von maschinellen Lernmodellen liefern. Dies könnte den Einsatz in einem breiteren Spektrum realer Umgebungen ermöglichen und letztlich mehr Praktikern helfen, bessere Entscheidungen zu treffen.
„Die Leute müssen verstehen, dass diese Systeme sehr fehlbar sind und Dinge im Lauf der Zeit erfinden können. Ein Modell magazine den Anschein erwecken, als sei es sehr zuversichtlich, aber es gibt eine Menge verschiedener Dinge, die es zu glauben bereit ist, wenn es Beweise für das Gegenteil gibt“, sagt Ng.
In der Zukunft möchten die Forscher ihren Ansatz auf große Sprachmodelle anwenden und andere potenzielle Anwendungsfälle für das Prinzip der minimalen Beschreibungslänge untersuchen.