Da Modelle der künstlichen Intelligenz immer häufiger zum Einsatz kommen und in so unterschiedliche Bereiche wie Gesundheitswesen, Finanzen, Bildung, Transport und Unterhaltung integriert werden, ist es von entscheidender Bedeutung, zu verstehen, wie sie im Hintergrund funktionieren. Durch die Interpretation der Mechanismen, die KI-Modellen zugrunde liegen, können wir sie auf Sicherheit und Voreingenommenheit prüfen und so möglicherweise unser Verständnis der Wissenschaft hinter der Intelligenz selbst vertiefen.
Stellen Sie sich vor, wir könnten das menschliche Gehirn direkt untersuchen, indem wir jedes einzelne Neuron manipulieren, um ihre Rolle bei der Wahrnehmung eines bestimmten Objekts zu untersuchen. Während ein solches Experiment beim menschlichen Gehirn unerschwinglich invasiv wäre, ist es bei einem anderen Typ neuronalen Netzwerks, einem künstlichen, machbarer. Künstliche Modelle mit Millionen von Neuronen sind jedoch – ähnlich wie das menschliche Gehirn – zu groß und zu komplex, um sie manuell zu untersuchen, was die Interpretierbarkeit im großen Maßstab zu einer sehr anspruchsvollen Aufgabe macht.
Um dieses Drawback zu lösen, entschieden sich die Forscher des Laptop Science and Synthetic Intelligence Laboratory (CSAIL) des MIT für einen automatisierten Ansatz zur Interpretation künstlicher Bildmodelle, die verschiedene Eigenschaften von Bildern bewerten. Sie entwickelten „MAIA“ (Multimodal Automated Interpretability Agent), ein System, das eine Vielzahl von Interpretieraufgaben neuronaler Netzwerke mithilfe eines Bildsprachenmodell-Backbones automatisiert, das mit Instruments zum Experimentieren mit anderen KI-Systemen ausgestattet ist.
„Unser Ziel ist es, einen KI-Forscher zu schaffen, der Interpretierbarkeitsexperimente autonom durchführen kann. Bestehende automatisierte Interpretierbarkeitsmethoden kennzeichnen oder visualisieren Daten lediglich in einem einmaligen Prozess. MAIA hingegen kann Hypothesen generieren, Experimente zu deren Prüfung entwerfen und sein Verständnis durch iterative Analyse verfeinern“, sagt Tamar Rott Shaham, Postdoc für Elektrotechnik und Informatik (EECS) am CSAIL des MIT und Co-Autorin eines neuen Papier über die Forschung„Durch die Kombination eines vorab trainierten Imaginative and prescient-Language-Modells mit einer Bibliothek aus Interpretierbarkeitstools kann unsere multimodale Methode auf Benutzeranfragen reagieren, indem sie gezielte Experimente an bestimmten Modellen erstellt und durchführt und ihren Ansatz kontinuierlich verfeinert, bis sie eine umfassende Antwort liefern kann.“
Der automatisierte Agent bewältigt drei Hauptaufgaben: Er beschriftet einzelne Komponenten in Bildmodellen und beschreibt die visuellen Konzepte, die sie aktivieren, er bereinigt Bildklassifizierer, indem er irrelevante Merkmale entfernt, um sie robuster gegenüber neuen Situationen zu machen, und er sucht nach versteckten Verzerrungen in KI-Systemen, um potenzielle Fairnessprobleme in ihren Ergebnissen aufzudecken. „Ein wesentlicher Vorteil eines Techniques wie MAIA ist jedoch seine Flexibilität“, sagt Sarah Schwettmann PhD ’21, Wissenschaftlerin am CSAIL und Co-Leiterin der Forschung. „Wir haben die Nützlichkeit von MAIA anhand einiger spezifischer Aufgaben demonstriert, aber da das System auf einem Basismodell mit umfassenden Denkfähigkeiten aufbaut, kann es viele verschiedene Arten von Interpretierbarkeitsanfragen von Benutzern beantworten und spontan Experimente entwerfen, um diese zu untersuchen.“
Neuron für Neuron
In einer Beispielaufgabe bittet ein menschlicher Benutzer MAIA, die Konzepte zu beschreiben, für deren Erkennung ein bestimmtes Neuron in einem Sehmodell verantwortlich ist. Um diese Frage zu untersuchen, verwendet MAIA zunächst ein Software, das „Datensatzexemplare“ aus dem ImageNet-Datensatz abruft, die das Neuron maximal aktivieren. Für dieses Beispielneuron zeigen diese Bilder Menschen in formeller Kleidung und Nahaufnahmen ihrer Kinn- und Halspartie. MAIA stellt verschiedene Hypothesen darüber auf, was die Aktivität des Neurons antreibt: Gesichtsausdrücke, Kinnpartien oder Krawatten. MAIA verwendet dann seine Instruments, um Experimente zu entwerfen und jede Hypothese einzeln zu testen, indem synthetische Bilder generiert und bearbeitet werden – in einem Experiment erhöht das Hinzufügen einer Fliege zu einem Bild eines menschlichen Gesichts die Reaktion des Neurons. „Mit diesem Ansatz können wir die spezifische Ursache der Aktivität des Neurons bestimmen, ähnlich wie bei einem echten wissenschaftlichen Experiment“, sagt Rott Shaham.
MAIAs Erklärungen des Neuronenverhaltens werden auf zwei Arten ausgewertet. Zunächst werden synthetische Systeme mit bekannten Grundverhaltensweisen verwendet, um die Genauigkeit von MAIAs Interpretationen zu beurteilen. Zweitens entwickeln die Autoren für „echte“ Neuronen in trainierten KI-Systemen ohne Grundverhaltensbeschreibungen ein neues automatisiertes Auswertungsprotokoll, das misst, wie intestine MAIAs Beschreibungen das Neuronenverhalten anhand unbekannter Daten vorhersagen.
Die von CSAIL geleitete Methode übertraf Basismethoden, die einzelne Neuronen in einer Vielzahl von Bildverarbeitungsmodellen wie ResNet, CLIP und dem Bildverarbeitungstransformator DINO beschreiben. MAIA zeigte auch bei dem neuen Datensatz synthetischer Neuronen mit bekannten Grundbeschreibungen gute Ergebnisse. Sowohl für die realen als auch für die synthetischen Systeme waren die Beschreibungen oft auf Augenhöhe mit Beschreibungen, die von menschlichen Experten verfasst wurden.
Inwiefern sind Beschreibungen von KI-Systemkomponenten, wie beispielsweise einzelnen Neuronen, nützlich? „Das Verstehen und Lokalisieren von Verhaltensweisen innerhalb großer KI-Systeme ist ein wesentlicher Bestandteil der Sicherheitsüberprüfung dieser Systeme vor ihrem Einsatz – in einigen unserer Experimente zeigen wir, wie MAIA verwendet werden kann, um Neuronen mit unerwünschtem Verhalten zu finden und dieses Verhalten aus einem Modell zu entfernen“, sagt Schwettmann. „Wir arbeiten an einem widerstandsfähigeren KI-Ökosystem, in dem Instruments zum Verstehen und Überwachen von KI-Systemen mit der System-Skalierung Schritt halten, sodass wir unvorhergesehene Herausforderungen, die durch neue Modelle entstehen, untersuchen und hoffentlich verstehen können.“
Ein Blick ins Innere neuronaler Netzwerke
Das junge Feld der Interpretierbarkeit entwickelt sich parallel zur Verbreitung von „Black Field“-Maschinenlernmodellen zu einem eigenständigen Forschungsgebiet. Wie können Forscher diese Modelle entschlüsseln und ihre Funktionsweise verstehen?
Aktuelle Methoden, um Einblicke in die Materie zu erhalten, sind entweder in ihrem Umfang oder in der Genauigkeit der Erklärungen, die sie liefern können, begrenzt. Darüber hinaus sind bestehende Methoden in der Regel auf ein bestimmtes Modell und eine bestimmte Aufgabe zugeschnitten. Dies veranlasste die Forscher zu der Frage: Wie können wir ein generisches System aufbauen, das Benutzern hilft, Fragen zur Interpretierbarkeit von KI-Modellen zu beantworten und dabei die Flexibilität menschlicher Experimente mit der Skalierbarkeit automatisierter Techniken zu kombinieren?
Ein kritischer Bereich, den dieses System angehen sollte, struggle die Verzerrung. Um festzustellen, ob Bildklassifizierer eine Verzerrung gegenüber bestimmten Unterkategorien von Bildern zeigten, untersuchte das Staff die letzte Ebene des Klassifizierungsstroms (in einem System, das zum Sortieren oder Beschriften von Elementen entwickelt wurde, ähnlich einer Maschine, die erkennt, ob ein Foto einen Hund, eine Katze oder einen Vogel zeigt) und die Wahrscheinlichkeitswerte der Eingabebilder (Vertrauensstufen, die die Maschine ihren Vermutungen zuweist). Um mögliche Verzerrungen bei der Bildklassifizierung zu verstehen, wurde MAIA gebeten, eine Teilmenge von Bildern in bestimmten Klassen (z. B. „Labrador Retriever“) zu finden, die vom System wahrscheinlich falsch beschriftet wurden. In diesem Beispiel stellte MAIA fest, dass Bilder von schwarzen Labradoren wahrscheinlich falsch klassifiziert wurden, was auf eine Verzerrung des Modells zugunsten gelbfelliger Retriever hindeutet.
Da MAIA bei der Versuchsplanung auf externe Instruments angewiesen ist, wird seine Leistung durch die Qualität dieser Instruments begrenzt. Aber mit der Verbesserung der Qualität von Instruments wie Bildsynthesemodellen wird sich auch MAIA verbessern. MAIA zeigt manchmal auch Bestätigungsfehler, wenn es seine ursprüngliche Hypothese fälschlicherweise bestätigt. Um dies zu mildern, haben die Forscher ein Bild-zu-Textual content-Software entwickelt, das eine andere Instanz des Sprachmodells verwendet, um Versuchsergebnisse zusammenzufassen. Ein weiterer Fehlermodus ist die Überanpassung an ein bestimmtes Experiment, bei der das Modell manchmal voreilige Schlussfolgerungen auf der Grundlage minimaler Beweise zieht.
„Ich denke, ein natürlicher nächster Schritt für unser Labor ist, über künstliche Systeme hinauszugehen und ähnliche Experimente auf die menschliche Wahrnehmung anzuwenden“, sagt Rott Shaham. „Um dies zu testen, mussten traditionell Reize manuell entworfen und getestet werden, was arbeitsintensiv ist. Mit unserem Agenten können wir diesen Prozess skalieren und zahlreiche Reize gleichzeitig entwerfen und testen. Dies könnte es uns auch ermöglichen, die menschliche visuelle Wahrnehmung mit künstlichen Systemen zu vergleichen.“
„Neuronale Netzwerke zu verstehen ist für Menschen schwierig, da sie über Hunderttausende von Neuronen verfügen, von denen jedes über komplexe Verhaltensmuster verfügt. MAIA hilft, diese Hürde zu nehmen, indem es KI-Agenten entwickelt, die diese Neuronen automatisch analysieren und die Ergebnisse in verständlicher Type an den Menschen zurückmelden können“, sagt Jacob Steinhardt, Assistenzprofessor an der College of California in Berkeley, der nicht an der Forschung beteiligt struggle. „Die Skalierung dieser Methoden könnte einer der wichtigsten Wege zum Verständnis und zur sicheren Überwachung von KI-Systemen sein.“
Rott Shaham und Schwettmann werden von fünf anderen CSAIL-Mitgliedern an der Arbeit unterstützt: dem Bachelorstudenten Franklin Wang, dem angehenden MIT-Studenten Achyuta Rajaram, dem EECS-Doktoranden Evan Hernandez SM ’22 sowie den EECS-Professoren Jacob Andreas und Antonio Torralba. Ihre Arbeit wurde teilweise vom MIT-IBM Watson AI Lab, Open Philanthropy, Hyundai Motor Co., dem Military Analysis Laboratory, Intel, der Nationwide Science Basis, dem Zuckerman STEM Management Program und dem Viterbi Fellowship unterstützt. Die Ergebnisse der Forscher werden diese Woche auf der Worldwide Convention on Machine Studying vorgestellt.