Verbesserung der Fähigkeit von KI-Modellen, ihre Vorhersagen zu erklären

In anspruchsvollen Umgebungen wie der medizinischen Diagnostik möchten Benutzer oft wissen, was ein Laptop-Imaginative and prescient-Modell dazu veranlasst hat, eine bestimmte Vorhersage zu treffen, damit sie entscheiden können, ob sie seiner Ausgabe vertrauen sollen.

Die Modellierung von Konzeptengpässen ist eine Methode, die es Systemen der künstlichen Intelligenz ermöglicht, ihren Entscheidungsprozess zu erklären. Diese Methoden zwingen ein Deep-Studying-Modell dazu, eine Reihe von Konzepten zu verwenden, die für Menschen verständlich sind, um eine Vorhersage zu treffen. In einer neuen Forschung haben MIT-Informatiker eine Methode entwickelt, die das Modell dazu bringt, eine höhere Genauigkeit und klarere, prägnantere Erklärungen zu erzielen.

Die Konzepte, die das Modell verwendet, werden in der Regel im Voraus von menschlichen Experten definiert. Beispielsweise könnte ein Arzt die Verwendung von Konzepten wie „gebündelte braune Punkte“ und „bunte Pigmentierung“ vorschlagen, um vorherzusagen, dass ein medizinisches Bild ein Melanom zeigt.

Allerdings könnten zuvor definierte Konzepte für eine bestimmte Aufgabe irrelevant sein oder nicht genügend Particulars aufweisen, was die Genauigkeit des Modells verringert. Die neue Methode extrahiert Konzepte, die das Modell bereits gelernt hat, während es für die Ausführung dieser bestimmten Aufgabe trainiert wurde, und zwingt das Modell, diese zu verwenden, wodurch bessere Erklärungen als bei herkömmlichen Konzeptengpassmodellen erzielt werden.

Der Ansatz nutzt ein Paar spezialisierter Modelle für maschinelles Lernen, die automatisch Wissen aus einem Zielmodell extrahieren und es in verständliche Konzepte übersetzen. Letztendlich kann ihre Technik jedes vorab trainierte Laptop-Imaginative and prescient-Modell in ein Modell umwandeln, das Konzepte zur Erklärung seiner Argumentation verwenden kann.

„In gewissem Sinne möchten wir in der Lage sein, die Gedanken dieser Laptop-Imaginative and prescient-Modelle zu lesen. Ein Konzept-Engpass-Modell ist eine Möglichkeit für Benutzer, zu erkennen, was das Modell denkt und warum es eine bestimmte Vorhersage getroffen hat. Da unsere Methode bessere Konzepte verwendet, kann sie zu höherer Genauigkeit führen und letztendlich die Verantwortlichkeit von Black-Field-KI-Modellen verbessern“, sagt Hauptautor Antonio De Santis, ein Doktorand an der Polytechnischen Universität Mailand, der diese Forschung als Gaststudent im Laptop Science and Synthetic Intelligence Laboratory (CSAIL) am MIT abgeschlossen hat.

Er ist auf einem verbunden Papier über die Arbeit von Schrasing Tong SM ’20, PhD ’26; Marco Brambilla, Professor für Informatik und Ingenieurwesen an der Polytechnischen Universität Mailand; und die leitende Autorin Lalana Kagal, eine leitende Forschungswissenschaftlerin bei CSAIL. Die Forschung wird auf der Worldwide Convention on Studying Representations vorgestellt.

Einen besseren Engpass schaffen

Konzeptengpassmodelle (CBMs) sind ein beliebter Ansatz zur Verbesserung der KI-Erklärbarkeit. Diese Techniken fügen einen Zwischenschritt hinzu, indem sie ein Laptop-Imaginative and prescient-Modell dazu zwingen, die in einem Bild vorhandenen Konzepte vorherzusagen und diese Konzepte dann zu verwenden, um eine endgültige Vorhersage zu treffen.

Dieser Zwischenschritt oder „Engpass“ hilft Benutzern, die Argumentation des Modells zu verstehen.

Beispielsweise könnte ein Modell zur Identifizierung von Vogelarten Konzepte wie „gelbe Beine“ und „blaue Flügel“ auswählen, bevor es eine Rauchschwalbe vorhersagt.

Da diese Konzepte jedoch häufig im Voraus von Menschen oder großen Sprachmodellen (LLMs) generiert werden, passen sie möglicherweise nicht für die spezifische Aufgabe. Darüber hinaus nutzt das Modell trotz einer Reihe vordefinierter Konzepte manchmal trotzdem unerwünschte gelernte Informationen, was ein Drawback darstellt, das als Informationsleck bekannt ist.

„Diese Modelle sind darauf trainiert, die Leistung zu maximieren, sodass das Modell möglicherweise heimlich Konzepte verwendet, die uns nicht bekannt sind“, erklärt De Santis.

Die MIT-Forscher hatten eine andere Idee: Da das Modell anhand einer großen Datenmenge trainiert wurde, hat es möglicherweise die Konzepte gelernt, die erforderlich sind, um genaue Vorhersagen für die jeweilige Aufgabe zu erstellen. Sie versuchten, ein CBM aufzubauen, indem sie dieses vorhandene Wissen extrahierten und in einen für Menschen verständlichen Textual content umwandelten.

Im ersten Schritt ihrer Methode übernimmt ein spezielles Deep-Studying-Modell, ein sogenannter Sparse-Autoencoder, selektiv die relevantesten Merkmale, die das Modell gelernt hat, und rekonstruiert sie in eine Handvoll Konzepte. Anschließend beschreibt ein multimodales LLM jedes Konzept im Klartext.

Dieses multimodale LLM kommentiert auch Bilder im Datensatz, indem es identifiziert, welche Konzepte in jedem Bild vorhanden sind und welche nicht. Die Forscher verwenden diesen annotierten Datensatz, um ein Konzeptengpassmodul zu trainieren, um die Konzepte zu erkennen.

Sie integrieren dieses Modul in das Zielmodell und zwingen es, Vorhersagen nur anhand der von den Forschern extrahierten erlernten Konzepte zu treffen.

Kontrolle der Konzepte

Bei der Entwicklung dieser Methode haben sie viele Herausforderungen gemeistert, von der Sicherstellung, dass das LLM die Konzepte korrekt annotierte, bis hin zur Feststellung, ob der Sparse-Autoencoder für den Menschen verständliche Konzepte identifiziert hatte.

Um zu verhindern, dass das Modell unbekannte oder unerwünschte Konzepte verwendet, beschränken sie es auf die Verwendung von nur fünf Konzepten für jede Vorhersage. Dies zwingt das Modell auch dazu, die relevantesten Konzepte auszuwählen und macht die Erklärungen verständlicher.

Als sie ihren Ansatz mit modernsten CBMs bei Aufgaben wie der Vorhersage von Vogelarten und der Identifizierung von Hautläsionen in medizinischen Bildern verglichen, erreichte ihre Methode die höchste Genauigkeit und lieferte gleichzeitig präzisere Erklärungen.

Ihr Ansatz führte auch zu Konzepten, die besser auf die Bilder im Datensatz anwendbar waren.

„Wir haben gezeigt, dass das Extrahieren von Konzepten aus dem ursprünglichen Modell andere CBMs übertreffen kann, aber es gibt immer noch einen Kompromiss zwischen Interpretierbarkeit und Genauigkeit, der angegangen werden muss. Black-Field-Modelle, die nicht interpretierbar sind, übertreffen immer noch unsere“, sagt De Santis.

In Zukunft wollen die Forscher mögliche Lösungen für das Informationsleckproblem untersuchen, möglicherweise durch das Hinzufügen zusätzlicher Konzeptengpassmodule, damit unerwünschte Konzepte nicht durchsickern können. Sie planen außerdem, ihre Methode zu erweitern, indem sie ein größeres multimodales LLM verwenden, um einen größeren Trainingsdatensatz zu annotieren, was die Leistung steigern könnte.

„Ich bin von dieser Arbeit begeistert, weil sie interpretierbare KI in eine sehr vielversprechende Richtung treibt und eine natürliche Brücke zu symbolischer KI und Wissensgraphen schlägt“, sagt Andreas Hotho, Professor und Leiter des Lehrstuhls für Information Science an der Universität Würzburg, der nicht an dieser Arbeit beteiligt struggle. „Durch die Ableitung von Konzeptengpässen aus den internen Mechanismen des Modells und nicht nur aus vom Menschen definierten Konzepten bietet es einen Weg zu Erklärungen, die dem Modell treuer sind, und eröffnet viele Möglichkeiten für Folgearbeiten mit strukturiertem Wissen.“

Diese Forschung wurde vom Progetto Rocca Doctoral Fellowship, dem italienischen Ministerium für Universität und Forschung im Rahmen des Nationwide Restoration and Resilience Plan, Thales Alenia Area und der Europäischen Union im Rahmen des NextGenerationEU-Projekts unterstützt.

Verbesserung der Fähigkeit von KI-Modellen, ihre Vorhersagen zu erklären | MIT-Nachrichten

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

Verbesserung der Fähigkeit von KI-Modellen, ihre Vorhersagen zu erklären | MIT-Nachrichten

Die 7 besten kostenlosen Anthropic AI-Kurse mit Zertifikaten

Können LLM-Einbettungen die Zeitreihenprognose verbessern? Ein praktischer Characteristic-Engineering-Ansatz

LatentVLA: Latent Reasoning Modelle für autonomes Fahren

About

Categories

Tags

Recent Post

Verbesserung der Fähigkeit von KI-Modellen, ihre Vorhersagen zu erklären | MIT-Nachrichten

Die 7 besten kostenlosen Anthropic AI-Kurse mit Zertifikaten

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt