Modelle für maschinelles Lernen können Fehler machen und schwierig zu verwenden sein. Daher haben Wissenschaftler Erklärungsmethoden entwickelt, um Benutzern zu helfen, zu verstehen, wann und wie sie den Vorhersagen eines Modells vertrauen sollten.
Diese Erklärungen sind jedoch oft komplex und enthalten möglicherweise Informationen zu Hunderten von Modellmerkmalen. Und sie werden manchmal als vielschichtige Visualisierungen präsentiert, die für Benutzer, denen es an maschinellem Lernen mangelt, schwierig sein können, sie vollständig zu verstehen.
Um den Menschen zu helfen, KI-Erklärungen zu verstehen, verwendeten MIT-Forscher große Sprachmodelle (LLMs), um handlungsbasierte Erklärungen in einfache Sprache umzuwandeln.
Sie entwickelten ein zweiteiliges System, das eine maschinell lernende Erklärung in einen Abschnitt mit für Menschen lesbarem Textual content umwandelt und dann automatisch die Qualität der Erzählung bewertet, sodass ein Endbenutzer weiß, ob er ihr vertrauen kann.
Indem sie das System mit einigen Beispielerklärungen auffordern, können die Forscher seine narrativen Beschreibungen an die Vorlieben der Benutzer oder die Anforderungen bestimmter Anwendungen anpassen.
Langfristig hoffen die Forscher, auf dieser Technik aufzubauen, indem sie es Benutzern ermöglichen, einem Modell Folgefragen dazu zu stellen, wie es zu Vorhersagen in realen Umgebungen gekommen ist.
„Unser Ziel mit dieser Forschung conflict es, den ersten Schritt zu tun, um Benutzern die Möglichkeit zu geben, ausführliche Gespräche mit Modellen für maschinelles Lernen über die Gründe zu führen, aus denen sie bestimmte Vorhersagen getroffen haben, damit sie bessere Entscheidungen darüber treffen können, ob sie dem Modell zuhören“, sagt er Alexandra Zytek, Doktorandin der Elektrotechnik und Informatik (EECS) und Hauptautorin einer Arbeit zu dieser Technik.
Sie wird bei dem Artikel von Sara Pido unterstützt, einer MIT-Postdoktorandin; Sarah Alnegheimish, eine EECS-Doktorandin; Laure Berti-Équille, Forschungsdirektorin am französischen Nationalen Forschungsinstitut für nachhaltige Entwicklung; und der leitende Autor Kalyan Veeramachaneni, ein leitender Forschungswissenschaftler im Labor für Informations- und Entscheidungssysteme. Die Forschung wird auf der IEEE Massive Information Convention vorgestellt.
Aufschlussreiche Erklärungen
Die Forscher konzentrierten sich auf eine beliebte Artwork der Erklärung durch maschinelles Lernen namens SHAP. In einer SHAP-Erklärung wird jedem Merkmal, das das Modell verwendet, um eine Vorhersage zu treffen, ein Wert zugewiesen. Wenn ein Modell beispielsweise Immobilienpreise vorhersagt, könnte ein Merkmal der Standort des Hauses sein. Der Place wird ein positiver oder negativer Wert zugewiesen, der angibt, wie stark dieses Merkmal die Gesamtvorhersage des Modells verändert hat.
SHAP-Erklärungen werden häufig als Balkendiagramme dargestellt, die zeigen, welche Merkmale am wichtigsten oder am unwichtigsten sind. Aber für ein Modell mit mehr als 100 Funktionen wird dieser Balkenplot schnell unhandlich.
„Als Forscher müssen wir viele Entscheidungen darüber treffen, was wir visuell präsentieren wollen. Wenn wir nur die Prime 10 zeigen, fragen sich die Leute vielleicht, was mit einem anderen Function passiert ist, das nicht in der Handlung vorkommt. Die Verwendung natürlicher Sprache entlastet uns von der Notwendigkeit, diese Entscheidungen treffen zu müssen“, sagt Veeramachaneni.
Anstatt jedoch ein großes Sprachmodell zu verwenden, um eine Erklärung in natürlicher Sprache zu generieren, verwenden die Forscher das LLM, um eine vorhandene SHAP-Erklärung in eine lesbare Erzählung umzuwandeln.
Indem das LLM nur den Teil des Prozesses in natürlicher Sprache abwickelt, schränkt es die Möglichkeit ein, Ungenauigkeiten in die Erklärung einzubringen, erklärt Zytek.
Ihr System namens EXPLINGO ist in zwei Teile unterteilt, die zusammenarbeiten.
Die erste Komponente namens NARRATOR verwendet ein LLM, um narrative Beschreibungen von SHAP-Erklärungen zu erstellen, die den Benutzerpräferenzen entsprechen. Indem der LLM dem ERZÄHLER zunächst drei bis fünf schriftliche Beispiele narrativer Erklärungen zuführt, ahmt er diesen Stil bei der Texterstellung nach.
„Statt den Benutzer versuchen zu lassen, zu definieren, nach welcher Artwork von Erklärung er sucht, ist es einfacher, ihn einfach schreiben zu lassen, was er sehen möchte“, sagt Zytek.
Dadurch kann NARRATOR leicht an neue Anwendungsfälle angepasst werden, indem ihm ein anderer Satz manuell geschriebener Beispiele angezeigt wird.
Nachdem NARRATOR eine Erklärung in einfacher Sprache erstellt hat, verwendet die zweite Komponente, GRADER, ein LLM, um die Erzählung anhand von vier Metriken zu bewerten: Prägnanz, Genauigkeit, Vollständigkeit und Flüssigkeit. GRADER sendet dem LLM automatisch den Textual content von NARRATOR und die darin beschriebene SHAP-Erklärung.
„Wir stellen fest, dass ein LLM selbst dann, wenn er bei der Ausführung einer Aufgabe einen Fehler macht, bei der Überprüfung oder Validierung dieser Aufgabe oft keinen Fehler macht“, sagt sie.
Benutzer können GRADER auch anpassen, um jeder Metrik unterschiedliche Gewichtungen zuzuweisen.
„Man könnte sich vorstellen, dass in einem hochriskanten Fall die Gewichtung von Genauigkeit und Vollständigkeit viel höher ist als beispielsweise die Sprachkompetenz“, fügt sie hinzu.
Erzählungen analysieren
Für Zytek und ihre Kollegen bestand eine der größten Herausforderungen darin, das LLM so anzupassen, dass es natürlich klingende Erzählungen generiert. Je mehr Richtlinien sie dem Kontrollstil hinzufügten, desto wahrscheinlicher conflict es, dass das LLM Fehler in die Erklärung einführte.
„Es wurde viel zeitnahes Tuning betrieben, um jeden Fehler einzeln zu finden und zu beheben“, sagt sie.
Um ihr System zu testen, verwendeten die Forscher neun maschinelle Lerndatensätze mit Erläuterungen und ließen verschiedene Benutzer Erzählungen für jeden Datensatz schreiben. Dies ermöglichte es ihnen, die Fähigkeit von NARRATOR zu bewerten, einzigartige Stile nachzuahmen. Sie verwendeten GRADER, um jede narrative Erklärung für alle vier Metriken zu bewerten.
Letztendlich stellten die Forscher fest, dass ihr System hochwertige narrative Erklärungen generieren und verschiedene Schreibstile effektiv nachahmen konnte.
Ihre Ergebnisse zeigen, dass die Bereitstellung einiger manuell verfasster Beispielerklärungen den Erzählstil erheblich verbessert. Diese Beispiele müssen jedoch sorgfältig geschrieben werden – die Einbeziehung von Vergleichswörtern wie „größer“ kann dazu führen, dass GRADER genaue Erklärungen als falsch markiert.
Aufbauend auf diesen Ergebnissen wollen die Forscher Techniken erforschen, die ihrem System helfen könnten, Vergleichswörter besser zu verarbeiten. Außerdem wollen sie EXPLINGO erweitern, indem sie die Erklärungen rationalisieren.
Langfristig hoffen sie, diese Arbeit als Sprungbrett für ein interaktives System nutzen zu können, in dem der Benutzer einem Modell Folgefragen zu einer Erklärung stellen kann.
„Das würde in vielerlei Hinsicht bei der Entscheidungsfindung helfen. Wenn Menschen mit der Vorhersage eines Modells nicht einverstanden sind, möchten wir, dass sie schnell herausfinden können, ob ihre Instinct richtig ist oder ob die Instinct des Modells richtig ist und woher dieser Unterschied kommt“, sagt Zytek.