Stellen Sie sich einen Radiologen vor, der eine Röntgenaufnahme eines neuen Patienten untersucht. Sie bemerkt, dass die Patientin im Gewebe eine Schwellung hat, aber kein vergrößertes Herz hat. Um die Diagnose zu beschleunigen, kann sie ein maschinelles Lernmodell verwenden, um nach Berichten ähnlicher Patienten zu suchen.
Wenn das Modell jedoch fälschlicherweise Berichte mit beiden Bedingungen identifiziert, könnte die wahrscheinlichste Diagnose sehr unterschiedlich sein: Wenn ein Affected person eine Gewebeschwellung und ein vergrößertes Herz aufweist, ist die Erkrankung sehr wahrscheinlich mit Herz, aber ohne vergrößertes Herz kann es mehrere Ursachen geben.
In einer neuen Studie haben MIT-Forscher herausgefunden, dass Visionsprachenmodelle in realen Situationen sehr wahrscheinlich einen solchen Fehler machen, weil sie die Negation nicht verstehen-Wörter wie „Nein“ und „nicht“, die angeben, was falsch oder fehlend ist.
„Diese Negationswörter können einen sehr bedeutenden Einfluss haben, und wenn wir diese Modelle nur blind verwenden, können wir auf katastrophale Folgen stoßen“ Diese Studie.
Die Forscher testeten die Fähigkeit von Visionsprachmodellen, die Negation in Bildunterschriften zu identifizieren. Die Modelle wurden oft so intestine wie eine zufällige Vermutung durchgeführt. Aufbauend auf diesen Erkenntnissen erstellte das Group einen Datensatz mit Bildern mit entsprechenden Bildunterschriften, die Negationswörter enthalten, die fehlende Objekte beschreiben.
Sie zeigen, dass das Umschulung eines Visionsprachmodells mit diesem Datensatz zu Leistungsverbesserungen führt, wenn ein Modell aufgefordert wird, Bilder abzurufen, die bestimmte Objekte nicht enthalten. Es steigert auch die Genauigkeit bei A number of -Alternative -Fragen, die mit negierten Bildunterschriften beantwortet werden.
Die Forscher warnen jedoch davor, dass mehr Arbeit erforderlich ist, um die Grundursachen dieses Issues anzugehen. Sie hoffen, dass ihre Forschung potenzielle Benutzer auf ein bisher unbemerktes Mangel aufmerksam macht, das schwerwiegende Auswirkungen auf hohe Einstellungen haben kann, in denen diese Modelle derzeit verwendet werden, indem sie feststellen, welche Patienten bestimmte Behandlungen erhalten, um Produktdefekte in Produktionsanlagen zu identifizieren.
“It is a technical paper, however there are larger points to think about. If one thing as basic as negation is damaged, we should not be utilizing giant imaginative and prescient/language fashions in lots of the methods we’re utilizing them now — with out intensive analysis,” says senior writer Marzyeh Ghassemi, an affiliate professor within the Division of Electrical Engineering and Pc Science (EECS) and a member of the Institute of Medical Engineering Sciences and the Laboratory for Info and Choice Programs.
Ghassemi und Alhamoud werden auf dem Papier von Shaden Alshammari, einem MIT -Doktorand, begleitet. Yonglong Tian von Openai; Guohao Li, ein ehemaliger Postdoc an der Oxford College; Philip HS Torr, Professor in Oxford; und Yoon Kim, Assistenzprofessor für EECs und Mitglied des Labors für Informatik und künstliche Intelligenz (CSAIL) am MIT. Die Forschung wird auf der Konferenz über Pc Imaginative and prescient und Mustererkennung vorgestellt.
Vernachlässigung der Negation
Imaginative and prescient-Sprachmodelle (VLM) werden unter Verwendung großer Sammlungen von Bildern und entsprechenden Bildunterschriften geschult, die sie lernen, als Zahlensätze, die als Vektordarstellungen bezeichnet werden, zu codieren. Die Modelle unterscheiden diese Vektoren, um zwischen verschiedenen Bildern zu unterscheiden.
Ein VLM verwendet zwei separate Encoder, eine für Textual content und eine für Bilder, und die Encoder lernen, ähnliche Vektoren für ein Bild und seine entsprechende Textunterschrift auszugeben.
„Die Bildunterschriften drücken aus, was in den Bildern ist – sie sind ein positives Etikett. Und das ist eigentlich das ganze Downside. Niemand sieht sich ein Bild eines Hundes an, der über einen Zaun springt und ihn über einen Hund springt, indem ein Hund über einen Zaun ohne Hubschrauber springt“, sagt Ghassemi.
Da die Bildkapitionsdatensätze keine Beispiele für Negation enthalten, lernen VLMs nie, sie zu identifizieren.
Um dieses Downside tiefer zu vertiefen, entwarfen die Forscher zwei Benchmark -Aufgaben, die die Fähigkeit von VLMs testen, die Negation zu verstehen.
Zum ersten Mal verwendeten sie ein großes Sprachmodell (LLM), um Bilder in einem vorhandenen Datensatz neu zu captionieren, indem sie das LLM bitten, über verwandte Objekte nachzudenken, die nicht in einem Bild sind, und sie in die Bildunterschrift schreiben. Dann testeten sie Modelle, indem sie sie mit Negationswörtern aufforderten, um Bilder abzurufen, die bestimmte Objekte enthalten, aber nicht andere.
Für die zweite Aufgabe haben sie A number of -Alternative -Fragen entwickelt, die ein VLM gestellt haben, um die am besten geeignete Bildunterschrift aus einer Liste eng verwandter Optionen auszuwählen. Diese Bildunterschriften unterscheiden sich nur durch Hinzufügen einer Referenz zu einem Objekt, das nicht im Bild angezeigt wird oder ein Objekt negiert, das im Bild angezeigt wird.
Die Modelle scheiterten bei beiden Aufgaben oft, wobei die Bildabnahmeleistung bei negierten Bildunterschriften um quick 25 Prozent sank. Bei der Beantwortung von A number of -Alternative -Fragen erreichten die besten Modelle nur eine Genauigkeit von rund 39 Prozent, wobei mehrere Modelle bei oder sogar unter zufälliger Zufall unterzogen wurden.
Ein Grund für dieses Versagen ist eine Abkürzung, die die Forscher Bestätigungsverzerrung bezeichnen – VLMs ignorieren Negationswörter und konzentrieren sich stattdessen auf Objekte in den Bildern.
„Das geschieht nicht einfach für Worte wie“ Nein „und“ nicht „. Unabhängig davon, wie Sie Negation oder Ausschluss ausdrücken, werden die Modelle es einfach ignorieren “, sagt Alhamoud.
Dies struggle in allen von ihnen getesteten VLM konsistent.
„Ein lösbares Downside“
Da VLMs in Bildunterschriften mit Negation normalerweise nicht trainiert werden, entwickelten die Forscher Datensätze mit Negationswörtern als erster Schritt zur Lösung des Issues.
Unter Verwendung eines Datensatzes mit 10 Millionen Bild-Textual content-Bildunterschriftenpaaren forderten sie ein LLM auf, verwandte Bildunterschriften vorzuschlagen, die angeben, was aus den Bildern ausgeschlossen ist, und ergaben neue Bildunterschriften mit Negationswörtern.
Sie mussten besonders vorsichtig sein, dass diese synthetischen Bildunterschriften immer noch auf natürliche Weise lesen, oder es könnte dazu führen, dass ein VLM in der realen Welt scheitert, wenn sie mit komplexeren Bildunterschriften konfrontiert werden, die von Menschen geschrieben wurden.
Sie stellten fest, dass die Finetuning -VLMs mit ihrem Datensatz zu Leistungsgewinnen auf der ganzen Linie führte. Es verbesserte die Picture-Abruffunktionen der Modelle um etwa 10 Prozent und steigern gleichzeitig die Leistung in der A number of-Alternative-Frage-Antwortaufgabe um etwa 30 Prozent.
„Aber unsere Lösung ist nicht perfekt. Wir rekaptionieren nur Datensätze, eine Type der Datenvergrößerung. Wir haben noch nicht einmal berührt, wie diese Modelle funktionieren, aber wir hoffen, dass dies ein Sign dafür ist, dass dies ein lösbares Downside ist und andere unsere Lösung nehmen und sie verbessern können“, sagt Alhamoud.
Gleichzeitig hofft er, dass ihre Arbeit mehr Benutzer dazu ermutigt, über das Downside nachzudenken, das sie mit einem VLM verwenden möchten, um einige Beispiele zu lösen und zu entwerfen, um es vor der Bereitstellung zu testen.
In Zukunft könnten die Forscher diese Arbeit erweitern, indem sie VLMs unterrichten, um Textual content und Bilder separat zu verarbeiten, was ihre Fähigkeit verbessern kann, die Negation zu verstehen. Darüber hinaus können sie zusätzliche Datensätze entwickeln, die Bildkapitionenpaare für bestimmte Anwendungen wie die Gesundheitsversorgung enthalten.