In heutigen Krankenhäusern und Kliniken kann ein Dermatologe ein Modell der künstlichen Intelligenz zur Klassifizierung von Hautläsionen verwenden, um zu beurteilen, ob bei der Läsion das Risiko besteht, dass sie sich zu Krebs entwickelt, oder ob sie gutartig ist. Wenn das Modell jedoch auf bestimmte Hauttöne ausgerichtet ist, kann es möglicherweise keinen Hochrisikopatienten identifizieren.

Eine der vielleicht bekanntesten und hartnäckigsten Herausforderungen, mit denen die KI-Forschung weiterhin konfrontiert ist, ist die Voreingenommenheit. Verzerrungen werden oft im Zusammenhang mit Trainingsdaten diskutiert, aber die Modellarchitektur kann auch Verzerrungen eindämmen und verstärken, was sich negativ auf die Modellleistung in realen Umgebungen auswirkt. In hochriskanten medizinischen Szenarien haben die sehr realen Folgen einer schlechten Leistung Voreingenommenheit zu einem wesentlichen Sicherheitsproblem gemacht.

Ein neues Papier von Forschern am MIT, dem Worcester Polytechnic Institute und Google, das zur Worldwide Convention for Studying Representations 2026 angenommen wurde, schlägt einen neuartigen Debiasing-Ansatz namens „Weighted Rotational DebiasING“ (d. h. WRING) vor, der auf Imaginative and prescient Language Fashions (VLMs) wie OpenCLIP von OpenAI angewendet werden kann.

VLMs sind multimodale Modelle, die verschiedene Datenmodalitäten wie Video, Bild und Textual content gleichzeitig verstehen und interpretieren können. Es gibt zwar Debiasing-Ansätze für VLMs, der am häufigsten verwendete Ansatz ist jedoch als „Projektionsdebiasing“ bekannt und führt zu dem, was als „Projection Debiasing“ bezeichnet wird „Whac-A-Mole-Dilemma“eine empirische Beobachtung, die 2023 offiziell in die KI-Forschung eingeführt wurde.

Projection Debiasing ist ein Nachbearbeitungsansatz, der die unerwünschten, verzerrten Informationen aus Modelleinbettungen entfernt, indem er den Unterraum aus einem Repräsentationsraum von Beziehungen „projiziert“ und so die Verzerrung beseitigt. Aber dieser Ansatz hat seine Nachteile.

„Wenn man das tut, zerquetscht man versehentlich alles drumherum“, sagt Walter Gerych, der Erstautor der Arbeit, der diese Forschung letztes Jahr als Postdoktorand am MIT durchgeführt hat. „Alle anderen Beziehungen, die das Modell lernt, ändern sich, wenn Sie das tun.“

Gerych, der jetzt Assistenzprofessor für Informatik am Worcester Polytechnic Institute ist, wird bei dem Artikel von den MIT-Absolventen Cassandra Mum or dad und Quinn Perian unterstützt; Rafiya Javed von Google; und MIT-Assoziationsprofessoren für Elektrotechnik Justin Solomon und Marzyeh Ghassemider ein Accomplice der ist Abdul Latif Jameel Klinik für maschinelles Lernen und Gesundheit und das Labor für Informations- und Entscheidungssysteme.

Während die Projektionsverzerrung das Modell daran hindert, auf die aus dem Unterraum projizierte Verzerrung zu reagieren, kann sie letztendlich zu einer Verstärkung und Schaffung anderer Verzerrungen führen, daher das Whac-A-Mole-Dilemma. Laut Ghassemi ist die unbeabsichtigte Verstärkung von Modellverzerrungen „sowohl eine technische als auch praktische Herausforderung. Wenn beispielsweise ein VLM, das Bilder von klinischem Private abruft, entzerrt wird – wenn rassistische Vorurteile entfernt werden –, könnte dies die unbeabsichtigte Folge einer Verstärkung geschlechtsspezifischer Vorurteile haben.“

WRING funktioniert, indem es bestimmte Koordinaten innerhalb des hochdimensionalen Raums eines Modells – diejenigen, die für die Verzerrung verantwortlich zu sein scheinen – in einen anderen Winkel verschiebt, sodass das Modell nicht mehr zwischen verschiedenen Gruppen innerhalb eines bestimmten Konzepts unterscheiden kann. Dadurch ändert sich die Darstellung innerhalb eines bestimmten Raums, während die anderen Beziehungen des Modells intakt bleiben. Und wie die Projektionsdebiasierung ist WRING ein Nachbearbeitungsansatz, was bedeutet, dass er „on the fly“ auf einen vorab trainierten VLM angewendet werden kann.

„Die Leute haben bereits eine Menge Ressourcen und viel Geld ausgegeben, um diese riesigen Modelle zu trainieren, und wir wollen nicht wirklich während des Trainings etwas ändern, weil man dann bei Null anfangen muss“, erklärt Gerych. „(WRING ist) sehr effizient. Es erfordert kein weiteres Coaching des Modells und ist minimalinvasiv.“

In ihren Ergebnissen stellten die Forscher fest, dass WRING die Voreingenommenheit für ein Zielkonzept deutlich reduzierte, ohne die Voreingenommenheit in anderen Bereichen zu erhöhen. Derzeit ist der Ansatz jedoch etwas auf CLIP-Modelle (Contrastive Language-Picture Pre-Coaching) beschränkt, eine Artwork VLM, das Bilder zur Suche oder Klassifizierung mit Sprache verknüpft.

„Die Ausweitung auf generative Sprachmodelle im ChatGPT-Stil ist für uns der vernünftige nächste Schritt“, sagt Gerych.

Diese Arbeit wurde teilweise durch einen CAREER Award der Nationwide Science Basis, einen AI2050 Award Early Profession Fellowship, einen Sloan Analysis Fellow Award, den Gordon and Betty Moore Basis Award und den MIT-Google Computing Innovation Award unterstützt.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert