
MIT-Forscher haben bedeutende Beispiele für das Scheitern von Modellen des maschinellen Lernens identifiziert, wenn diese Modelle auf andere Daten angewendet werden als die, auf denen sie trainiert wurden. Dies wirft die Frage auf, ob jedes Mal, wenn ein Modell in einer neuen Umgebung eingesetzt wird, Checks erforderlich sind.
„Wir zeigen, dass selbst wenn Sie Modelle mit großen Datenmengen trainieren und das beste Durchschnittsmodell auswählen, dieses ‚beste Modell‘ in einer neuen Umgebung das schlechteste Modell für 6–75 Prozent der neuen Daten sein könnte“, sagt Marzyeh Ghassemi, außerordentlicher Professor am Division of Electrical Engineering and Pc Science (EECS) des MIT, Mitglied des Institute for Medical Engineering and Science und Hauptforscher am Laboratory for Info and Determination Techniques.
In einem Papier Das auf der Konferenz „Neural Info Processing Techniques“ (NeurIPS 2025) im Dezember vorgestellte Modell weist darauf hin, dass Modelle, die beispielsweise in einem Krankenhaus für die effektive Diagnose von Krankheiten in Röntgenaufnahmen des Brustkorbs trainiert wurden, im Durchschnitt in einem anderen Krankenhaus als effektiv angesehen werden können. Die Leistungsbewertung der Forscher ergab jedoch, dass einige der leistungsstärksten Modelle im ersten Krankenhaus bei bis zu 75 Prozent der Patienten im zweiten Krankenhaus die schlechtesten Ergebnisse erzielten, auch wenn bei der Zusammenfassung aller Patienten im zweiten Krankenhaus die hohe durchschnittliche Leistung diesen Fehler verbirgt.
Ihre Ergebnisse zeigen, dass zwar falsche Korrelationen – ein einfaches Beispiel dafür ist, wenn ein maschinelles Lernsystem, das nicht viele am Strand abgebildete Kühe „gesehen“ hat, ein Foto einer Strandkuh allein aufgrund ihres Hintergrunds als Orca klassifiziert – durch bloße Verbesserung der Modellleistung anhand beobachteter Daten gemildert werden soll, sie tatsächlich immer noch auftreten und ein Risiko für die Vertrauenswürdigkeit eines Modells in neuen Umgebungen darstellen. In vielen Fällen – einschließlich der von den Forschern untersuchten Bereiche wie Röntgenaufnahmen des Brustkorbs, Bilder der Krebshistopathologie und Erkennung von Hassreden – sind solche falschen Korrelationen viel schwieriger zu erkennen.
Im Fall eines medizinischen Diagnosemodells, das beispielsweise auf Röntgenaufnahmen des Brustkorbs trainiert wurde, hat das Modell möglicherweise gelernt, eine bestimmte und irrelevante Markierung auf den Röntgenbildern eines Krankenhauses mit einer bestimmten Pathologie zu korrelieren. In einem anderen Krankenhaus, in dem die Markierung nicht verwendet wird, könnte diese Pathologie übersehen werden.
Frühere Untersuchungen von Ghassemis Gruppe haben gezeigt, dass Modelle Faktoren wie Alter, Geschlecht und Rasse fälschlicherweise mit medizinischen Erkenntnissen korrelieren können. Wenn ein Modell beispielsweise auf Röntgenaufnahmen des Brustkorbs älterer Menschen mit Lungenentzündung trainiert wurde und nicht so viele Röntgenaufnahmen von jüngeren Menschen „gesehen“ hat, könnte es vorhersagen, dass nur ältere Patienten an einer Lungenentzündung leiden.
„Wir möchten, dass Modelle lernen, die anatomischen Merkmale des Patienten zu betrachten und dann darauf basierend eine Entscheidung zu treffen“, sagt Olawale Salaudeen, Postdoktorand am MIT und Hauptautor der Studie, „aber wirklich alles, was in den Daten enthalten ist und mit einer Entscheidung korreliert, kann vom Modell verwendet werden. Und diese Korrelationen sind möglicherweise nicht wirklich strong gegenüber Änderungen in der Umgebung, was die Modellvorhersagen zu unzuverlässigen Entscheidungsquellen macht.“
Falsche Korrelationen tragen zum Risiko einer voreingenommenen Entscheidungsfindung bei. Im NeurIPS-Konferenzbeitrag zeigten die Forscher, dass beispielsweise Thorax-Röntgenmodelle, die die Gesamtdiagnoseleistung verbesserten, bei Patienten mit Pleuraerkrankungen oder vergrößertem Kardiomediastinum, additionally einer Vergrößerung des Herzens oder der zentralen Brusthöhle, tatsächlich schlechter abschnitten.
Zu den weiteren Autoren des Papiers gehörten die Doktoranden Haoran Zhang und Kumail Alhamoud, die EECS-Assistenzprofessorin Sara Beery und Ghassemi.
Während frühere Arbeiten allgemein davon ausgingen, dass Modelle, die nach ihrer Leistung vom Besten zum Schlechtesten geordnet sind, diese Reihenfolge beibehalten, wenn sie in neuen Umgebungen angewendet werden, was als Präzision auf der Linie bezeichnet wird, konnten die Forscher Beispiele dafür aufzeigen, dass die Modelle mit der besten Leistung in einem Umfeld die Modelle mit der schlechtesten Leistung in einem anderen waren.
Salaudeen entwickelte einen Algorithmus namens OODSelect, um Beispiele zu finden, bei denen die Genauigkeit auf der Linie beeinträchtigt battle. Im Grunde trainierte er Tausende von Modellen mithilfe von In-Distribution-Daten, das heißt, die Daten stammten aus der ersten Einstellung, und berechnete deren Genauigkeit. Anschließend wandte er die Modelle auf die Daten aus der zweiten Einstellung an. Wenn diejenigen mit der höchsten Genauigkeit bei den Daten der ersten Einstellung falsch lagen, wenn sie auf einen großen Prozentsatz der Beispiele in der zweiten Einstellung angewendet wurden, wurden die problematischen Teilmengen oder Teilpopulationen identifiziert. Salaudeen betont auch die Gefahren aggregierter Statistiken zur Auswertung, die detailliertere und folgerichtige Informationen über die Modellleistung verschleiern können.
Im Laufe ihrer Arbeit haben die Forscher die „am meisten falsch berechneten Beispiele“ herausgesucht, um falsche Korrelationen innerhalb eines Datensatzes nicht mit Situationen zu vermischen, die einfach nur schwer zu klassifizieren sind.
Das NeurIPS-Papier gibt den Code der Forscher und einige identifizierte Teilmengen für zukünftige Arbeiten frei.
Sobald ein Krankenhaus oder eine Organisation, die maschinelles Lernen einsetzt, Teilmengen identifiziert, bei denen ein Modell eine schlechte Leistung erbringt, können diese Informationen verwendet werden, um das Modell für seine spezielle Aufgabe und Umgebung zu verbessern. Die Forscher empfehlen, dass zukünftige Arbeiten OODSelect übernehmen, um Ziele für die Bewertung hervorzuheben und Ansätze zur konsequenteren Leistungsverbesserung zu entwerfen.
„Wir hoffen, dass der veröffentlichte Code und die OODSelect-Teilmengen ein Sprungbrett werden“, schreiben die Forscher, „in Richtung Benchmarks und Modelle, die den negativen Auswirkungen von falschen Korrelationen entgegenwirken.“
