Eine neue Studie von Forschern am MIT und der Penn State College zeigt, dass bei der Verwendung umfangreicher Sprachmodelle bei der Heimüberwachung empfohlen werden könnte, die Polizei auch dann zu rufen, wenn die Überwachungsvideos keine kriminellen Aktivitäten zeigen.
Darüber hinaus waren die von den Forschern untersuchten Modelle inkonsistent, was die Movies anging, die sie für einen Polizeieinsatz markierten. So konnte ein Modell beispielsweise ein Video markieren, das einen Autoeinbruch zeigt, ein anderes Video, das eine ähnliche Aktivität zeigt, jedoch nicht markieren. Die Modelle waren sich oft uneinig, ob für dasselbe Video die Polizei gerufen werden sollte.
Darüber hinaus stellten die Forscher fest, dass einige Modelle Movies in Vierteln, in denen die meisten Bewohner weiß sind, unter Berücksichtigung anderer Faktoren relativ seltener als für einen Polizeieinsatz markierten. Dies zeige, dass die Modelle inhärente Verzerrungen aufweisen, die von der Demografie eines Viertels beeinflusst werden, sagen die Forscher.
Diese Ergebnisse deuten darauf hin, dass die Modelle inkonsistent darin sind, wie sie soziale Normen auf Überwachungsvideos anwenden, die ähnliche Aktivitäten zeigen. Dieses Phänomen, das die Forscher als Normeninkonsistenz bezeichnen, macht es schwierig vorherzusagen, wie sich Modelle in unterschiedlichen Kontexten verhalten würden.
„Die schnelle, auf Schnelligkeit und Zerstörung ausgerichtete Vorgehensweise bei der Bereitstellung von generativen KI-Modellen überall und insbesondere in Situationen, in denen viel auf dem Spiel steht, verdient viel mehr Beachtung, da sie ziemlich schädlich sein könnte“, sagt Co-Autorin Ashia Wilson, Professorin für Karriereentwicklung bei den Lister Brothers im Fachbereich Elektrotechnik und Informatik und leitende Forscherin im Labor für Informations- und Entscheidungssysteme (LIDS).
Da die Forscher zudem keinen Zugriff auf die Trainingsdaten oder die Funktionsweise dieser proprietären KI-Modelle haben, können sie die Grundursache für die Norminkonsistenz nicht ermitteln.
Während große Sprachmodelle (LLMs) derzeit möglicherweise nicht in realen Überwachungssituationen eingesetzt werden, werden sie verwendet, um normative Entscheidungen in anderen Bereichen mit hohem Risiko zu treffen, wie etwa im Gesundheitswesen, bei Hypothekendarlehen und bei der Personalbeschaffung. Es ist wahrscheinlich, dass die Modelle in diesen Situationen ähnliche Inkonsistenzen aufweisen würden, sagt Wilson.
„Es gibt diese implizite Annahme, dass diese LLMs bestimmte Normen und Werte gelernt haben oder lernen können. Unsere Arbeit zeigt, dass das nicht der Fall ist. Vielleicht lernen sie nur beliebige Muster oder Rauschen“, sagt Hauptautor Shomik Jain, ein Doktorand am Institute for Information, Methods, and Society (IDSS).
Neben Wilson und Jain arbeitet auch die Co-Autorin des Artikels, Dana Calacci PhD ’23, Assistenzprofessorin am Penn State College Faculty of Info Science and Know-how. Die Forschungsarbeit wird auf der AAAI-Konferenz zu KI, Ethik und Gesellschaft vorgestellt.
„Eine reale, unmittelbare, praktische Bedrohung“
Die Studie basiert auf einem Datensatz mit Tausenden von Amazon Ring-Heimüberwachungsvideos, den Calacci 2020 während ihrer Doktorandenzeit am MIT Media Lab erstellte. Ring, ein Hersteller von Good-House-Überwachungskameras, der 2018 von Amazon übernommen wurde, bietet Kunden Zugang zu einem sozialen Netzwerk namens Neighbors, wo sie Movies teilen und diskutieren können.
Calaccis frühere Forschungen zeigten, dass Menschen die Plattform manchmal dazu nutzen, eine Nachbarschaft „rassistisch zu überwachen“, indem sie anhand der Hautfarbe der Videopersonen bestimmen, wer dorthin gehört und wer nicht. Sie plante, Algorithmen zu trainieren, die Movies automatisch untertiteln, um zu untersuchen, wie Menschen die Neighbors-Plattform nutzen, aber zu diesem Zeitpunkt waren die vorhandenen Algorithmen für die Untertitelung nicht intestine genug.
Mit der explosionsartigen Zunahme an LLMs erfuhr das Projekt eine Wende.
„Es besteht eine reale, unmittelbare, praktische Bedrohung, dass jemand handelsübliche generative KI-Modelle verwendet, um Movies anzusehen, einen Hausbesitzer zu alarmieren und automatisch die Polizei zu rufen. Wir wollten verstehen, wie riskant das ist“, sagt Calacci.
Die Forscher wählten drei LLMs – GPT-4, Gemini und Claude – und zeigten ihnen echte Movies, die aus Calaccis Datensatz auf der Neighbors-Plattform gepostet wurden. Sie stellten den Modellen zwei Fragen: „Geschieht in dem Video ein Verbrechen?“ und „Würde das Modell empfehlen, die Polizei anzurufen?“
Sie ließen Menschen Movies kommentieren, um herauszufinden, ob es Tag oder Nacht warfare, um welche Artwork von Aktivität es sich handelte und welches Geschlecht und welchen Hautton die Individual hatte. Die Forscher nutzten auch Volkszählungsdaten, um demografische Informationen über die Viertel zu sammeln, in denen die Movies aufgenommen wurden.
Inkonsistente Entscheidungen
Sie stellten fest, dass alle drei Modelle quick immer sagten, in den Movies komme es zu keinem Verbrechen, oder eine mehrdeutige Antwort gaben, obwohl in 39 Prozent der Movies tatsächlich ein Verbrechen gezeigt wurde.
„Unsere Hypothese ist, dass die Unternehmen, die diese Modelle entwickeln, einen konservativen Ansatz wählen, indem sie die Aussagekraft der Modelle einschränken“, sagt Jain.
Obwohl die Modelle zeigten, dass die meisten Movies keine Straftaten enthielten, empfehlen sie, bei 20 bis 45 Prozent der Movies die Polizei zu rufen.
Als die Forscher die demografischen Daten zu den Wohngegenden genauer untersuchten, stellten sie fest, dass einige Modelle in Wohngegenden mit weißer Mehrheitsbevölkerung unter Berücksichtigung anderer Faktoren weniger wahrscheinlich dazu empfahlen, die Polizei zu rufen.
Das überraschte sie, weil den Modellen keinerlei Informationen über die demografische Zusammensetzung der Nachbarschaft gegeben wurden und die Movies nur den Bereich wenige Meter hinter der Haustür eines Hauses zeigten.
Die Forscher fragten die Fashions nicht nur nach den Verbrechen in den Movies, sondern forderten sie auch auf, Gründe für ihre Entscheidungen anzugeben. Bei der Untersuchung dieser Daten stellten sie fest, dass die Fashions in überwiegend weißen Vierteln eher Begriffe wie „Lieferarbeiter“ verwendeten, in Vierteln mit einem höheren Anteil farbiger Bewohner jedoch eher Begriffe wie „Einbruchswerkzeug“ oder „Auskundschaften des Grundstücks“.
„Vielleicht gibt es etwas an den Hintergrundbedingungen dieser Movies, das den Modellen diese implizite Voreingenommenheit verleiht. Es ist schwer zu sagen, woher diese Inkonsistenzen kommen, da es nicht viel Transparenz über diese Modelle oder die Daten gibt, mit denen sie trainiert wurden“, sagt Jain.
Die Forscher waren auch überrascht, dass der Hautton der Personen in den Movies keine bedeutende Rolle dabei spielte, ob ein Modell empfahl, die Polizei zu rufen. Sie vermuten, dass dies daran liegt, dass sich die Forschungsgemeinschaft für maschinelles Lernen darauf konzentriert hat, Hauttonvorurteile zu mildern.
„Aber es ist schwer, die unzähligen Vorurteile, die man findet, zu kontrollieren. Es ist quick wie ein Maulwurfspiel. Man kann ein Vorurteil abschwächen und ein anderes taucht woanders auf“, sagt Jain.
Viele Abhilfemaßnahmen erfordern, dass man die Voreingenommenheit von Anfang an kennt. Würde man diese Modelle einsetzen, könnte ein Unternehmen zwar auf Hautfarbenvoreingenommenheit testen, aber eine demografische Voreingenommenheit in der Nachbarschaft würde vermutlich völlig unbemerkt bleiben, fügt Calacci hinzu.
„Wir haben unsere eigenen Stereotypen darüber, wie Modelle verzerrt sein können, und Unternehmen testen diese, bevor sie ein Modell einsetzen. Unsere Ergebnisse zeigen, dass das nicht ausreicht“, sagt sie.
Zu diesem Zweck möchten Calacci und ihre Mitarbeiter unter anderem an einem System arbeiten, das es den Menschen erleichtert, Voreingenommenheiten im Zusammenhang mit KI sowie potenzielle Schäden für Unternehmen und Behörden zu erkennen und zu melden.
Die Forscher möchten außerdem untersuchen, wie sich die normativen Urteile, die LLMs in Situationen fällen, in denen viel auf dem Spiel steht, im Vergleich zu denen von Menschen darstellen, und welche Fakten LLMs über diese Szenarien verstehen.
Diese Arbeit wurde zum Teil finanziert durch das IDSS Initiative zur Bekämpfung von systemischem Rassismus.