Im Jahr 1994 entdeckte die Schmuckdesignerin Diana Duyser aus Florida das Bildnis der Jungfrau Maria in einem gegrillten Käsesandwich, das sie konservierte und später für 28.000 US-Greenback versteigerte. Aber wie viel verstehen wir wirklich über Pareidolie, das Phänomen, Gesichter und Muster in Objekten zu sehen, obwohl sie nicht wirklich vorhanden sind?
Ein neues Studie vom MIT Laptop Science and Synthetic Intelligence Laboratory (CSAIL) befasst sich mit diesem Phänomen und stellt einen umfangreichen, von Menschen beschrifteten Datensatz von 5.000 Pareidolic-Bildern vor, der frühere Sammlungen bei weitem übertrifft. Anhand dieses Datensatzes entdeckte das Group mehrere überraschende Ergebnisse über die Unterschiede zwischen menschlicher und maschineller Wahrnehmung und darüber, wie die Fähigkeit, Gesichter in einer Toastscheibe zu sehen, das Leben entfernter Verwandter gerettet haben könnte.
„Gesichtspareidolie fasziniert Psychologen seit langem, aber in der Laptop-Imaginative and prescient-Neighborhood ist sie weitgehend unerforscht“, sagt Mark Hamilton, MIT-Doktorand in Elektrotechnik und Informatik, CSAIL-Accomplice und leitender Forscher der Arbeit. „Wir wollten eine Ressource schaffen, die uns helfen könnte zu verstehen, wie sowohl Menschen als auch KI-Systeme diese illusorischen Gesichter verarbeiten.“
Was verrieten all diese falschen Gesichter? Zum einen scheinen KI-Modelle pareidolische Gesichter nicht so zu erkennen wie wir. Überraschenderweise stellte das Group fest, dass es erst durch das Coaching von Algorithmen zur Erkennung von Tiergesichtern deutlich besser bei der Erkennung pareidolischer Gesichter wurde. Dieser unerwartete Zusammenhang deutet auf einen möglichen evolutionären Zusammenhang zwischen unserer überlebenswichtigen Fähigkeit, Tiergesichter zu erkennen, und unserer Tendenz, Gesichter in unbelebten Objekten zu sehen, hin. „Ein Ergebnis wie dieses scheint darauf hinzudeuten, dass Pareidolie möglicherweise nicht auf menschlichem Sozialverhalten beruht, sondern auf etwas Tieferem: etwa dem schnellen Erkennen eines lauernden Tigers oder dem Erkennen, in welche Richtung ein Hirsch schaut, damit unsere Urvorfahren jagen konnten“, sagt Hamilton.
Eine weitere faszinierende Entdeckung ist das, was die Forscher die „Goldlöckchen-Zone der Pareidolie“ nennen, eine Klasse von Bildern, in denen Pareidolie am wahrscheinlichsten auftritt. „Es gibt einen bestimmten Bereich visueller Komplexität, in dem sowohl Menschen als auch Maschinen am wahrscheinlichsten Gesichter in Nicht-Gesichtsobjekten wahrnehmen“, sagt William T. Freeman, MIT-Professor für Elektrotechnik und Informatik und Hauptforscher des Projekts. „Zu einfach und es gibt nicht genug Particulars, um ein Gesicht zu formen. Zu komplex, und es wird zu visuellem Rauschen.“
Um dies aufzudecken, entwickelte das Group eine Gleichung, die modelliert, wie Menschen und Algorithmen illusorische Gesichter erkennen. Bei der Analyse dieser Gleichung fanden sie einen klaren „pareidolischen Höhepunkt“, bei dem die Wahrscheinlichkeit, Gesichter zu sehen, am höchsten ist, was Bildern entspricht, die „genau das richtige Maß“ an Komplexität aufweisen. Diese vorhergesagte „Goldlöckchen-Zone“ wurde dann in Exams sowohl mit echten menschlichen Probanden als auch mit KI-Gesichtserkennungssystemen validiert.
Dieser neue Datensatz: „Gesichter in Dingen„stellt die Ergebnisse früherer Studien in den Schatten, in denen typischerweise nur 20–30 Reize verwendet wurden. Diese Skala ermöglichte es den Forschern zu untersuchen, wie sich modernste Gesichtserkennungsalgorithmen nach der Feinabstimmung auf pareidolische Gesichter verhielten, und zeigte, dass diese Algorithmen nicht nur bearbeitet werden konnten, um diese Gesichter zu erkennen, sondern dass sie auch als Silizium fungieren konnten Stellvertretend für unser eigenes Gehirn und ermöglicht es dem Group, Fragen zu den Ursprüngen der pareidolischen Gesichtserkennung zu stellen und zu beantworten, die beim Menschen unmöglich zu stellen sind.
Um diesen Datensatz zu erstellen, kuratierte das Group etwa 20.000 Kandidatenbilder aus dem LAION-5B-Datensatz, die dann von menschlichen Annotatoren sorgfältig beschriftet und beurteilt wurden. Dieser Prozess beinhaltete das Zeichnen von Begrenzungsrahmen um wahrgenommene Gesichter und die Beantwortung detaillierter Fragen zu jedem Gesicht, wie zum Beispiel der wahrgenommenen Emotion, dem Alter und ob das Gesicht zufällig oder absichtlich struggle. „Tausende Bilder zu sammeln und zu kommentieren struggle eine gewaltige Aufgabe“, sagt Hamilton. „Ein Großteil des Datensatzes verdankt seine Entstehung meiner Mutter“, einer Bankerin im Ruhestand, „die unzählige Stunden damit verbracht hat, Bilder für unsere Analyse liebevoll zu beschriften.“
Die Studie hat auch potenzielle Anwendungsmöglichkeiten bei der Verbesserung von Gesichtserkennungssystemen durch die Reduzierung falsch positiver Ergebnisse, was Auswirkungen auf Bereiche wie selbstfahrende Autos, Mensch-Laptop-Interaktion und Robotik haben könnte. Der Datensatz und die Modelle könnten auch Bereichen wie dem Produktdesign helfen, wo das Verständnis und die Kontrolle von Pareidolie bessere Produkte hervorbringen könnten. „Stellen Sie sich vor, Sie könnten das Design eines Autos oder eines Kinderspielzeugs automatisch optimieren, damit es freundlicher aussieht, oder sicherstellen, dass ein medizinisches Gerät nicht versehentlich bedrohlich wirkt“, sagt Hamilton.
„Es ist faszinierend, wie Menschen instinktiv unbelebte Objekte mit menschenähnlichen Merkmalen interpretieren. Wenn Sie zum Beispiel einen Blick auf eine Steckdose werfen, können Sie sich sofort vorstellen, wie sie singt, und Sie können sich sogar vorstellen, wie sie „ihre Lippen bewegt“. Allerdings erkennen Algorithmen diese Cartoon-Gesichter von Natur aus nicht auf die gleiche Weise wie wir“, sagt Hamilton. „Das wirft interessante Fragen auf: Was erklärt diesen Unterschied zwischen menschlicher Wahrnehmung und algorithmischer Interpretation? Ist Pareidolie vorteilhaft oder schädlich? Warum erleben Algorithmen diesen Effekt nicht so wie wir? Diese Fragen waren der Auslöser für unsere Untersuchung, da dieses klassische psychologische Phänomen beim Menschen noch nicht gründlich in Algorithmen untersucht wurde.“
Während sich die Forscher darauf vorbereiten, ihren Datensatz mit der wissenschaftlichen Gemeinschaft zu teilen, blicken sie bereits nach vorne. Zukünftige Arbeiten könnten darin bestehen, visuelle Sprachmodelle zu trainieren, um pareidische Gesichter zu verstehen und zu beschreiben, was möglicherweise zu KI-Systemen führen kann, die mit visuellen Reizen auf menschlichere Weise umgehen können.
„Das ist ein entzückender Aufsatz! Es macht Spaß zu lesen und regt mich zum Nachdenken an. Hamilton et al. Stellen Sie eine spannende Frage: Warum sehen wir Gesichter in Dingen?“ sagt Pietro Perona, Allen E. Puckett Professor für Elektrotechnik am Caltech, der nicht an der Arbeit beteiligt struggle. „Sie betonen, dass das Lernen aus Beispielen, einschließlich Tiergesichtern, nur zur Hälfte zur Erklärung des Phänomens beiträgt.“ Ich wette, dass uns das Nachdenken über diese Frage etwas Wichtiges darüber lehren wird, wie sich unser visuelles System über die Schulung hinaus, die es im Laufe des Lebens erhält, verallgemeinert.“
Zu den Co-Autoren von Hamilton und Freeman gehören Simon Stent, wissenschaftlicher Mitarbeiter am Toyota Analysis Institute; Ruth Rosenholtz, leitende Forschungswissenschaftlerin in der Abteilung für Gehirn- und Kognitionswissenschaften, NVIDIA-Forschungswissenschaftlerin und ehemaliges CSAIL-Mitglied; und CSAIL-Accomplice Postdoc Vasha DuTell, Anne Harrington MEng ’23 und Forschungswissenschaftlerin Jennifer Corbett. Ihre Arbeit wurde teilweise von der Nationwide Science Basis und dem CSAIL MEnTorEd Alternatives in Analysis (METEOR) Fellowship unterstützt, während sie vom United States Air Drive Analysis Laboratory und dem United States Air Drive Synthetic Intelligence Accelerator gesponsert wurde. Das MIT SuperCloud und das Lincoln Laboratory Supercomputing Middle stellten HPC-Ressourcen für die Ergebnisse der Forscher zur Verfügung.
Diese Arbeit wird diese Woche auf der European Convention on Laptop Imaginative and prescient vorgestellt.