Forscher der Bielefeld College und der Purdue College haben veröffentlicht Großsprachenmodelle simulieren keine menschliche Psychologiepräsentieren konzeptionelle und empirische Beweise dafür, dass Großsprachenmodelle (LLMs) nicht als konsistente Simulatoren menschlicher psychologischer Reaktionen behandelt werden können (Schröder et al. 2025).
Hintergrund und Umfang
Seit 2018 wurden LLMs wie GPT-3.5, GPT-4 und LLAMA-3.1 auf Aufgaben von der Schaffung von Inhalten bis zur Bildung angewendet (Schröder et al. 2025). Einige Forscher haben vorgeschlagen, dass LLMs menschliche Teilnehmer an psychologischen Studien ersetzen könnten, indem sie auf Aufforderungen reagieren, die eine Persona beschreiben, einen Reiz darstellen und einen Fragebogen liefern (Almeida et al. 2024; Kwok et al. 2024). Das Centaur -Modell, das von Binz et al. (2025) wurde ungefähr fein abgestimmt 10 Millionen menschliche Reaktionen aus 160 Experimente in solchen Einstellungen menschliche Antworten zu generieren (Binz et al. 2025).
Frühere Arbeiten fanden eine hohe Ausrichtung zwischen LLM und menschlichen moralischen Urteilen. Zum Beispiel haben Dillion et al. (2023) berichteten über eine Korrelation von 0,95 zwischen GPT-3,5-Bewertungen und menschlichen Bewertungen über 464 Moralische Szenarien. Comply with-up-Studien mit GPT-4O schlugen vor, dass ein moralisches Denken als vertrauenswürdiger und korrekter beurteilt wurde als menschliche oder fachkundige Ethikerreaktionen (Dillion et al. 2025). Spezialisierte Modelle wie Delphi, die auf Crowdsourcing-moralischen Urteilen ausgebildet wurden, übertrafen auch die allgemeinen LLMs bei moralischen Argumentationsaufgaben (Jiang et al. 2025).
Konzeptionelle Kritik
Die Autoren fassen mehrere Kritikpunkte der Behandlung von LLMs als Simulatoren der menschlichen Psychologie zusammen. Erstens reagieren LLMs häufig inkonsistent auf Anweisungen, wobei die Ausgangsqualität in hohem Maße von schnellen Particulars und Framing abhängt (Zhu et al. 2024; Wang et al. 2025). Zweitens variieren die Ergebnisse hinsichtlich Modelltypen und -Conphrasionen derselben Eingabeaufforderung (MA 2024). Drittens, während LLMs die durchschnittlichen menschlichen Reaktionen annähern, reproduzieren sie nicht die volle Varianz der menschlichen Meinungen, einschließlich der kulturellen Vielfalt (Rime 2025; Kwok et al. 2024).
Voreingenommenheit ist ein weiteres Downside. LLMs erben kulturelle, geschlechtsspezifische, berufliche und sozioökonomische Verzerrungen aus Trainingsdaten, die sich systematisch von menschlichen Verzerrungen unterscheiden können (Rossi et al. 2024). Sie produzieren auch „Halluzinationen“ – sachlich inkorrekter oder fiktiver Inhalt – ohne einen internen Mechanismus, um die Wahrheit zu unterscheiden (Huang et al. 2025; Reddy et al. 2024).
Theoretische Arbeit unterstützt diese Kritik. Van Rooij et al. (2024) mathematisch zeigten, dass kein Rechenmodell, das ausschließlich auf Beobachtungsdaten geschult wurde, die menschlichen Antworten über alle Eingaben übereinstimmen. Aus Sicht des maschinellen Lernens argumentieren die Autoren, dass die LLM -Generalisierung auf Token -Sequenzen beschränkt ist, die den Trainingsdaten ähneln, nicht auf neuartige Eingaben mit unterschiedlichen Bedeutungen. Dies ist kritisch, da die Verwendung von LLMs als simulierte Teilnehmer die Verallgemeinerung von neuen experimentellen Setups erfordert.
Empirische Exams mit moralischen Szenarien
Das Staff testete seine Argumentation mithilfe 30 Moralische Szenarien von Dillion et al. (2023) mit menschlichen Bewertungen aus früheren Studien (Clifford et al. 2015; Prepare dinner und Kuhn 2021; Effron 2022; Grizzard et al. 2021; Mickelberg et al. 2022). Jedes Szenario wurde in seinem ursprünglichen Wortlaut und in einer leicht umformierten Model mit veränderter Bedeutung, aber ähnlichen Token -Sequenzen dargestellt. Zum Beispiel wurde „Schneiden Sie den Bart von einem örtlichen Ältesten, um ihn zu beschämen“, „schneiden Sie den Bart von einem örtlichen Ältesten, um ihn zu rasieren“ (Schröder et al. 2025).
Menschliche Teilnehmer (N = 374Magier =39,54SD =12.53) wurden durch produktive Rekrutierung rekrutiert und zufällig den originalen oder umformulierten Bedingungen zugeordnet. Sie bewerteten jedes Verhalten auf einer Skala von -4 (äußerst unethisch) bis +4 (äußerst ethisch). Die LLM-Bewertungen wurden aus GPT-3,5, GPT-4 (Mini), Lama-3.1 70b und Centaur erhalten, wobei jede Abfrage wiederholt wurde 10 Zeiten, um zufällige Variationen zu berücksichtigen (Schröder et al. 2025).
Ergebnisse
Für Originalelemente replizierten Korrelationen zwischen menschlichen und LLM-Bewertungen vorherige Ergebnisse 0,89 Mit menschlichen Bewertungen, während Lama-3,1 und Centaur ebenfalls eine hohe Ausrichtung zeigten (R ≥ 0,80) (Schröder et al. 2025). Für neu formulierte Elemente sank jedoch die menschlichen Bewertungen in Korrelation zu 0,54 mit ihren ursprünglichen Bewertungen, die Sensiti widerspiegeln
