Sie bitten einen LLM, 6.000 amerikanische Haushalte zu simulieren, die Fragen zur Inflation beantworten? Aktuelle Arbeiten kommen zu dem Schluss, dass große Sprachmodelle die durchschnittlichen Antworten großer Haushaltsumfragen bis auf einen Prozentpunkt genau reproduzieren können (Zarifhonarvar, 2026). Im Jahr 2020 meldete der Survey of Shopper Expectations (SCE) eine durchschnittliche Inflationsrate für ein Jahr von etwa 3 %. Der Median, der durch ein geführtes LLM mit realistischen Personas und einer Wissensabgrenzungsanweisung ermittelt wurde: ebenfalls etwa 3 %. Nahe genug, dass LLMs als kostengünstige, hochfrequente Ergänzung zu den Umfragen von SCE, Michigan und Survey of Skilled Forecasters angepriesen wurden.
In einem aktuellen Artikel heißt es: Können LLMs Haushaltsbefragungen nachahmen?gemeinsam mit Ami Dalloul von der Universität Duisburg-Essen verfasst, betrachten wir den zweiten Second, den Teil einer Wahrscheinlichkeitsverteilung, der Ihnen sagt, ob das Modell eine oder tausend Meinungen repräsentiert. Hier schwindet der scheinbare Erfolg LLM-basierter Umfragen. Das gleiche Llama-3-Modell, das den SCE-Median auf einen Prozentpunkt genau trifft, ordnet 95 % der simulierten Befragten innerhalb eines Zwei-Prozentpunkt-Fensters ein. Die tatsächlichen SCE-Antworten für 2020 liegen zwischen etwa minus 25 und plus 27 Prozent. Kurz gesagt, der Durchschnitt stimmt, aber die Bevölkerung dahinter existiert nicht. Das Ausführen einer Simulation mit mehreren tausend LLM-Personas läuft additionally auf einen repräsentativen Agenten hinaus.
Abbildung 1: Streuung realer und synthetischer Umfragepopulationen

Notiz: Das linke Feld stellt die Streuung der einzelnen SCE-Befragten 2020 um ihren Mittelwert dar. Die diffuse Strahlung spiegelt heterogene Überzeugungen der Befragten wider. Das mittlere Panel wendet die gleiche Konstruktion auf synthetische Antworten aus einem Llama-3.1-8B-Instruct-Modell an, die mit Personas abgefragt werden, die der demografischen Verteilung des SCE entsprechen. Die Streuung kollabiert auf einen Nahpunkt. Das Modell stellt den Mittelwert wieder her und verwirft alles andere. Das rechte Feld verwendet dasselbe Lama-Modell, das mit Gradient Ascent (GA) verlernt wurde. Das ungelernte Modell erreicht eine realistischere Streuung und kollabiert nicht um den Modus herum.
Moduszusammenbruch
Wir haben fünf LLMs (Llama-3-8B, Llama-3-70B, Claude-3.7-Sonnet, DeepSeek-V3, GPT-4o) mit dem SCE, der Michigan Survey und der Survey of Skilled Forecasters verglichen. In den menschlichen Umfragen geben 44 bis 70 % der Befragten Antworten, die mehr als 3 Prozentpunkte von der modalen Antwort entfernt sind; In den LLM-Stichproben beträgt dieser Anteil praktisch Null.
Die Standardlösungen aus der Umfrage-Simulationsliteratur verbessern dieses Drawback nicht. Von der Volkszählung abgeleitete Personas mit komplexen und unterschiedlichen Merkmalen, Zero-Shot-Anweisungen zum Wissensabbruch („Sie wissen nichts über Ereignisse nach Juni 2018“) und explizite Aufforderungen zum „Schauen Sie nicht nach Statistiken“ weisen alle standardmäßig dieselbe enge Verteilung auf. Die wahrscheinliche Ursache liegt darin, dass die LLMs CPI-Tabellen, Berichterstattung über FRBNY-Umfrageveröffentlichungen und akademische Replikationen in ihren Schulungskorpora sehen. Auf die Frage nach der mittleren Inflationserwartung für 2020 führt das Modell einen Abruf anhand gespeicherter Daten durch. Das Gewicht dieser Trainingsdaten überwältigt alles, was die sofortigen Anweisungen von ihm verlangen.
Die LLMs verlernen
Wenn gespeicherte Statistiken das Drawback sind, besteht eine mögliche Lösung darin, sie aus den Gewichten zu entfernen, anstatt das Modell aufzufordern, wegzuschauen. Wir haben zwei Verlernmethoden auf Llama-3.1-8B-Instruct angewendet, ein Open-Supply-Modell, das es uns ermöglicht, seine Gewichte zu ändern:
- Gradientenaufstieg (GA) Maximiert den Vorhersageverlust bei einem vergessenen Satz von CPI-Reihen und Umfrageaggregaten mit einem Beibehaltungsverlust bei der Begründung von Mikroumfragen, sodass die allgemeine Fähigkeit erhalten bleibt.
- Destructive Präferenzoptimierung (NPO) behandelt die Vergessensmenge als nicht bevorzugte Vervollständigungen und minimiert einen begrenzten Präferenzverlust gegenüber einem Referenzmodell.
Bei den Daten, die das Modell vergessen soll, handelt es sich um die offiziellen Inflationsdaten selbst: monatliche CPI-Reihen und veröffentlichte mittlere Inflationserwartungen aus den FRBNY SCE- und Michigan-Umfragen. Der Verlerneffekt auf die Antwortverteilung ist in Tabelle 1 aufgeführt.
Tabelle 1 Schwanzgenauigkeit mit verschiedenen Verlernstrategien

Notiz: Verlernen von Strategien zur Milderung des Moduskollapses. Gradient Ascent (GA) ist eine gezielte Verlernmethode, bei der das Modell so abgestimmt wird, dass der Verlust bei einem Datensatz offizieller CPI-Statistiken maximiert und gleichzeitig der Verlust (RT) bei einem Datensatz mit Mikroumfragedaten minimiert wird. Destructive Präferenzoptimierung (NPO) behandelt amtliche Statistiken als unfavourable Stichproben, um deren Generierung zu bestrafen, während beibehaltene (RT) Stichproben als positiv behandelt werden. Synthetische Umfrageantworten zu Inflationserwartungen als prozentuale Abweichungen vom Modus und Mittelwert (in Klammern) innerhalb von Klassen mit genauen Übereinstimmungen, Abweichungen von ± 1 und > 3 %. Tail Acc. misst die Nähe zum FRBNY-Tail-Dispersions-Benchmark (> ± 3,0 = 44,38).
Das Basismodell Llama-3 (das auf Eingabeaufforderungen basierendes Verlernen beinhaltet) erzeugt bei 92 % der Antworten eine exakte Modusübereinstimmung und bei mehr als 3 Punkten Entfernung keine Antworten. Die Heckgenauigkeit gegenüber dem SCE-Benchmark von 44 % ist daher Null. Nach GA sinken die exakten Übereinstimmungen auf 24 %, und 43 % der Antworten liegen über ±3pp; Die Schwanzgenauigkeit erreicht 97 %. NPO ist mit 37 % und 43 % vergleichbar, mit einer Tail-Genauigkeit von 98 %. Mit anderen Worten: Beide Verlernmethoden scheinen eine realistischere Verteilung wiederherzustellen.
Abbildung 2 Streuung von LLMs vs. Verlernmodellen

Notiz: Auf der linken Seite sind Kerndichteschätzungen der Inflationserwartungen für 2020 aus dem FRBNY SCE und zwei Llama-3-Varianten dargestellt, die mit Verlernmethoden, Gradient Ascent (GA) und negativer Präferenzoptimierung (NPO) trainiert wurden. Beide Verlernvarianten decken den Bereich ab, in dem FRBNY SCE die Wahrscheinlichkeitsmasse platziert, obwohl sie immer noch konzentrierter als der menschliche Benchmark bleiben und leicht auf höhere Mittelwerte ausgerichtet sind. Auf der rechten Seite werden die KDEs der durch LLM generierten Erwartungen (GPT-4o, Llama-3 usw.) mit FRBNY SCE im Jahr 2020 verglichen. Die LLM-Kurven (linke Achse) sind eng um einen schmalen Bereich gruppiert, während die FRBNY SCE-Kurve viel breiter bleibt. Die LLMs können der zentralen Tendenz entsprechen, schaffen es jedoch nicht, die Querschnittsverteilung der Umfrage-Mikrodaten zu reproduzieren. Bandbreite = 0,5 für alle KDEs.
Die Kerndichten (Abbildung 2) zeigen, dass Standardmodelle die Wahrscheinlichkeitsmasse in einer dünnen Spitze nahe dem Mittelwert anhäufen. Die ungelernten Varianten verbreiten sich massenhaft über den Bereich, den die menschlichen Befragten des SCE angegeben haben.
Simulation einer randomisierten kontrollierten Studie
Eine breitere Verbreitung ist notwendig, aber nicht ausreichend für die Anwendung, die unsere Arbeit motiviert hat: die Replikation von Umfrage-RCTs mit synthetischen Versionen. RCTs sind teuer. Nach Abschluss der Datenerhebung kann ein Forscher nicht mehr eine später entstandene Theorie testen oder eine Behandlung ändern. Synthetische Agenten würden uns genau das ermöglichen, wenn ihr Verhalten mit dem Verhalten echter Befragter übereinstimmt.
Um dies zu testen, replizieren wir eine reale RCT von Coibion, Gorodnichenko und Weber (2022). Die Befragten werden nach dem Zufallsprinzip einer von mehreren Gruppen zugeordnet: Eine Kontrollgruppe sieht keine Informationen, mehrere Behandlungsgruppen erhalten jeweils unterschiedliche wirtschaftliche Informationen (die tatsächliche vergangene Inflationsrate, das 2 %-Ziel der Fed usw.) und einer Placebogruppe werden Inhalte angezeigt, die nichts mit der Inflation zu tun haben. Alle Befragten melden zunächst eine frühere Inflationserwartung, schauen sich dann an, was ihrer Gruppe zugeordnet ist, und melden dann eine neue spätere Inflationserwartung. Der Unterschied zwischen Posterior und Prior liegt in der Revision des Befragten.
Eine Behandlung funktioniert, wenn ihre Revisionen sichtbar von denen der Kontrollgruppe abweichen und wenn die Richtung der Verschiebung mit den Erwartungen der Wirtschaftstheorie übereinstimmt: Abwärtsrevisionen aufgrund der FOMC-Kommunikation, Aufwärtsrevisionen aufgrund von Nachrichten über höhere Benzinpreise. Bei unseren synthetischen Wirkstoffen wird überprüft, ob sich ihre Revisionen auf die gleiche Weise trennen wie die menschlichen Befragten.
Wir haben 30.000 synthetische Personas mit aus der Volkszählung abgeleiteten demografischen Daten erstellt und den durchschnittlichen Behandlungseffekt auf jedes der drei LLMs, einschließlich unserer ungelernten, geschätzt. Die erste Prüfung erfolgt bei den Priors selbst: Die Agenten der Inflationserwartungen melden, bevor sie irgendwelche Informationen sehen. Abbildung 3 zeigt den Mittelwert und die Standardabweichung dieser Priors über demografische Untergruppen hinweg für den menschlichen Benchmark und die drei LLMs. Ein Verlernmodell (Llama-GA) kommt dem menschlichen Aggregat in Bezug auf Niveau und Streuung nahe. Während eine Verlernmethode funktionierte (GA), funktionierte die andere nicht (NPO). Verlernen ist additionally möglicherweise kein Allheilmittel.
Abbildung 3 Modellschätzungen der wahrgenommenen Inflation

Notiz: Jedes Panel stellt nach demografischer Untergruppe den menschlichen Benchmark (Coibion et al., 2022), den Basiswert Llama-3 und seine beiden ungelernten Varianten (GA, NPO) dar. Die gestrichelte Linie markiert den menschlichen „Alle“-Wert. Linke Seite: Llama-3 und Llama-NPO sind über alle demografischen Merkmale hinweg im Wesentlichen gleich; Llama-GA verfolgt das menschliche Niveau im Durchschnitt, reproduziert jedoch nicht die Reihenfolge innerhalb der Bevölkerungsgruppe (z. B. Vorhersage des höchsten Mittelwerts für „Hochschule oder mehr“ und „Inc T3“, im Gegensatz zum menschlichen Muster). Rechte Seite: Das ungelernte GA-Modell stellt den größten Teil der durch das Basismodell kollabierten Streuung wieder her.
Die nächste Prüfung besteht darin, wie die Priors nach der Informationsverarbeitung aktualisiert werden. In den Basismodellen Llama-3 und Llama-NPO sind die Revisionen bei jeder Behandlung im Wesentlichen identisch und die Modelle registrieren überhaupt keinen Behandlungseffekt. Llama-GA ist der einzige, bei dem die Behandlungen getrennt sind, und innerhalb seiner größten Untergruppe von Agenten (80 % der Stichprobe) führen die vier geldpolitischen Behandlungen (vergangene Inflation, Fed-Ziel, FOMC-Prognose, FOMC-Erklärung) zu negativen und signifikanten Revisionen mit dem gleichen Vorzeichen und der ungefähren Größenordnung wie die menschlichen Befragten in Coibion et al.
Was man daraus mitnehmen kann
Für Forscher und Praktiker, die entscheiden, ob LLMs zur Durchführung von Umfragen eingesetzt werden sollen, lautet die Zusammenfassung:
- LLMs sind nicht in der Lage, unterschiedliche Personas zu imitieren. Bei der Simulation von Umfragen geht es darum, dass ein Agent die gleiche Frage tausende Male beantwortet und jedes Mal einen Wert trifft, der sehr nahe am Mittelwert liegt, manchmal bis zu vier Dezimalstellen.
- Durch gezieltes Verlernen wird der größte Teil der Streuung und ein beachtlicher Teil der Behandlungseffekte in einer RCT mit menschlichen Befragten wiederhergestellt. Allerdings erzielen Verlernmethoden unterschiedliche Erfolgsgrade.
- Die Lücke zwischen mittlerer Genauigkeit und Verteilungsgenauigkeit ist so groß, dass jede Arbeit, die synthetische Befragte verwendet, die zweite angeben sollte.
Zukünftige Arbeiten sollten Verteilungsgenauigkeit und Datenlecks als gemeinsame Einschränkungen und nicht als zweitrangige Bedenken behandeln. Der Fortschritt wird von Methoden abhängen, die sowohl berücksichtigen, was Modelle wissen, als auch wie ihre Ergebnisse bewertet werden, wobei der Streuung, den Tails und der Aktualisierung von Überzeugungen mehr Aufmerksamkeit geschenkt wird als nur den Durchschnittswerten.
Referenzen
Coibion, O., Y. Gorodnichenko und M. Weber (2022). Geldpolitische Kommunikation und ihre Auswirkungen auf die Inflationserwartungen der privaten Haushalte. Zeitschrift für politische Ökonomie 130(6), 1537–1584.
Dalloul, A., Pfeifer, M. (2026). Können LLMs Haushaltsumfragen nachahmen?: Von repräsentativen Agenten zu Bevölkerungsverteilungen. SSRN Vordruck. Hyperlink zum Arbeitspapier
Zarifhonarvar, A. (2026). Generierung von Inflationserwartungen mit großen Sprachmodellen. JStudium der Monetären Ökonomie 157103859
Replikationsdaten
Dalloul, A., Pfeifer, M. (2026). Replikationsdaten für: „Können LLMs Haushaltsbefragungen nachahmen?: Von repräsentativen Agenten zu Bevölkerungsverteilungen“, https://doi.org/10.7910/DVN/CRIRVJHarvard Dataverse, V1.
