Autoren: Augusto Cerqua, Marco Letta, Gabriele Pinto

Lernen (ML) hat eine zentrale Rolle in den Wirtschaftswissenschaften, den Sozialwissenschaften und der unternehmerischen Entscheidungsfindung erlangt. Im öffentlichen Sektor wird ML zunehmend für sogenannte vorhersagepolitische Probleme eingesetzt: Situationen, in denen politische Entscheidungsträger darauf abzielen, Einheiten zu identifizieren, bei denen das größte Risiko für ein negatives Ergebnis besteht, und proaktiv einzugreifen; zum Beispiel die Ausrichtung auf öffentliche Subventionen, die Vorhersage lokaler Rezessionen oder die Antizipation von Migrationsmustern. Im privaten Sektor ergeben sich ähnliche Vorhersageaufgaben, wenn Unternehmen die Kundenabwanderung vorhersagen oder die Kreditrisikobewertung optimieren möchten. In beiden Bereichen führen bessere Vorhersagen zu einer effizienteren Ressourcenallokation und wirksameren Interventionen.

Um diese Ziele zu erreichen, werden ML-Algorithmen zunehmend auf Paneldaten angewendet, die durch wiederholte Beobachtungen derselben Einheiten über mehrere Zeiträume gekennzeichnet sind. Allerdings waren ML-Modelle ursprünglich nicht für die Verwendung mit Paneldaten konzipiert, die unterschiedliche Querschnitts- und Längsabmessungen aufweisen. Wenn ML auf Paneldaten angewendet wird, besteht ein hohes Risiko eines subtilen, aber schwerwiegenden Issues: Datenlecks. Dies geschieht, wenn zum Vorhersagezeitpunkt nicht verfügbare Informationen versehentlich in den Modelltrainingsprozess gelangen und die Vorhersageleistung beeinträchtigen. In unserem Artikel „Über den Missbrauch von maschinellem Lernen mit Paneldaten“ (Cerqua, Letta und Pinto, 2025), kürzlich veröffentlicht in der Oxford Bulletin of Economics and StatisticsWir liefern die erste systematische Bewertung von Datenlecks in ML mit Paneldaten, schlagen klare Richtlinien für Praktiker vor und veranschaulichen die Konsequenzen durch eine empirische Anwendung mit öffentlich verfügbaren US-County-Daten.

Das Leckageproblem

Paneldaten kombinieren zwei Strukturen: eine zeitliche Dimension (über die Zeit beobachtete Einheiten) und eine Querschnittsdimension (mehrere Einheiten, z. B. Regionen oder Unternehmen). Die standardmäßige ML-Praxis, bei der die Stichprobe zufällig in Trainings- und Testsätze aufgeteilt wird, setzt implizit unabhängige und identisch verteilte (iid) Daten voraus. Diese Annahme wird verletzt, wenn standardmäßige ML-Verfahren (z. B. eine zufällige Aufteilung) auf Paneldaten angewendet werden, wodurch zwei Haupttypen von Datenverlusten entstehen:

  • Zeitlicher Verlust: Zukünftige Informationen dringen während der Trainingsphase in das Modell ein, wodurch Prognosen unrealistisch genau erscheinen. Darüber hinaus können frühere Informationen in den Testdatensatz gelangen, wodurch rückblickende „Prognosen“ erstellt werden.
  • Querschnittsleckage: Dieselben oder sehr ähnliche Einheiten erscheinen sowohl in Trainings- als auch in Testsätzen, was bedeutet, dass das Modell den größten Teil der Querschnittsdimension der Daten bereits „gesehen“ hat.

Abbildung 1 zeigt, wie sich unterschiedliche Aufteilungsstrategien auf das Leckagerisiko auswirken. Eine zufällige Aufteilung auf Zeiteinheitsebene (Panel A) ist am problematischsten, da sie sowohl zeitliche als auch querschnittliche Leckagen mit sich bringt. Alternativen wie die Aufteilung nach Einheiten (Panel B), nach Gruppen (Panel C) oder nach Zeit (Panel D) mildern eine Artwork von Leckage, die andere jedoch nicht. Daher gibt es keine Strategie, die das Drawback vollständig beseitigt: Die geeignete Wahl hängt von der jeweiligen Aufgabe ab (siehe unten), da in manchen Fällen eine Type der Leckage möglicherweise kein wirkliches Drawback darstellt.

Abbildung 1 | Trainings- und Testsätze nach unterschiedlichen Aufteilungsregeln

Hinweise: In diesem Beispiel sind die Paneldaten mit Jahren als Zeitvariable, Landkreisen als Einheitenvariable und Staaten als Gruppenvariable strukturiert. Bild erstellt von den Autoren.

Zwei Arten von Problemen mit der Vorhersagepolitik

Eine wichtige Erkenntnis der Studie ist, dass Forscher ihr Vorhersageziel im Voraus klar definieren müssen. Wir unterscheiden zwei große Klassen von Vorhersagepolitikproblemen:

1. Querschnittsvorhersage: Die Aufgabe besteht darin, die Ergebnisse verschiedener Einheiten im gleichen Zeitraum abzubilden. Zum Beispiel die Imputierung fehlender Daten zum BIP professional Kopf in verschiedenen Regionen, wenn nur einige Regionen über verlässliche Messungen verfügen. Die beste Aufteilung erfolgt hier auf Einheitenebene: Den Trainings- und Testsätzen werden unterschiedliche Einheiten zugeordnet, wobei alle Zeiträume erhalten bleiben. Dadurch wird die Querschnittsleckage eliminiert, obwohl die zeitliche Leckage bestehen bleibt. Da aber Prognosen nicht das Ziel sind, ist dies kein wirkliches Drawback.

2. Sequentielle Prognosen: Das Ziel besteht darin, zukünftige Ergebnisse auf der Grundlage historischer Daten vorherzusagen – beispielsweise die Vorhersage von Einkommensrückgängen auf Kreisebene ein Jahr im Voraus, um frühzeitige Interventionen auszulösen. Hier ist die korrekte Aufteilung nach Zeit: frühere Zeiträume für die Schulung, spätere Zeiträume für die Prüfung. Dies vermeidet zeitliche Leckagen, jedoch keine Querschnittsleckagen, was kein wirkliches Drawback darstellt, da über die Zeit hinweg dieselben Einheiten vorhergesagt werden.

Der falsche Ansatz ist in beiden Fällen die zufällige Aufteilung nach Zeiteinheiten (Panel A in Abbildung 1), die die Ergebnisse durch beide Arten von Leckagen verunreinigt und zu irreführend hohen Leistungsmetriken führt.

Praktische Richtlinien

Um Praktikern zu helfen, fassen wir eine Reihe von Verhaltensregeln für die Anwendung von ML auf Paneldaten zusammen:

  • Wählen Sie die Stichprobenaufteilung basierend auf der Forschungsfrage: einheitenbasiert für Querschnittsprobleme, zeitbasiert für Prognosen.
  • Zeitliche Leckagen können nicht nur durch Beobachtungen, sondern auch durch Prädiktoren auftreten. Verwenden Sie für Prognosen nur verzögerte oder zeitinvariante Prädiktoren. Die Verwendung zeitgleicher Variablen (z. B. die Verwendung der Arbeitslosigkeit im Jahr 2014 zur Vorhersage des Einkommens im Jahr 2014) ist konzeptionell falsch und führt zu zeitlichen Datenlecks.
  • Passen Sie die Kreuzvalidierung an die Paneldaten an. Zufällige Okay-Faltungs-Lebensläufe, die in den meisten gebrauchsfertigen Softwarepaketen zu finden sind, sind ungeeignet, da sie zukünftige und vergangene Informationen vermischen. Verwenden Sie stattdessen rollierende oder expandierende Fenster für die Prognose oder einen geschichteten CV nach Einheiten/Gruppen für die Querschnittsvorhersage.
  • Stellen Sie sicher, dass die Leistung außerhalb der Stichprobe anhand wirklich unsichtbarer Daten getestet wird und nicht anhand von Daten, die bereits während des Trainings aufgetreten sind.

Empirische Anwendung

Um diese Probleme zu veranschaulichen, analysieren wir ein ausgewogenes Panel von 3.058 US-Bezirken von 2000 bis 2019 und konzentrieren uns dabei ausschließlich auf sequentielle Prognosen. Wir betrachten zwei Aufgaben: ein Regressionsproblem – die Vorhersage des Professional-Kopf-Einkommens – und ein Klassifizierungsproblem – die Vorhersage, ob das Einkommen im Folgejahr sinken wird.

Wir führen Hunderte von Modellen, unterschiedliche Cut up-Strategien, die Verwendung gleichzeitiger Prädiktoren, die Einbeziehung verzögerter Ergebnisse und Algorithmen (Random Forest, XGBoost, Logit und OLS) durch. Dieses umfassende Design ermöglicht es uns zu quantifizieren, wie Leckagen die Leistung steigern. Abbildung 2 unten zeigt unsere wichtigsten Ergebnisse.

Panel A von Abbildung 2 zeigt die Prognoseleistung für Klassifizierungsaufgaben. Zufällige Aufteilungen führen zu einer sehr hohen Genauigkeit, aber das ist illusorisch: Das Modell hat bereits während des Trainings ähnliche Daten gesehen.

Panel B zeigt die Prognoseleistung für Regressionsaufgaben. Wiederum lassen zufällige Aufteilungen Modelle viel besser aussehen, als sie wirklich sind, während korrekte zeitbasierte Aufteilungen eine viel geringere, aber realistische Genauigkeit zeigen.

Abbildung 2 | Zeitliche Leckage im Prognoseproblem

Panel A – Klassifizierungsaufgabe

Panel B – Regressionsaufgabe

In der Arbeit zeigen wir auch, dass die Überschätzung der Modellgenauigkeit in Jahren, die von Verteilungsverschiebungen und Strukturbrüchen geprägt sind, wie etwa der Großen Rezession, deutlich ausgeprägter wird, was die Ergebnisse für politische Zwecke besonders irreführend macht.

Warum es wichtig ist

Datenlecks sind mehr als eine technische Falle. es hat Konsequenzen für die reale Welt. Bei Richtlinienanwendungen kann ein Modell, das während der Validierung sehr genau erscheint, nach der Bereitstellung zusammenbrechen, was zu falsch zugewiesenen Ressourcen, verpassten Krisen oder fehlgeleiteter Zielausrichtung führt. Im Geschäftsumfeld kann das gleiche Drawback zu schlechten Investitionsentscheidungen, ineffizienter Kundenansprache oder falschem Vertrauen in Risikobewertungen führen. Die Gefahr ist besonders groß, wenn Modelle des maschinellen Lernens als Frühwarnsysteme dienen sollen, bei denen fehlgeleitetes Vertrauen in überhöhte Leistung zu kostspieligen Ausfällen führen kann.

Im Gegensatz dazu liefern richtig entworfene Modelle, auch wenn sie auf dem Papier weniger genau sind, ehrliche und zuverlässige Vorhersagen, die sinnvolle Entscheidungen treffen können.

Wegbringen

ML hat das Potenzial, die Entscheidungsfindung sowohl in der Politik als auch in der Wirtschaft zu verändern, aber nur, wenn es richtig angewendet wird. Paneldaten bieten vielfältige Möglichkeiten, sind jedoch besonders anfällig für Datenlecks. Um verlässliche Erkenntnisse zu gewinnen, sollten Praktiker ihren ML-Workflow auf das Vorhersageziel ausrichten, sowohl zeitliche als auch querschnittliche Strukturen berücksichtigen und Validierungsstrategien verwenden, die zu optimistische Bewertungen und die Phantasm hoher Genauigkeit verhindern. Wenn diese Grundsätze befolgt werden, vermeiden Modelle die Falle einer überhöhten Leistung und bieten stattdessen Leitlinien, die politischen Entscheidungsträgern wirklich dabei helfen, Ressourcen zuzuweisen, und Unternehmen dabei helfen, fundierte strategische Entscheidungen zu treffen. Angesichts der schnellen Einführung von ML mit Paneldaten sowohl im öffentlichen als auch im privaten Bereich ist die Beseitigung dieser Fallstricke jetzt eine dringende Priorität für die angewandte Forschung.

Referenzen

A. Cerqua, M. Letta und G. Pinto, „Über den (falschen) Einsatz von maschinellem Lernen mit Paneldaten“, Oxford Bulletin of Economics and Statistics (2025): 1–13, https://doi.org/10.1111/obes.70019.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert