Ein Ökonom, der Anonymität wünscht, schreibt:
Ich denke, Sie werden das sowohl lustig als auch frustrierend finden.
Eine Gruppe prominenter, intestine publizierter Ökonomen aus Norwegen veröffentlichte eine vielzitierte Studie über die kausalen Auswirkungen von bezahltem Mutterschaftsurlaub: „Ein fliegender Begin? Mutterschaftsurlaubsleistungen und langfristige Folgen für Kinder“ (https://www.journals.uchicago.edu/doi/10.1086/679627). Das Papier wurde im Journal of Political Economic system – einer der führenden Wirtschaftszeitschriften – veröffentlicht und nutzte ein Regressions-Diskontinuitätsdesign, um ungewöhnlich große und wichtige kausale Auswirkungen des bezahlten Mutterschaftsurlaubs auf die Kinderergebnisse zu identifizieren. In ihrer Zusammenfassung heißt es: „Mütter, die vor dem 1. Juli 1977 ein Sort zur Welt brachten, hatten Anspruch auf 12 Wochen unbezahlten Urlaub, während Mütter, die nach diesem Datum ein Sort zur Welt brachten, Anspruch auf 4 Monate bezahlten Urlaub und 12 Monate unbezahlten Urlaub hatten.“ Die längere Zeit, die man mit dem Sort verbrachte, führte zu einem Rückgang der Schulabbrecherquote um zwei Prozentpunkte und zu einer Lohnerhöhung um 5 Prozent im Alter von 30 Jahren.“
Kürzlich wurde ein Kommentar zu dem Papier veröffentlicht („Kein fliegender Begin doch?“ https://www.journals.uchicago.edu/doi/10.1086/732218). Als Drawback stellen sie fest: Die Reform kam nicht wie beschrieben zustande. „Die Ursachenermittlung beruhte auf einer Diskontinuität, die bedeutete, dass nur Mütter, die nach einem bestimmten Stichtag ein Sort zur Welt brachten, Anspruch auf bezahlten Urlaub hatten. Wir zeigen, dass die Analyse auf einer falschen Beschreibung der Reform beruhte. Mit der Reform wurde kein bezahlter Mutterschaftsurlaub eingeführt, sondern dieser um 5–6 Wochen verlängert. Die postulierte Diskontinuität gab es nie, da die Behandlungs- und Kontrollgruppen die gleichen Bedingungen für den Mutterschaftsurlaub hatten.“
In dem Kommentar wird weiter erläutert, dass bezahlter 12-wöchiger Mutterschaftsurlaub schon seit vielen Jahren in Kraft sei, der Reformstichtag nicht streng sei, Teile der Reform im darauffolgenden Jahr umgesetzt würden und Arbeitnehmer im öffentlichen Sektor die Reform früher als erwartet erlebten Die Reform kam zum jetzigen Zeitpunkt nicht unerwartet, da sie in den Medien ausführlich diskutiert worden conflict (entgegen der Behauptung im Originalpapier) usw.
Die Antwort der ursprünglichen Autoren trägt den Titel „Nonetheless Flying“ (https://www.journals.uchicago.edu/doi/10.1086/732220). Sie nehmen die neuen Informationen gelassen auf und antworten: „Die neuen Fakten veranlassten uns, eine neue Forschungsstrategie zu formulieren, die die neuen Fakten berücksichtigt.“ Unsere verbesserten Schätzungen zeigen, dass die Reform des Mutterschaftsurlaubs in Norwegen große langfristige Auswirkungen auf das Leben von Kindern hatte. Quantitativ ähneln sie den ursprünglichen Schätzungen in CLS.“
Besonders interessant ist, wie sie auf zwei andere Arbeiten verweisen, um ihre ursprünglichen Ergebnisse zu untermauern: „Seit der Veröffentlichung von CLS haben zwei weitere Arbeiten ähnliche Forschungsstrategien verwendet, um die Auswirkungen dieser Reform des Mutterschaftsurlaubs auf unterschiedliche Ergebnisse zu untersuchen: Butikofer et al. (2021) und Schwartz (2021). Die Ergebnisse dieser beiden Arbeiten legen nahe, dass das Datum 1. Juli 1977 tatsächlich wichtig conflict.“
Was sie nicht zur Kenntnis nehmen, ist, dass diese beiden Studien auf dem ursprünglichen Flying-Begin-Papier aufbauten und die gleiche nichtexistente scharfe Diskontinuität am 1. Juli ausnutzten.
Natürlich könnte es sich hier um ein nahezu unglaubliches Glücksfall handeln: Eine fehlerhafte Analyse, die auf falschen Annahmen basierte, ergab eine ungewöhnlich große Schätzung des kausalen Effekts – aber das falsche Ergebnis conflict zufällig richtig. Wir können uns vorstellen, wie sich das Forschungsteam nervös um das Computerterminal drängte, an den Nägeln kaute und schweigend betete, während es seinen aktualisierten Stata-Code ausführte, nur um dann in Freude und Jubel auszubrechen, als die Ergebnisse auf dem Bildschirm erschienen und zeigten, dass sie die ganze Zeit Recht hatten.
Der zynische Ansatz wäre, diese ganze Geschichte als ein natürliches Experiment an sich zu betrachten: Was passiert, wenn erfolgreiche Forscher an eine nicht existierende Reform glauben und ihre Auswirkungen anhand „reicher Verwaltungsdaten“ und der Standardfreiheitsgrade von Forschern analysieren? Die Antwort: drei unterschiedliche Arbeiten, die alle große und starke Auswirkungen derselben nicht existierenden Reform feststellen, und mindestens zwei davon in einem Ausmaß, das ausreicht, um Gutachter in führenden Wirtschaftszeitschriften zu überzeugen.
Vor diesem Hintergrund ist es vielleicht weniger überraschend, dass die neue Analyse mit „verbesserten Schätzungen“ ähnliche Auswirkungen festgestellt hat, obwohl sie einige Zeit in Anspruch genommen zu haben scheint: In dem Kommentar heißt es, dass zunächst „die norwegischen Autoren der beiden Arbeiten darüber informiert wurden, dass wir diese vermuteten“. Fehler im Februar/März 2020“ – doch erst jetzt (August 2024) veröffentlichte die Zeitschrift den Kommentar (und seine Antwort).
Schließlich ist es interessant zu sehen, dass das Journal of Political Economic system es für das Beste hielt, den kritischen Kommentar hinter einer Paywall zu platzieren und gleichzeitig die Antwort des ursprünglichen Groups frei verfügbar und ungeschützt zu machen.
Dieser unglückliche Teil fiel mir auch in der Antwort der Autoren auf, als sie schrieben: „Wenn überhaupt, wird dies die Auswirkungen der Reform abschwächen, indem einige nicht teilnahmeberechtigte Mütter in die Stichprobe einbezogen werden.“ Es ist das Rucksack-Irrtum!
Nein, wenn Sie erfahren, dass Sie einen Messfehler haben, ist dies der Fall nicht Machen Sie im Allgemeinen Ihr Ergebnis stärker!
Die obige Geschichte ist interessant und wir könnten hier aufhören. Aber ich conflict irgendwie neugierig und habe mich durchgeklickt. Wie mein Korrespondent sagte, ist der einzige der drei Artikel, der sofort zugänglich ist, die Antwort der Autoren auf die Kritik. Anstatt mich in den Particulars von Diskontinuitäten und Unterschieden sowie Schätzungen und Standardfehlern zu verlieren, werde ich folgen Unser allgemeiner Ansatz und beginnen Sie bei Null und betrachten Sie das Drawback als Beobachtungsstudie.
Das bedeutet, dass wir drei Dinge identifizieren müssen:
1. Die experimentellen Einheiten i und Behandlungen z_i
2. Die Ergebnismessung y_i
3. Die Vorbehandlungsmessungen x_i.
Der Grundplan besteht darin, dass Sie dann y auf x und z zurückführen, aber abhängig von der Qualität der Vorbehandlungsmessungen und der Artwork und Weise, wie die Behandlung zugewiesen wurde, müssen Sie möglicherweise mehr tun. In jedem Fall ist die Identifizierung der drei oben genannten Komponenten der Ausgangspunkt. Es ist schwierig, über die Abschätzung des Behandlungseffekts zu sprechen, bevor Sie nicht definiert haben, um welche Behandlung es sich handelt.
Additionally lasst uns loslegen. Sie sprechen über die Auswirkungen der Mutterschaftsurlaubsreform auf das Leben von Kindern. Ich vermute additionally, dass es sich bei den Versuchseinheiten um Kinder handelt und dass es bei den Behandlungen darum geht, wie viel Mutterschaftsurlaub die Mutter bekommt. Aus der obigen Diskussion weiß ich, dass dies etwas kompliziert sein wird. . . Ich werde die Zeitung lesen und sehen, was sie sagen. Es scheint, dass die Behandlung die gleiche ist, wie sie in Norwegen nach der Reform von 1977 angewandt wurde, nämlich 18 Wochen teilweise bezahlten Urlaub zu gewähren, und dass die Kontrolle die gleiche ist, die vor der Reform gewährt wurde, nämlich 12 Wochen teilweise bezahlter Urlaub. Sie sagen außerdem, dass die Behandlung auf Arbeitnehmer im privaten Sektor beschränkt sei, der zu dieser Zeit offenbar 70 % der weiblichen Arbeitskräfte Norwegens ausmachte.
Die andere Herausforderung besteht darin, dass bis zum 1. Juli 1977, als die Behandlung eingeführt wurde, ein Zeitraum von zwölf Wochen verging, und es scheint, dass sie möglicherweise nicht herausfinden können, wer während dieser zwölf Wochen die Behandlung und wer die Kontrolle erhielt Wochen. Das scheint keine so große Sache zu sein – schließen Sie diese Kinder einfach aus der Analyse aus, oder? – Ich schätze, die Relevanz liegt darin begründet, dass dies eine Schwäche der ursprünglichen Studie conflict, die dieses Implementierungsproblem nicht erkannte.
Die Ergebnisse sind „Abbrecherquoten, Hochschulabschluss und Verdienstprotokoll im Alter von 30 Jahren“ der Kinder. In einer Fußnote heißt es außerdem: „CLS präsentierte auch Ergebnisse für Schuljahre, Teenagerschwangerschaften (Frauen) und IQ (Männer). Da es keinen robusten Effekt auf diese Ergebnisse gab, werden wir diese Ergebnisse nicht weiter untersuchen.“ Tatsächlich haben sie sich additionally sechs Ergebnisse angesehen. Aber vielleicht mehr als 6, oder? Wenn sie sich den IQ der Jungen angesehen haben, dann stelle ich mir vor, dass sie auch den IQ der Mädchen untersucht haben. Wir empfehlen generell, alle interessanten Vergleiche zu melden. Wir empfehlen außerdem, im Anschluss ein mehrstufiges Modell anzupassen, aber das Wichtigste ist, alle Ergebnisse zu melden und sie in einem einzigen Diagramm anzuzeigen. Hier scheint eine große Auswahl stattgefunden zu haben:
1. Einige große Anzahl potenzieller Ergebnisvariablen in den Originaldaten.
2. Einige davon wurden in der Originalstudie analysiert.
3. In dieser ursprünglichen Studie wurden 6 Ergebnisse basierend auf statistischer Signifikanz oder einem anderen Kriterium ausgewählt.
4. Im Observe-up wurden drei der Ergebnisse verworfen, weil ihre Ergebnisse nicht statistisch signifikant waren (oder ein anderes Kriterium; ich bin mir nicht ganz sicher, was mit „es gab keinen robusten Effekt auf diese Ergebnisse“ gemeint conflict).
5. Das Folgepapier berichtet über die verbleibenden drei Ergebnisse.
Der nächste Schritt ist die Auswahl der Hintergrund- oder Kontrollvariablen für die Regression. Ich vermute, dass bei den relevanten Messungen vor der Behandlung der sozioökonomische Standing der Eltern sowie das Geburtsgewicht und ähnliche Variablen, die die Babys beschreiben, berücksichtigt werden. Sie möchten auch die wirtschaftlichen Bedingungen einbeziehen. . . Hier würde es im Laufe der Zeit zu einigen Unschärfen kommen, da die genaue Wirtschaftslage am Tag Ihrer Geburt nicht über Ihre wirtschaftliche Zukunft entscheidet. Ich vermute, dass dies dadurch abgedeckt wird, dass man so etwas wie einen linearen Zeittrend über den Datenbereich einbezieht, der von 1975 bis 1979 reicht.
Ihre Analyse weist auch einige strenge Datenbeschränkungen auf, die für mich nicht ganz sinnvoll sind: Sie schließen das Jahr 1976 aus und zählen für jedes Jahr nur die 90 Tage vor dem 9. April und die 90 Tage nach dem 1. Juli. Ich verstehe, dass sie sie verwenden möchten vergleichbare Daten aus jedem Jahr, um sich keine Sorgen über saisonale Effekte machen zu müssen; Dennoch scheint es, als würde man Daten einfach wegwerfen, wenn man nur 90 Tage verwendet. Sie führen auch eine weitere Analyse mit 180 Tagen vorher und nachher durch.
Ich mache mir Sorgen, dass sie keine Prädiktoren vor der Behandlung wie den SES der Eltern und das Geburtsgewicht des Babys enthalten. Vielleicht waren diese Variablen nicht in den Daten enthalten? Aber ich denke, wenn sie all diese Maßnahmen für die Kinder ergreifen würden,
Dann ist da noch die Analyse. Sie zeigen drei Ergebnisse in getrennten Abbildungen, was etwas ärgerlich ist (aber ja, ich weiß, es ist gängige Praxis; so wenige Leute haben die Vorteile der Unterbringung mehrerer Diagramme in einem Raster kennengelernt); Wie dem auch sei, hier sind sie:
Machen Sie daraus, was Sie wollen.
Es wäre intestine, wenn die Analyse mehr Vorbehandlungsjahre, ein längeres Zeitfenster in jedem Jahr, Anpassungen für wichtige Vorbehandlungsvariablen und die Betrachtung aller interessierenden Ergebnisse umfassen würde, nicht nur der drei, die viele Screening-Stufen überstanden haben .