Bei der Darstellung kausaler Schlussfolgerungen und randomisierter Experimente beginnen wir mit dem Grundgerüst, in dem es Vorbehandlungsprädiktoren x, Behandlung z und Ergebnis y sowie potenzielle Ergebnisse y(z) gibt. Hier ist es drin Regression und andere Geschichten:
Unsere Darstellung unterscheidet sich von vielen anderen Lehrbüchern, die mit z und y beginnen und erst später x enthalten.
Dann stellt sich die Frage: Warum ist es so eine gute Idee, x einzubeziehen? Warum ist der Prädiktor (oder die Prädiktoren) vor der Behandlung so wichtig, sowohl in der Praxis als auch für unser Verständnis der kausalen Schlussfolgerung?
Hier sind fünf Gründe für die Einbeziehung von Prädiktoren vor der Behandlung:
1. Berücksichtigen Sie die Verzerrung im nicht-randomisierten Design
2. Passen Sie zufällige Ungleichgewichte im randomisierten Design an (und nicht zufällige Ungleichgewichte aufgrund unvollständiger Randomisierung, Aussetzer usw.).
3. Reduzieren Sie den Standardfehler des geschätzten Effekts
4. Überprüfen Sie, ob es ein Ungleichgewicht und keine Überschneidungen zwischen Behandlungs- und Kontrollgruppen gibt
5. Verallgemeinerung auf eine Inhabitants mit einer anderen Verteilung von x.
Wir erläutern dies ausführlicher in den Kapiteln 19 und 20 von Regression und andere Geschichtenaber ich erhebe hier keinen Anspruch auf Originalität. Dies alles ist allgemein bekannt unter Statistikern, die sich mit solchen Problemen befassen. Aber manchmal hören Leute von Randomisierung oder einer anderen Identifikationsstrategie und sind sich dessen nicht bewusst:
– Selbst wenn Sie über Identifikation verfügen, kann die Anpassung an Vorbehandlungsvariablen zu statistischer Effizienz (Punkt 3 oben) und Verallgemeinerung (Punkt 5) führen.
– Wenn Ihre Identifizierung unvollständig ist, können Sie dies durch Anpassen der Vorbehandlungsvariablen überprüfen (Punkt 4) und bei Problemen korrigieren (Punkt 2);
– Im wirklichen Leben ist Ihre Identifikation normalerweise nicht so, wie Sie denken, daher ist es wichtig, sich trotzdem anzupassen (Punkt 1).
Es gibt viele Möglichkeiten, diese Anpassung vorzunehmen: lineare Regression, logistische Regression, nichtparametrische Modelle usw. In ihr klassisches Papier aus dem Jahr 2011Jennifer verwendet ein nichtparametrisches Modell, um gleichzeitig Unterschiede zwischen Behandlungs- und Kontrollgruppe auszugleichen und auf die Bevölkerung zu verallgemeinern, und in den letzten Jahren wurde beispielsweise in diesem Bereich viel mehr getan dieses Papier aus dem Jahr 2018 von Athey und Wager. Allerdings kann man in vielen Situationen ziemlich weit von einer einfachen linearen und logistischen Regression entfernt sein Das haben wir 1990 gemacht bei der Schätzung des Amtsvorteils (obwohl wir dies später getan haben). zurück zum Downside und mit einem probabilistischen Auswahlmodell besser abschneiden).
Wenn Sie über eine Identifikationsmethode wie die Regressionsdiskontinuität verfügen, die bereits einen Prädiktor vor der Behandlung enthält, sollten Sie auch andere einbeziehen. Insbesondere bei Regressionsdiskontinuitäten ist die Variable, die die Diskontinuität antreibt, nicht immer ein guter Prädiktor für das Ergebnis, und Sie können es besser machen, indem Sie auch Ergebnisse vor dem Check oder was auch immer einbeziehen.
Auch hier ist das allgemeine Thema x, z, y. Die Behandlung z wirkt sich auf das Ergebnis y aus, und Sie möchten dieses Verhalten abhängig von den Merkmalen x vor der Behandlung modellieren.
Hin und wieder stoßen wir auf eine Studie, in der es keine Vorbehandlungsvariablen gibt. Typischerweise spiegelt dies ein Versagen bei der Datenerhebung wider, bei dem die Forscher von der angeblichen Kausalitätsidentifizierung in ihrem Design zu überzeugt waren. Das ist einer der Gründe, warum es wichtig ist, bereits in der Entwurfsphase über x nachzudenken, bevor die Daten gesammelt und analysiert werden.
Manchmal sind wirklich keine nützlichen Informationen zur Vorbehandlung verfügbar. Schade! Aber auch dort halte ich es für nützlich darüber nachdenken Vorbehandlungsvariablen und was Sie mit ihnen machen würden – auf die gleiche Weise, dass es, selbst wenn Sie keine zufällige Zuweisung durchführen können, normalerweise ein hilfreiches Gedankenexperiment ist, ein hypothetisches, wenn auch undurchführbares, randomisiertes Design in Betracht zu ziehen („zwingen Sie einige Leute zu rauchen und andere zur Enthaltsamkeit zu zwingen“ usw.), da dies mehr Einblick in den Prozess geben kann, den Sie modellieren möchten, den Effekt, den Sie abschätzen möchten, und die Inhabitants der Szenarien, auf die dieser Effekt zutreffen könnte.