Viel wird in diesem Weblog über „Publish -Stratifikation“ geschrieben. Andrew spricht es formell mit einem an “Herr„. Aber als ich es gelernt habe Alan Zaslavskys Kurs Es struggle beiläufig nur „nach Stratifizierung“. Zu der Zeit klang es für mich wie Schadenskontrolle, nachdem wir vergessen hatten, zu schichten.

  • Schichtung”= Teilen Sie die Inhabitants in Schichten (dh Gruppen) anhand einiger Variablen X auf. Soziale Hierarchienaber um Repräsentativität zu zielen. Wenn wir schichten vor Wenn wir das Beispiel auswählen, können wir eine Probe in jeder Schicht zur Repräsentativität nehmen.
  • Publish”= Teilen Sie die Bevölkerung nur in Schichten auf nach Die Probe ist bereits ausgewählt.

Ausgefallene Grafiken von a DOL Video Ich habe daran gearbeitet:

Wie kann die Publish -Stratifizierung helfen?

Angenommen, wir wollen E (y), die Bevölkerung, schätzen. Aber wir haben nur Y in der Umfrage -Stichprobe. Nehmen wir zum Beispiel an, Y stimmt republikanisch ab. Wir können den Probenmittelwert verwenden, Ybar = Ehat (y | pattern) (Ich weiß nicht, wie man in diesem Weblog Latexpause latert).

Aber unser Stichprobenmittelwert ist bedingt beim Abtasten. Und was ist, wenn Umfrageteilnehmer mehr oder weniger republikanisch als die Bevölkerung sind? Wie Joe Blitzstein uns lehrt: „Konditionierung ist die Seele der Statistiken.“ Die Konditionierung des Probens kann unsere Schätzung beeinflussen. Aber vielleicht kann uns auch mehr Konditionierung helfen?! Joe lehrte mich, die Konditionierung zu versuchen, wenn ich stecken bleibe.

Wenn wir Bevölkerungsdaten zu X, z. B. Rassengruppe Das Gesetz der Gesamterwartung (Joes Favorit): E (y) = e (e (y | x)). Wenn unsere Stichprobe additionally die falsche Verteilung von Rassengruppen aufweist, beheben wir das zumindest mit einer gewissen Kalibrierung. Ersetzen von „E“ durch Schätzungen „Ehat“, poststratifizierende Schätzungen E (y) durch E (Ehat (y | x, Probe)).

Wenn unsere Schätzung von E (y | x) der Stichprobenmittelwert von y für Leute mit diesem x ist, ist die aggregierte Schätzung die klassische Nachstratifizierung, yhat_ps. Wenn unsere Schätzung von E (y | x) auf einem Modell basiert, das über x reguliert wird, ist die Aggregatschätzung eine Mehrebenenregression (“Herr“) Und Poststratifikation, yhat_mrp. Gelman 2007 zeigt, wie yhat_mrp eine Schrumpfung von yhat_ps in Richtung Ybar ist.

Welche Schätzung eignet sich am besten zur Schätzung von E (Y)? ybar, yhat_ps oder yhat_mrp?

Um dies zu beantworten, möchte ich den Verlust (e (y), yhat), den Verlust (e (y), yhat_ps) und den Verlust (e (y), yhat_mrp) für einige vergleichen Bevölkerungsniveau Verlust. Dies unterscheidet sich vom typischen maschinellen Lernen Einzelebene Verlustverlust (y_i, ybar), Verlust (y_i, yhat_ps_i) und Verlust (y_i, yhat_mrp_i).

Als Kuh et al. 2023 schreiben:

Es sind keine individuellen Vorhersagen, die intestine sein müssen, sondern die Aggregationen dieser individuellen Schätzungen.

Gelman 2007 endet mit „Wohin als nächstes“:

Ein paralleler Ansatz erfolgt durch Simulationsstudien – für einen größeren Realismus, diese können häufig unter Verwendung von Teilproben tatsächlicher Umfragen konstruiert werden – sowie theoretische Untersuchungen der Verzerrung und Varianz poststratifizierter Schätzungen mit moderaten Stichprobengrößen.

Ich habe 3 Papiere gefunden, die dorthin gegangen sind, aber ich möchte helfen, mehr zu finden.
Holt & Smith 1979 vergleichen Bevölkerungsniveau Verlust (e (y), ybar) gegen den Verlust (e (y), yhat_ps) in einer Simulationsstudie. Sie enthalten keine MRP in die Simulation. Sie stellen fest, dass keiner gleichmäßig am besten ist, aber die Nachstratifizierung ist normalerweise viel besser.
Wang & Gelman 2014 vergleichen Einzelebene Verlust (y_i, yhat_ps_i) zu Verlust (y_i, yhat_mrp_i) mit der Kreuzvalidierung y_i. Sie zeigen, dass MRP das Beste am besten kann, aber quick nicht von der vollständigen Bündelung von Interaktionen (etwas näher an Ybar, vollständige Bündelung von allem) zu unterscheiden ist:
Kuh et al. 2023 vergleichen Bevölkerungsniveau Verlust an Einzelebene Verlust in einer Simulationsstudie. Sie warnen, dass diese Verluste Modelle anders bestellen können! Wählen Sie Ihre Diagnostik sorgfältig aus. Sie betrachten nur MRP.
Daher habe ich den Vergleich, den ich will, noch nicht gefunden: Verlust auf Bevölkerungsebene für ungewichtete Ybar, klassische Poststratifizierung und MRP. Ich denke, MRP zum hinzuzufügen Holt & Smith 1979 Simulation wäre interessant? Kann jemand das tun (mein Geburtstag ist im Oktober)?
Diskutieren Sie alle MRP -Papiere Standardfehler theoretisch ? Gelman 2007 Erörtert nur Standardfehler für Modelle mit nicht informativen Priors (siehe unten). Ich denke auch, dass die Formeln hier Tippfehler haben?

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert