Wir haben unser Umfrage -Statistikabenteuer mit diesem großen Berg begonnen: Nicht jeder kann in unserer Stichprobe sein („Einheit Nichtreaktion“). Jenseits dieses Berges ist ein weiterer Berg: Nicht jeder in unserem Beispiel beantwortet alle Umfragenfragen („Factor Non Response“). Hier bedeutet „Nichtantwort“ entweder nicht probiert oder gefragt und sich weigern zu antworten. Alle führen zu fehlenden Daten.

Für ein visuell magazine ich Abbildung 10.4 von Haine:

Multilevel -Regression und Nachstratifizierung (MRP) Ziel ist es, die Einheit nicht zu reagieren. Angenommen, wir wollen E (y), die Bevölkerung, schätzen. Aber wir haben nur Y für Befragte. Nehmen wir zum Beispiel an, Y stimmt republikanisch ab. Und was ist, wenn die Befragten mehr oder weniger republikanisch sind als die Bevölkerung? Wenn wir Bevölkerungsdaten zu X haben, z. B. eine Reihe der demografischen Variablen, können wir E (y | x) und Aggregat schätzen: E (y) = e (e (y | x)). Wenn unsere Stichprobe additionally die falsche Verteilung von x hat, beheben wir das zumindest mit einer gewissen Kalibrierung.
Aber was ist, wenn einige der X fehlen? Aus Bayes’sche Datenanalyse S.451:
Die paradigmatische Einstellung für fehlende Datenimputation ist die Regression, bei der wir uns für das Modell P (y | x, θ) interessieren, aber fehlende Werte in der Matrix X haben.

Andrew hat darüber gebloggt MRP und Gegenstand Non Responseempfehlen Sie ein großes gemeinsames Modell für y und X. oder „einige unterstellte Datensätze konstruieren und mit diesen MRP durchführen“. Mehr von Bayes’sche Datenanalyse S.451:
Erstes Modell X, y zusammen… zu diesem Zeitpunkt macht der Impter den überraschenden Schritt, die Schlussfolgerungen über die Parameter zu verwerfen und nur die ausgefüllten Datensätze x zu behalten.S…
Diese Zeile hat mir wirklich geholfen, die Imputation zu verstehen. Besonders die Worte „überraschender Schritt“. Weil wir wirklich zu all diesen Schwierigkeiten gehen, um zu modellieren allesUnd dann … warum werden wir nicht getan? Wir würden fertig sein, wenn wir wirklich an dieses eine große gemeinsame Modell glauben würden. Aber vielleicht wollen wir vorsichtiger sein, insbesondere darüber, wie wir E (y | x) modellieren. Additionally werfen wir einige unserer Arbeiten weg und behalten einfach die unterstellten XS.
Darüber hinaus behalten wir mehrere Versionen dieser unterstellten XS, weil wir unsere Unsicherheit über sie widerspiegeln wollen. Dann kombinieren wir diese mehreren Versionen unserer Analyse. Weitere Informationen zur Mehrfachimputation (MI) sehen Sie, z. B. Stef van Buurens Buch.

Okay, das klingt vernünftig! Implementierungszeit. Hier bin ich festgefahren:
- Skala: Sie haben 1000s X -Prädiktoren (in 100er Jahren von Chargen) und 100.000 der Umfrageantworten. Alles kann fehlen.
- Kreuzvalidierung: Kuh et al. 2023 Sagen Sie, die Kreuzvalidierung ist möglicherweise nicht geeignet, das MRP-Modell für E (y | x) zu bewerten, aber die Leute tun es (Menschen)Wang & Gelman 2014). Jaeger et al. (2020) Erinnern Sie uns an eine Imputation (die das Y verwendet) während Jede Kreuzvalidierung repliziert sich. Sie untersuchen, ob wir als Schritt mit Imputation ohne Y davonkommen können vor Kreuzvalidierung.
Wir haben additionally ein Skalenproblem, das noch schlimmer gemacht wurde, wenn wir während des Kreuzvalidierens eine Imputation machen.
Zwei neuere Arbeiten in statistischen Methoden in der medizinischen Forschung untersuchen, mit einer einzigen, deterministischen Imputation von fehlenden XS ohne zu verwenden: Y:
- D’Agostino McGowan et al. (2024): Das „Warum“ hinter dem „Y“ in Ihrem Imputationsmodell. Siehe Arxiv für den Zugriff.
- Sisk et al. (2023): Imputation und fehlende Indikatoren für den Umgang mit fehlenden Daten bei der Entwicklung und Bereitstellung klinischer Vorhersagemodelle: Eine Simulationsstudie.
Lassen:
- Z = beobachtete Kovariaten
- X = nicht beobachtete Kovariaten
- Y = Ergebnis
D’Agostino McGowan et al. (2024) Schauen Sie sich die kontinuierlichen Y- und linearen Modelle für E (y | x, z) an. Sisk et al. (2023) Schauen Sie sich binäre y- und logistische Modelle für e (y | x, z) an. Beide bedenken:
- deterministische Imputationen
- Mit dem Ergebnis xhat (z, y), schätzt E (x | z, y)
- oder ohne xhat (z), schätzen e (x | z)
- zufällige Imputationen
- Mit dem Ergebnis x ~ p (x | z, y)
(Dies ist die Deluxe -Model der Imputation, die Andrew empfiehlt.) - oder ohne x ~ p (x | z)
- Mit dem Ergebnis x ~ p (x | z, y)
Mal sehen, wie ihre Empfehlung mit einem linearen MRP -Ergebnismodell E (y | z, x) = b0 + b1 x + b2 z + b3 x z.
Angenommen, wir haben ein perfektes Imputationsmodell E (x | Z) und das Ergebnismodell, dann hätten wir E (y | z, e (x | z)), das nur e (y | z) ist (weil ich dir ZUSIGE ZEHT IST IHNE IHNE wie ich, wie ich Ihnen Z und eine Funktion von z).
Dann können wir die Erwartung, E (e (y | z, x) | z) = B0 + B1 E (x | Z) + B2 Z + B3 E (x | Z) Z zu erhalten, um die Parameter unseres wahren MRP -Ergebnismodells zurückzugewinnen.
Aber wenn das Modell logistisch ist, dann geht dies nicht ganz durch. In der Tat, Sisk et al. (2023) Sagen Sie, sie bekommen „minimale Vorurteile“, anders als D’Agostino McGowan et al. (2024) die im linearen Fall Untzug zeigen.
Wo bleibt uns das? Das Skala -Drawback ist ernst. Mit einer Verschlechterung der Nichtbeantwortung möchten wir uns an viele Kovariaten X einstellen. Dies ist in Spannung mit der Behandlung fehlender Kovariaten mit einem großen gemeinsamen Modell für Y und X (oder mit der Imputation während des Kreuzvalidierens). Ich schätze diese Papiere, die untersuchen, was Praktizierende oft tun!
