Umfragestatistik: perfekte Kollinearität in der Stichprobe, aber nicht in der Grundgesamtheit

Im Jahr 2019, Andrew gebloggt um Kollinearität in Bayes’schen Modellen. In den Kommentaren, er wies auf ein Beispiel hin aus Bayesianische Datenanalyse, 2. Auflage (BDA2). Ich denke, es ist ein nützliches Beispiel, das man sich immer merken sollte Extrapolieren von der Stichprobe auf die Grundgesamtheit. Da Leute (wie ich) möglicherweise nur BDA3 in ihrem Regal haben, dachte ich, ich rede darüber.

Amazon.com: Bayesian Data Analysis, Zweite Auflage (Chapman & Hall/CRC Texts in Statistical Science): 9781584883883: Andrew Gelman, John B. Carlin, Hal S. Stern, Donald B. Rubin: Bücher

Stellen Sie sich vor, wir schreiben das Jahr 1980 und wir sind beim US Census Bureau. Wir haben gerade das Berufskodierungssystem überarbeitet und es ist viel besser! Wir wollen Codes im Stil von 1980 für alle unsere alten Daten, die nur Codes im Stil von 1970 enthielten. Tauschen wir unsere Bauernblusen gegen ein paar Schulterpolster ein.

Angenommen, wir haben doppelt codierte Trainingsdaten (n = 10.000) mit:

O_1980 = Beruf, kodiert im Kodierungssystem von 1980
O_1970 = Beruf, kodiert im Kodierungssystem von 1970
E = Bildung, entweder hoch oder niedrig
I = Einkommen, entweder hoch oder niedrig

Wir möchten O_1980 für den einfach codierten vollständigen Datensatz (N = 1.000.000) mit nur O_1970, E und I unterstellen.

Berücksichtigen Sie jeden, der einen bestimmten Beruf ausübt Codes von 1970zB Buchhalter. Angenommen, in den doppelt codierten Ausbildungsdaten sind 200 Buchhalter enthalten, die entweder ein hohes Einkommen und eine hohe Bildung oder ein niedriges Einkommen und eine niedrige Bildung haben. Sie haben entweder OCCUP1 oder OCCUP2 entsprechend Codes von 1980.

Aus BDA2 Tabelle 9.1:

Angenommen, wir verwenden Commonplace-Regressionssoftware, um p(O_1980 | O_1970 = Buchhalter, E, I) anzupassen. Die Prädiktoren E und I werden als perfekt kollinear gekennzeichnet, da in der doppelt codierten Trainingsstichprobe Bildung und Einkommen perfekt korrelieren.

Angenommen, Sie verzichten auf Bildung und nutzen nur das Einkommen. In den einfach kodierten Daten gibt es tatsächlich einige Personen mit geringer Bildung und hohem Einkommen. Das Modell verwendet nur das Einkommen, sodass 90 % von ihnen OCCUP1 erhalten. Aber nehmen wir an, ich verzichte auf das Einkommen und nutze nur noch Bildung. Mein Modell verwendet nur Bildung, daher erhalten nur 10 % von ihnen OCCUP1. Wer hat Recht?

Wie die Autoren sagen:

Die Wahrheit ist, dass wir im Wesentlichen keine Beweise für die Aufteilung dieser Einheiten haben. Die berufliche Aufteilung für die „E=niedrig, I=hoch“-Einheiten sollte beispielsweise zwischen 90/10 und 10/90 variieren. … Wenn eine Variable aus inhaltlichen Gründen im Modell enthalten sein sollte oder könnte, sollte sie auch dann einbezogen werden, wenn sie nicht „statistisch signifikant“ ist und selbst wenn die Daten keine Informationen enthalten, um sie mit herkömmlichen Methoden zu schätzen.

Umfragestatistik: perfekte Kollinearität in der Stichprobe, aber nicht in der Grundgesamtheit

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

Warum Sol, Terra und Luna den KI-Kauf in ein Routing-Downside verwandeln |

5 KOSTENLOSE Ressourcen zur Agenten-KI

NVIDIA AI veröffentlicht Nemotron 3 Embed: eine offene Einbettungssammlung, deren 8B Checkpoint bei RTEB auf Platz 1 steht

10 YouTube-Kanäle, die Sie in Sachen KI an der Spitze halten

About

Categories

Tags

Recent Post

Warum Sol, Terra und Luna den KI-Kauf in ein Routing-Downside verwandeln |

5 KOSTENLOSE Ressourcen zur Agenten-KI

Umfragestatistik: perfekte Kollinearität in der Stichprobe, aber nicht in der Grundgesamtheit

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt