Im Jahr 2019, Andrew gebloggt um Kollinearität in Bayes’schen Modellen. In den Kommentaren, er wies auf ein Beispiel hin aus Bayesianische Datenanalyse, 2. Auflage (BDA2). Ich denke, es ist ein nützliches Beispiel, das man sich immer merken sollte Extrapolieren von der Stichprobe auf die Grundgesamtheit. Da Leute (wie ich) möglicherweise nur BDA3 in ihrem Regal haben, dachte ich, ich rede darüber.
Stellen Sie sich vor, wir schreiben das Jahr 1980 und wir sind beim US Census Bureau. Wir haben gerade das Berufskodierungssystem überarbeitet und es ist viel besser! Wir wollen Codes im Stil von 1980 für alle unsere alten Daten, die nur Codes im Stil von 1970 enthielten. Tauschen wir unsere Bauernblusen gegen ein paar Schulterpolster ein.

Angenommen, wir haben doppelt codierte Trainingsdaten (n = 10.000) mit:
- O_1980 = Beruf, kodiert im Kodierungssystem von 1980
- O_1970 = Beruf, kodiert im Kodierungssystem von 1970
- E = Bildung, entweder hoch oder niedrig
- I = Einkommen, entweder hoch oder niedrig
Wir möchten O_1980 für den einfach codierten vollständigen Datensatz (N = 1.000.000) mit nur O_1970, E und I unterstellen.
Berücksichtigen Sie jeden, der einen bestimmten Beruf ausübt Codes von 1970zB Buchhalter. Angenommen, in den doppelt codierten Ausbildungsdaten sind 200 Buchhalter enthalten, die entweder ein hohes Einkommen und eine hohe Bildung oder ein niedriges Einkommen und eine niedrige Bildung haben. Sie haben entweder OCCUP1 oder OCCUP2 entsprechend Codes von 1980.
Aus BDA2 Tabelle 9.1:

Angenommen, wir verwenden Commonplace-Regressionssoftware, um p(O_1980 | O_1970 = Buchhalter, E, I) anzupassen. Die Prädiktoren E und I werden als perfekt kollinear gekennzeichnet, da in der doppelt codierten Trainingsstichprobe Bildung und Einkommen perfekt korrelieren.
Angenommen, Sie verzichten auf Bildung und nutzen nur das Einkommen. In den einfach kodierten Daten gibt es tatsächlich einige Personen mit geringer Bildung und hohem Einkommen. Das Modell verwendet nur das Einkommen, sodass 90 % von ihnen OCCUP1 erhalten. Aber nehmen wir an, ich verzichte auf das Einkommen und nutze nur noch Bildung. Mein Modell verwendet nur Bildung, daher erhalten nur 10 % von ihnen OCCUP1. Wer hat Recht?
Wie die Autoren sagen:
Die Wahrheit ist, dass wir im Wesentlichen keine Beweise für die Aufteilung dieser Einheiten haben. Die berufliche Aufteilung für die „E=niedrig, I=hoch“-Einheiten sollte beispielsweise zwischen 90/10 und 10/90 variieren. … Wenn eine Variable aus inhaltlichen Gründen im Modell enthalten sein sollte oder könnte, sollte sie auch dann einbezogen werden, wenn sie nicht „statistisch signifikant“ ist und selbst wenn die Daten keine Informationen enthalten, um sie mit herkömmlichen Methoden zu schätzen.
