Im Juni diskutierten wir 2 Geschmacksrichtungen der Kalibrierung:

  1. Poststratifizierung: KALIBREGEN SIE UNSERE ERSTELLUNGEN E (y) in Populationsdaten zu einer anderen Variablen x.
  2. Abfangenkorrektur: Kalibrieren Sie unsere Schätzungen von Regressionen E (y | x), um Daten über E (y) zu aggregieren.

Konzentrieren wir uns auf den 2.. Dies nennt man die „Logit -Verschiebung“ In Rosenman et al. 2023„Abfangenkorrektur“ in Ghitza und Gelman 2020„Einfache Anpassung“ auf S.769 von Ghitza und Gelman 2013und „Kalibrierung der Wahlergebnisse“ in Kuriwaki et al. 2024.

Rosenman et al. 2023 eine Fußnote haben:

In dieser Notiz konzentrieren wir uns für die Einfachheit auf ein binäres Ergebnis. Die gleiche Logik gilt bei Fällen von Multinomiale Ergebnisse.

Aber mit mindestens J = 3 Ergebnissen kann etwas Lustiges passieren!

Beginnen Sie mit einer N durch 3 -Tabelle anfängliche Vorhersagen für die vorhergesagte Wahrscheinlichkeit jeder Particular person, weiß, schwarz oder andere zu sein. Angenommen, wir wissen, dass die korrekten Aggregatdaten für diese Inhabitants P (weiß) = 0,4, p (schwarz) = 0,2, p (andere) = 0,4 sein sollten. Wir möchten additionally, dass die Spaltenmarginale dies befriedigen. Wir müssen auch Zeilen, um weiter auf 1 zu summieren.

Als Evan Rosenman weist darauf hin, dass wir unsere Vorhersagen verwenden können Iterative proportionale Anpassung (IPF), auch in Umfragestatistik als „Raking“ bezeichnet:

Hier sind die „U“ die bekannten Mixture und „V“ 1.

Hausaufgaben 1: Nehmen wir exp (log ()) und kombinieren Sie Schritte, um zu erhalten, dass unsere Updates aussehen:

up to date m_ij = exp(log(m_ij) + shift_j) / sum_k exp(log(m_ik) + shift_k)

Hausaufgaben 2: Zeigen Sie nun, wie wenn J = 2, dies vereinfacht zu:

up to date m_i1 = logit^-1(logit(m_i1) + shift_1 - shift_2)

Für J = 2 ist dies monoton, sodass die aktualisierten Wahrscheinlichkeiten die Rangreihenfolge bewahren. Mit anderen Worten, wenn Particular person A eine höhere Wahrscheinlichkeit hat, weiß zu sein als Particular person B, bleibt dies nach den Verschiebungen wahr. Diese Vereinfachung kann jedoch nicht für J> = 3. und die aktualisierten Wahrscheinlichkeiten nicht nur von der Verschiebung für dieses Rennen, sondern auch von den Nennern abhängen, die über alle Rassen summieren. Dies kann den Rangreihenfolge umdrehen.

Hier ist ein kleines Beispiel:

import numpy as np

np.random.seed(123)
alpha = (10, 2, 5)
init_predictions = np.random.dirichlet(alpha, measurement=10000)
print("preliminary aggregates:", init_predictions.imply(0))

# One IPF iteration
targets = np.array((0.4, 0.2, 0.4))
preds = init_predictions * targets / init_predictions.imply(0, keepdims=True)
preds /= preds.sum(1, keepdims=True)

# Present two rows earlier than/after
for r in (0, 23):
    print("preliminary predictions for r =", r, ":", init_predictions(r))
    print("adjusted predictions for r =", r, ":", preds(r))

Hausaufgaben 3: Ist das darum gestört? Warum oder warum nicht?

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert