Letztes Jahr haben wir gesehen, dass Loss(y_i, yhat_i) auf individueller Ebene möglicherweise nicht intestine für die Auswahl von Modellen geeignet ist MRP („Individualismus funktioniert nicht“). Letzte Woche haben wir das gesehen gewichtet nach der Bevölkerung Der Verlust auf individueller Ebene ist auch nicht groß („Individualismus funktioniert nicht (auch nicht mit Gewichtung)“).

Andreas kommentiert Das Wang & Gelman 2014 Besprechen Sie dieses Downside. Wir haben dieses Papier in zitiert unsere Diskussion über MRP vs. klassische Poststratifizierung. Lassen Sie uns ihre Berechnung auf der Rückseite des Umschlags durchgehen:

Betrachten Sie eine Zelle (z. B. Missouri, Einkommensniveau 75.000–150.000 US-Greenback). Angenommen, der wahre Anteil der Demokraten beträgt 40 %. Betrachten Sie drei Modelle, die dies auf 41 %, 44 %, 38 % schätzen. Die erwarteten Vorhersageverluste betragen -(0,4 log(0,41) + 0,6 log(0,59)) = 0,6732, -(0,4 log(0,44) + 0,6 log(0,56)) = 0,6739 und -(0,4 log(0,38) + 0,6 log(0,62)) = 0,6763. Der Unterschied zwischen dem Besten und dem Schlechtesten beträgt 0,0031.

Wang & Gelman 2014 behaupten, dass diese Unterschiede „bei einer Kreuzvalidierungsberechnung kaum auffallen würden, wenn die Anzahl der Beobachtungen in der Zelle nicht riesig wäre“. Aber in der Politik gibt es einen bedeutenden Unterschied zwischen 38 % und 44 % einer Gruppe.

Ist der Lebenslauf genau genug, um zwischen diesen Schätzungen zu unterscheiden? Bates et al. 2024 Untersuchen Sie die Unsicherheitsintervalle für CV-Schätzungen. Lassen:

  • yhat_i = geschätzte Wahrscheinlichkeit, dass ich ein Demokrat ist, geschätzt anhand der CV-Falten ohne i
  • e_i = Verlust(y_i, yhat_i) = – (y_i log yhat_i + (1-y_i) log (1-yhat_i))
  • n = Stichprobengröße für die Zelle, die wir betrachten

Bates et al. 2024 Rufen Sie sqrt(Var(e_i)/n) auf naiv CV-Standardfehler. (Naiv, weil es die Korrelation zwischen den Fehlern nicht berücksichtigt.) Erweitern Wang & Gelman 2014Berechnungen für die Rückseite des Umschlags, ohne Variabilität über die Falten hinweg:

a <- -log(0.41)
b <- -log(0.59)
mu <- 0.4 * a + 0.6 * b
var_e <- 0.4 * (a - mu)^2 + 0.6 * (b - mu)^2
SE <- 0.0031 / 2
n <- var_e / SE^2

Wir bräuchten in dieser Zelle n = 13.000, um zwischen den besten und schlechtesten Modellen zu unterscheiden.

Als Wang & Gelman 2014 schreiben:

Das Downside besteht darin, dass verbesserte Anpassungen mit Binärdaten zu winzigen Verbesserungen des Protokollverlusts führen, und zwar bei moderaten Stichprobengrößen, die kaum von Rauschen zu unterscheiden sind, selbst wenn die verbesserten Schätzungen in aggregierter Kind von wesentlicher Bedeutung sind (z. B. öffentliche Meinung auf Landesebene).

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert