Letztes Jahr haben wir gesehen, dass Verluste auf individueller Ebene für die Auswahl von Modellen möglicherweise nicht optimum sind MRP („Individualismus funktioniert nicht“).
Der typische Blick auf maschinelles Lernen Verlust auf individueller Ebene (y_i, yhat_i).
Aber für MRP kümmern wir uns Verlust auf Bevölkerungsebene(E(Y), E(yhat_i)) Dabei ist E(Y) der unbekannte Populationsmittelwert und E(yhat_i) unsere MRP-Schätzung.

Anfang dieses Monats Wir haben gesehen, dass das Modell den Verlust auf individueller Ebene minimiert in der Probe ist möglicherweise nicht das Modell, das Verluste auf individueller Ebene minimiert in der Bevölkerung:

Kuh et al. 2023 versuchte einen bevölkerungsgewichteten Verlust auf individueller Ebene, stellte jedoch fest, dass sich die Reihenfolge der Modelle immer noch deutlich vom Verlust auf Bevölkerungsebene unterscheidet. Es geht additionally nicht nur um die Gewichtung, sondern um die Aggregation.
Okay, aber mit dem Verlust auf individueller Ebene (y_i, yhat_i) haben wir in unserer Umfrage die Grundwahrheit y_i.
Für Loss(E(Y), E(yhat_i)) auf Bevölkerungsebene haben wir nicht die Grundwahrheit E(Y).
Kennedy et al. 2024 Ersetzen Sie E(Y) durch die klassische Poststratifizierungsschätzung E(ybar_X) (siehe Beitrag zur Poststratifizierung). Dies wird jedoch minimiert, wenn die mehrstufige Regression („MR“ von MRP) ybar_X ist, eine Datenzusammenfassung und kein reguliertes Modell. Dies kann zu einer Überanpassung an die Umfragedaten führen und sich schlecht verallgemeinern lassen. Dies ist analog zur Minimierung von Trainingsfehlern für Verluste auf individueller Ebene, siehe ESL S.221:

Wie in ESL, Kennedy et al. 2024 Behandeln Sie dies mit einer Kreuzvalidierung.
