Umfragestatistik: designbasierte Kreuzvalidierung (dCV)

Letzte Woche Wir haben gesehen, wie Kreuzvalidierungsrauschen wichtige Modellunterschiede überdecken kann (Wang & Gelman 2014). Die Kommentare stellten eine weitere Herausforderung dar: Wie kann man strukturierte Daten in Trainings- und Testsätze aufteilen?

Aki erklärt Optionen Hier:

Thomas Lumleys Blogbeitrag und Mitautor des Artikels Iparragirre et al. (2023) Erkunden Sie den Lebenslauf mithilfe von „Replikationsgewichtungen“-Ideen:

Replikationsgewichtungsmethoden teilen die Stichprobe in teilweise unabhängige Teilstichproben auf und ändern die Gewichte so, dass jede Teilstichprobe die ursprüngliche Stichprobe repliziert. Sie werden normalerweise zur Varianzschätzung verwendet, aber Iparragirre et al. (2023) Berücksichtigen Sie sie für die Fehlerschätzung außerhalb der Stichprobe.

Obwohl ich mich für BRR (Balanced Repeated Replication) entschieden habe, weil ich bei arbeite Blaue Rosenforschungscheint eine bessere Methode zu sein Designbasierte Kreuzvalidierung (dCV)dargestellt in ihrer Abbildung 1(d):

Jeder Punkt ist eine PSU (primäre Stichprobeneinheit), bei der es sich um eine Einzelperson handeln kann, es sich jedoch häufig um eine Gruppe/einen Cluster von Personen handelt. Jede Farbe ist eine Schicht. dCV ist der übliche Ok-Fold-CV, aber:

Geteilte Netzteile, keine Einzelpersonen
eine Spaltung ablehnen, wenn eine ganze Schicht in eine Falte fällt
Ändern Sie die Gewichte so, dass jede Teilstichprobe die ursprüngliche Stichprobe repliziert

Der erste spiegelt Akis oben genannten LOGO-Lebenslauf (leave-one-group-out) wider. Die dritte ist eine Idee aus Replikatgewichten.

Die ersten beiden scheinen auch für Nichtwahrscheinlichkeitsstichproben nützlich zu sein? Angenommen, es gibt eine Struktur in den Daten und unsere Vorhersageaufgabe besteht darin, Vorhersagen für neue Schulen (PSU-ähnlich), aber für bestehende Staaten (schichtenähnlich) zu treffen. Gibt es dafür eine gute Referenz?

Umfragestatistik: designbasierte Kreuzvalidierung (dCV)

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

5 unverzichtbare Python-Konzepte für Datenwissenschaftler

Der physische KI-Datensatzstapel: 4 Ebenen erklärt

Es sind die Lektionen, die wir auf unserem Weg gelernt haben. Oder doch?

Sicherstellung der Datenintegrität mit kryptografischem Hashing und der Ethereum-Blockchain

About

Categories

Tags

Recent Post

5 unverzichtbare Python-Konzepte für Datenwissenschaftler

Der physische KI-Datensatzstapel: 4 Ebenen erklärt

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt