Umfragestatistik: Fettbärwoche

Glücklich Fettbärwoche an alle, die feiern. Letztes Jahr habe ich einen Cartoon namens Basus Bären gemachtangepasst von Basus (1971) Beispiel für Elefanten, eine Lehre zur Verwendung von Hilfsinformationen in Umfragestatistiken.

Ich wurde von Brendan Leonard inspiriert, der schrieb Bären kümmern sich nicht um Ihre Probleme.

Bären kümmern sich nicht um Ihre Probleme mit der Bücherdeckung

Dieser Bär schafft meine Probleme:

Hier ist R -Code, um Ihre eigenen Schätzungen und Diagramme wie die folgenden zu generieren:

In meinem Code habe ich mit Verteilungen von Vorfestgewichten herumgespielt, um besser zu sehen, wie sich die SRS-VS-PPS-Probenahme unterscheidet. Ich struggle neugierig, weil die Verwendung der Gewichte vor dem Fest im Stichprobendesign (PPS) mit einem unvoreingenommenen Schätzer der gleiche Schätzer ist wie die Verwendung der Vorfestgewichte in der Analyse durch Kalibrierung. Ihre Verteilungen unterscheiden sich jedoch mit unterschiedlichen Stichprobenentwürfen.

library(tidyverse)
choices(scipen = 999)
set.seed(1)

N = 50 # variety of bears on stage

# Assume a bimodal distribution of pre-feasts weights
# (this helps see variations between SRS and PPS sampling):
mu_x_small = 500 # common weight of small bears earlier than feasts
mu_x_big = 3000 # common weight of enormous bears earlier than feasts
sigma_x = 100 # variability in dimension round small or massive averages

# now assume all of the bears feast on about 3000 kilos of salmon:
alpha = 3000
beta = 1
sigma_e = 300 # variability in feasting skill
X = c(rnorm(n = N/2, imply = mu_x_small, sd = sigma_x),
rnorm(n = N/2, imply = mu_x_big, sd = sigma_x))
Y = rnorm(n = N, imply = alpha + beta*X, sd = sigma_e)
sum(Y<0)
sum(X<0)
sd(X)
sd(Y)
cor(X,Y)
sd(Y/X) # how proportional are pre and publish weights ?

Sambo = which.min(abs(X - imply(X)))

ranger_design = rep(0, N)
ranger_design(Sambo) = 1
sum(ranger_design)

# scale back the extremeness of the compromise design so the plot is readable:
compromise_design = rep(1/490, N)
compromise_design(Sambo) = 9/10
sum(compromise_design)

SRS_design = rep(1/N, N)
sum(SRS_design)

PPS_design = X/sum(X)
sum(PPS_design)

num_sim = 10000000

That_ranger = rep(NA, num_sim)
That_compromise_unbiased = rep(NA, num_sim)
That_SRS_cal_X = rep(NA, num_sim)
That_PPS_unbiased = rep(NA, num_sim)

for (s in 1:num_sim) {
i_ranger = pattern(x = 1:N, dimension = 1, prob = ranger_design)
i_compromise = pattern(x = 1:N, dimension = 1, prob = compromise_design)
i_SRS = pattern(x = 1:N, dimension = 1, prob = SRS_design)
i_PPS = pattern(x = 1:N, dimension = 1, prob = PPS_design)

# this estimator is greatest if the ranger is appropriate in 
# selecting Sambo because the average-sized post-feast bear:
That_ranger(s) = N * Y(Sambo)

# this estimator is dangerous irrespective of which bear you select
# however appropriate on common (i.e. unbiased):
That_compromise_unbiased(s) = 1/compromise_design(i_compromise) * Y(i_compromise)

# These two are the identical estimators, however differ in sampling design,
# they're greatest if you happen to select an average-expanding Y_i/X_i bear:
That_SRS_cal_X(s) = sum(X) * Y(i_SRS)/X(i_SRS)
That_PPS_unbiased(s) = 1/PPS_design(i_PPS) * Y(i_PPS)
}

T_y = sum(Y)

teams <- c("That_compromise_unbiased","That_ranger","That_SRS_cal_X","That_PPS_unbiased")
values <- c(That_compromise_unbiased, That_ranger, That_SRS_cal_X, That_PPS_unbiased)

df <- knowledge.body(
worth = values,
group = issue(rep(teams, occasions = c(size(That_compromise_unbiased),
size(That_ranger),
size(That_SRS_cal_X),
size(That_PPS_unbiased))),
ranges = teams)
)

lines_df <- knowledge.body(
xint = c(Y(Sambo), T_y),
which = c("Sambo Worth","T_y")
)

ggplot(df, aes(x = worth, fill = group)) +
geom_histogram(aes(y = after_stat(density)),
place = "id", alpha = 0.6, bins = 200) +
geom_vline(knowledge = lines_df,
aes(xintercept = xint, colour = which),
linetype = "dashed", linewidth = 1) +
scale_fill_manual(
values = c(That_compromise_unbiased = "orange",
That_ranger = "inexperienced",
That_SRS_cal_X = "pink",
That_PPS_unbiased = "blue"),
breaks = teams,
labels = c(
expression(hat(T)(y)^{compromise~unbiased}),
expression(hat(T)(y)^{ranger}),
expression(hat(T)(y)^{SRS~cal:~T(x)}),
expression(hat(T)(y)^{PPS~unbiased})
)
) +
scale_color_manual(
values = c("Sambo Worth" = "grey", "T_y" = "black"),
title = "Values",
breaks = c("Sambo Worth","T_y"),
labels = c(expression(Y(Sambo)), expression(T(y)))
) +
labs(
title = expression("4 Estimators of Basu's Bears' Complete Weight"~T(y)),
x = expression(hat(T)(y)),
y = NULL,
fill = "Estimators"
) +
theme_minimal() +
theme(axis.textual content.y = element_blank(),
axis.ticks.y = element_blank()) + 
theme(panel.background = element_rect(fill = "white", colour = NA),
plot.background = element_rect(fill = "white", colour = NA))


ggsave("basus_bears.png", width = 8, top = 6, dpi = 300)

Umfragestatistik: Fettbärwoche

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

Was ist der F1-Rating beim maschinellen Lernen?

So erstellen Sie vertragsorientierte Agentenentscheidungssysteme mit PydanticAI für eine risikobewusste, richtlinienkonforme Unternehmens-KI

Samsung Bixby erhält in einem neuen Replace die KI-Suchfunktionen von Perplexity

Neues Steuerungssystem bringt Softrobotern die Kunst bei, sicher zu bleiben | MIT-Nachrichten

About

Categories

Tags

Recent Post

Was ist der F1-Rating beim maschinellen Lernen?

So erstellen Sie vertragsorientierte Agentenentscheidungssysteme mit PydanticAI für eine risikobewusste, richtlinienkonforme Unternehmens-KI

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt