Datenwissenschaft

Easy Random Sampling (SRS) funktioniert, aber wenn Sie Chance Proportional to Dimension Sampling (PPS) nicht kennen, riskieren Sie einige kritische statistische Fehler. Erfahren Sie hier, warum, wann und wie Sie PPS Sampling nutzen können!

Foto von Justin Morgan An Unsplash

Rahul beschließt, den „Puls“ der Kunden zu messen, die in seinem On-line-Store einkaufen. Er wollte wissen, wie es ihnen geht, was intestine läuft und was für die Benutzererfahrung verbessert werden kann. Da er etwas über Mathematik gelernt hat und das Zahlenspiel kennt, beschließt er, eine Umfrage bei 200 seiner 2500 Kunden durchzuführen. Rahul verwendet einfache Zufallsstichproben und erhält 200 eindeutige Kunden-IDs. Er schickt ihnen eine On-line-Umfrage und erhält die Ergebnisse. Laut der Umfrage battle das größte Hindernis für die Kunden das Fehlen von Zahlungsmöglichkeiten beim Auschecken. Rahul kontaktiert einige Anbieter und investiert in die Einführung einiger weiterer Zahlungsoptionen. Leider zeigten die Ergebnisse nach sechs Monaten, dass es zu keiner nennenswerten Umsatzsteigerung kam. Seine Analyse schlägt fehl und er fragt sich, ob die Ressourcen am richtigen Ort eingesetzt wurden.

Rahul ignorierte die größte Wahrheit von allen. Nicht alle Kunden sind homogen. Manche geben mehr aus, manche weniger und wieder andere geben viel aus. Sei nicht wie Rahul. Machen Sie es wie Sheila und erfahren Sie, wie Sie PPS Sampling – einen Ansatz, der sicherstellt, dass Ihre wichtigsten (profitabelsten) Kunden nie übersehen werden – für sinnvolle und robuste statistische Analysen nutzen können.

Was ist Probenahme?

Bevor ich auf PPS-Sampling eingehe, möchte ich kurz erläutern, was Sampling ist. Die Stichprobenziehung ist eine statistische Technik, die es uns ermöglicht, einen Teil unserer Bevölkerung zu nehmen und diesen Teil unserer Bevölkerung zu verwenden, um einige Merkmale der Bevölkerung zu messen. Zum Beispiel die Entnahme einer Blutprobe, um festzustellen, ob wir an einer Infektionskrankheit leiden, die Entnahme einer Milchreisprobe, um zu überprüfen, ob Zucker ausreicht, und die Entnahme einer Probe bei Kunden, um den allgemeinen Puls der Kunden zu messen. Da wir es uns nicht leisten können, jede einzelne Einheit der Gesamtbevölkerung zu messen, ist es am besten, eine Stichprobe zu entnehmen und daraus die Merkmale der Bevölkerung abzuleiten. Dies reicht hier für eine Definition aus. Wenn Sie weitere Informationen zur Probenahme benötigen, finden Sie im Web zahlreiche Ressourcen.

Was ist PPS-Probenahme?

Die Wahrscheinlichkeitsproportional-zu-Größen-Stichprobe (PPS) ist eine Stichprobentechnik, bei der die Wahrscheinlichkeit der Auswahl einer Einheit in der Stichprobe von der Größe einer definierten Variablen oder einer Hilfsvariablen abhängt.

WAS???

Lassen Sie es mich anhand eines Beispiels erklären. Angenommen, Sie haben einen On-line-Store und 1000 Personen sind Ihre Kunden. Manche Kunden geben viel Geld aus und bringen Ihrem Unternehmen große Einnahmen. Das sind sehr wichtige Kunden. Sie müssen sicherstellen, dass Ihre Organisation die Interessen dieser Kunden bestmöglich wahrnimmt.

Wenn Sie die Stimmung dieser Kunden verstehen möchten, bevorzugen Sie eine Scenario, in der Ihre Stichprobe diese Kunden besser repräsentiert. Genau das ermöglicht Ihnen PPS. Wenn Sie PPS Sampling verwenden, ist die Wahrscheinlichkeit, die umsatzstärksten Kunden auszuwählen, ebenfalls hoch. Das macht Sinn. Der Erlös ist in diesem Fall die Hilfs- bzw. Abhängigkeitsvariable.

PPS-Probenahme vs. SRS-Probenahme

Einfache Zufallsstichproben sind großartig. Das lässt sich nicht leugnen, aber es ist nicht das einzige Werkzeug, das Sie in Ihrem Arsenal haben. SRS eignet sich am besten für Situationen, in denen Sie Die Bevölkerung ist homogen. Leider ist bei vielen praktischen Geschäftsanwendungen das Publikum oder die Bevölkerung nicht homogen. Wenn Sie eine Analyse mit falschen Annahmen durchführen, werden Sie falsche Schlussfolgerungen ziehen. Die SRS-Stichprobe gibt jeder Einheit der Grundgesamtheit die gleiche Auswahlwahrscheinlichkeit, was sich von der PPS-Stichprobe unterscheidet.

Warum sollte ich PPS Sampling verwenden?

Wie der Titel dieses Artikels schon sagt, können Sie es sich nicht leisten, PPS Sampling nicht zu kennen. Hier sind fünf Gründe dafür.

  1. Bessere Repräsentativität — Indem Sie die Einheiten priorisieren, die einen größeren Einfluss auf Ihre Interessenvariable (Umsatz) haben, stellen Sie sicher, dass die Stichprobe eine bessere Repräsentativität aufweist. Dies steht im Gegensatz zu SRS, das davon ausgeht, dass ein Kunde, der 100 USD professional Monat ausgibt, dem Kunden entspricht, der 1000 USD professional Monat ausgibt. Nein, nein, nahin, das ist nicht der Fall.
  2. Konzentrieren Sie sich auf leistungsstarke Einheiten — Nach dem Pareto-Prinzip werden 80 % Ihres Umsatzes von 20 % der Kunden generiert. Sie müssen sicherstellen, dass Sie diese 20 % der Kunden nicht verärgern. Indem Sie sicherstellen, dass eine Stichprobe bei diesen 20 % der Kunden ein größeres Mitspracherecht hat, vermeiden Sie für sich und Ihre Kunden unerwartete Überraschungen.
  3. Ressourceneffizienz — In der Statistik gibt es eine Faustregel, die besagt, dass man im Durchschnitt bei einer Stichprobe von 30 Personen nahe an die geschätzten Bevölkerungsparameter herankommen kann. Beachten Sie, dass dies nur eine Faustregel ist. Mit PPS Sampling können Sie die Ressourcen, die Ihnen beim Entwerfen, Verteilen und Analysieren von Interventionen zur Verfügung stehen, sinnvoll einsetzen.
  4. Verbesserte Genauigkeit — Da wir den Einheiten, die einen größeren Einfluss auf unsere interessierende Variable haben, mehr Gewicht beimessen, sind wir bei unserer Analyse genauer. Dies ist möglicherweise nicht nur mit SRS möglich. Die Stichprobenschätzungen, die Sie von PPS Sampling erhalten, werden für die Einheiten gewichtet, die eine größere Auswirkung haben. Mit einfachen Worten: Sie arbeiten für diejenigen, die am meisten zahlen.
  5. Bessere Entscheidungsfindung — Wenn Sie PPS-Stichproben verwenden, treffen Sie Entscheidungen auf der Grundlage von Daten, die wirklich wichtig sind. Wenn Sie Kunden nur nach dem Zufallsprinzip befragen, erhalten Sie möglicherweise Suggestions oder Erkenntnisse von Personen, deren Meinung kaum Einfluss auf Ihren Umsatz hat. Mit PPS konzentrieren Sie sich auf die wichtigen Kunden. Es ist, als würde man den richtigen Leuten die richtigen Fragen stellen und nicht irgendjemandem in der Menge.

PPS-Implementierung in Python

Vor etwas mehr als sechs Jahren schrieb ich dieser Artikel auf Medium, einem meiner meistgelesenen Artikel, der auf der ersten Seite angezeigt wird, wenn Sie nach Chance Proportional to Dimension Sampling (von nun an PPS Sampling) suchen. Der Artikel zeigt, wie man PPS Sampling für repräsentative Stichproben mit Python nutzen kann. Seitdem ist viel Wasser unter die Brücke geflossen, und ich habe jetzt viel mehr Erfahrung im Kausalschluss, und auch meine Python-Kenntnisse haben sich erheblich verbessert. Der oben verlinkte Code verwendete systematische PPS-Stichproben, während der neue Code zufällige PPS-Stichproben verwendet.

Hier ist der neue Code, der dasselbe auf effizientere Weise tun kann.

import numpy as np
import pandas as pd

# Simulate buyer knowledge
np.random.seed(42) # For reproducibility
num_customers = 1000
prospects = (f"C{i}" for i in vary(1, num_customers + 1))

# Simulate income knowledge (e.g., income between $100 and $10,000)
revenues = np.random.randint(100, 10001, dimension=num_customers)

customer_data = pd.DataFrame({
"Buyer": prospects,
"Income": revenues
})

# Calculate choice chances proportional to income
total_revenue = customer_data("Income").sum()
customer_data("Selection_Prob") = customer_data("Income") / total_revenue

# Carry out PPS Sampling
sample_size = 60 # resolve to your evaluation

# the precise PPS algorithm
sample_indices = np.random.selection(
customer_data.index,
dimension=sample_size,
exchange=False, # No substitute, we aren't changing the items
p=customer_data("Selection_Prob")
)

# Extract sampled prospects
sampled_customers = customer_data.iloc(sample_indices)

# Show outcomes
print("Sampled Clients:")
print(sampled_customers)

Herausforderungen bei der PPS-Probenahme

Wenn Sie bis hierher gelesen haben, fragen Sie sich sicher, wie es möglich ist, dass PPS Sampling keine Nachteile hat. Nun, es hat welche. Hier sind sie.

  1. PPS Sampling ist komplex zu verstehen und wird daher möglicherweise nicht immer vom Administration einer Organisation unterstützt. In diesem Fall ist es die Aufgabe des Datenwissenschaftlers, dafür zu sorgen, dass die Vorteile richtig erklärt werden.
  2. PPS Sampling erfordert, dass eine Abhängigkeitsvariable vorhanden ist. In unserem Fall haben wir beispielsweise den Umsatz als Variable ausgewählt, anhand derer wir unsere Einheiten auswählen. Wenn Sie in der Landwirtschaft tätig sind, könnte dies die Landgröße zur Messung des Ertrags einer Erntesaison sein.
  3. Es wird davon ausgegangen, dass die PPS-Stichprobe voreingenommen ist und die Einheiten mit geringerer Auswirkung berücksichtigt. Nun, es ist nicht voreingenommen und die kleineren Einheiten haben auch eine Probability, ausgewählt zu werden, aber die Wahrscheinlichkeit ist für sie geringer.

Abschluss

In diesem Artikel habe ich Ihnen erklärt, was PPS Sampling ist, warum es besser und ressourceneffizienter als SRS Sampling ist und wie Sie es mit Python implementieren können. Ich bin gespannt auf weitere Beispiele aus Ihrer Arbeit, um zu sehen, wie Sie PPS bei Ihrer Arbeit umsetzen.

Ressourcen:

  1. PPS-Sampling-Wiki https://en.wikipedia.org/wiki/Chance-proportional-to-size_sampling
  2. PPS-Sampling in Python https://chaayushmalik.medium.com/pps-sampling-in-python-b5d5d4a8bdf7

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert