Wahrscheinlichkeitskonzepte, die Sie tatsächlich in der Datenwissenschaft verwenden werdenWahrscheinlichkeitskonzepte, die Sie tatsächlich in der Datenwissenschaft verwenden werden
Bild vom Autor

# Einführung

Betreten des Feldes von Datenwissenschaftdas wurde Ihnen wahrscheinlich gesagt muss Wahrscheinlichkeit verstehen. Das stimmt zwar, bedeutet aber nicht, dass Sie jeden Satz aus einem Statistiklehrbuch verstehen und sich daran erinnern müssen. Was Sie wirklich brauchen, ist ein praktisches Verständnis der Wahrscheinlichkeitsideen, die in realen Projekten ständig auftauchen.

In diesem Artikel konzentrieren wir uns auf die Wahrscheinlichkeitsgrundlagen, die tatsächlich wichtig sind, wenn Sie Modelle erstellen, Daten analysieren und Vorhersagen treffen. In der realen Welt sind Daten chaotisch und unsicher. Die Wahrscheinlichkeit gibt uns die Werkzeuge an die Hand, um diese Unsicherheit zu quantifizieren und fundierte Entscheidungen zu treffen. Lassen Sie uns nun die wichtigsten Wahrscheinlichkeitskonzepte aufschlüsseln, die Sie jeden Tag verwenden werden.

# 1. Zufallsvariablen

Eine Zufallsvariable ist einfach eine Variable, deren Wert durch Zufall bestimmt wird. Stellen Sie es sich als einen Container vor, der verschiedene Werte mit jeweils einer bestimmten Wahrscheinlichkeit enthalten kann.

Es gibt zwei Typen, mit denen Sie ständig arbeiten werden:

Diskrete Zufallsvariablen zählbare Werte annehmen. Beispiele hierfür sind die Anzahl der Kunden, die Ihre Web site besuchen (0, 1, 2, 3…), die Anzahl fehlerhafter Produkte in einer Cost, Münzwurfergebnisse (Kopf oder Zahl) und mehr.

Kontinuierliche Zufallsvariablen kann innerhalb eines vorgegebenen Bereichs jeden beliebigen Wert annehmen. Beispiele hierfür sind Temperaturwerte, Zeit bis zum Ausfall eines Servers, Buyer Lifetime Worth und mehr.

Das Verständnis dieser Unterscheidung ist wichtig, da unterschiedliche Arten von Variablen unterschiedliche Wahrscheinlichkeitsverteilungen und Analysetechniken erfordern.

# 2. Wahrscheinlichkeitsverteilungen

Eine Wahrscheinlichkeitsverteilung beschreibt alle möglichen Werte, die eine Zufallsvariable annehmen kann, und wie wahrscheinlich jeder Wert ist. Jedes maschinelle Lernmodell trifft Annahmen über die zugrunde liegende Wahrscheinlichkeitsverteilung Ihrer Daten. Wenn Sie diese Verteilungen verstehen, wissen Sie, wann die Annahmen Ihres Modells gültig sind und wann nicht.

// Die Normalverteilung

Die Normalverteilung (oder Gaußsche Verteilung) ist in der Datenwissenschaft allgegenwärtig. Charakteristisch ist die Glockenkurvenform, bei der sich die meisten Werte um den Mittelwert gruppieren und auf beiden Seiten symmetrisch auslaufen.

Viele Naturphänomene folgen Normalverteilungen (Höhen, Messfehler, IQ-Werte). Viele statistische Assessments gehen von Normalität aus. Bei der linearen Regression wird davon ausgegangen, dass Ihre Residuen (Vorhersagefehler) normalverteilt sind. Das Verständnis dieser Verteilung hilft Ihnen, Modellannahmen zu validieren und Ergebnisse richtig zu interpretieren.

// Die Binomialverteilung

Die Binomialverteilung modelliert die Anzahl der Erfolge in einer festen Anzahl unabhängiger Versuche, wobei jeder Versuch die gleiche Erfolgswahrscheinlichkeit aufweist. Stellen Sie sich vor, Sie werfen zehnmal eine Münze und zählen „Kopf“ oder schalten 100 Anzeigen und zählen Klicks.

Sie verwenden dies, um Klickraten, Konversionsraten, A/B-Testergebnisse und Kundenabwanderung zu modellieren (werden sie abwandern: ja/nein?). Immer wenn Sie „Erfolg“- oder „Misserfolg“-Szenarien mit mehreren Versuchen modellieren, sind Binomialverteilungen Ihr Freund.

// Die Poisson-Verteilung

Die Poisson-Verteilung modelliert die Anzahl der Ereignisse, die in einem festen Zeit- oder Raumintervall auftreten, wenn diese Ereignisse unabhängig voneinander mit einer konstanten Durchschnittsrate auftreten. Der Schlüsselparameter ist Lambda ((lambda)), der die durchschnittliche Häufigkeit des Auftretens darstellt.

Sie können die Poisson-Verteilung verwenden, um die Anzahl der Kundensupport-Tickets professional Tag, die Anzahl der Serverfehler professional Stunde, die Vorhersage seltener Ereignisse und die Anomalieerkennung zu modellieren. Wenn Sie Zähldaten mit einer bekannten Durchschnittsrate modellieren müssen, ist Poisson Ihre Verteilung.

# 3. Bedingte Wahrscheinlichkeit

Die bedingte Wahrscheinlichkeit ist die Wahrscheinlichkeit, dass ein Ereignis eintritt, vorausgesetzt, dass bereits ein anderes Ereignis eingetreten ist. Wir schreiben dies als ( P(A|B) ), gelesen als „die Wahrscheinlichkeit von A bei gegebenem B.“

Dieses Konzept ist für maschinelles Lernen absolut grundlegend. Wenn Sie einen Klassifikator erstellen, berechnen Sie im Wesentlichen (P(textual content{Klasse}|textual content{Options}) ): die Wahrscheinlichkeit einer Klasse angesichts der Eingabemerkmale.

Erwägen Sie die Erkennung von E-Mail-Spam. Wir wollen wissen: ( P(textual content{Spam} | textual content{comprises „free“}) ): Wenn eine E-Mail das Wort „free“ enthält, wie hoch ist die Wahrscheinlichkeit, dass es sich um Spam handelt? Um dies zu berechnen, benötigen wir:

  • ( P(textual content{Spam}) ): Die Gesamtwahrscheinlichkeit, dass es sich bei einer E-Mail um Spam handelt (Basisrate)
  • ( P(textual content{enthält „kostenlos“}) ): Wie oft das Wort „kostenlos“ in E-Mails vorkommt
  • ( P(textual content{enthält „kostenlos“} | textual content{Spam}) ): Wie oft Spam-E-Mails „kostenlos“ enthalten

Diese letzte bedingte Wahrscheinlichkeit ist das, worauf wir bei der Klassifizierung wirklich Wert legen. Dies ist die Grundlage der Naive-Bayes-Klassifikatoren.

Jeder Klassifikator schätzt bedingte Wahrscheinlichkeiten. Empfehlungssysteme verwenden ( P(textual content{Benutzer magazine Artikel} | textual content{Benutzerverlauf}) ). Die medizinische Diagnose verwendet ( P(textual content{Krankheit} | textual content{Symptome}) ). Das Verständnis der bedingten Wahrscheinlichkeit hilft Ihnen, Modellvorhersagen zu interpretieren und bessere Funktionen zu erstellen.

# 4. Satz von Bayes

Der Satz von Bayes ist eines der leistungsstärksten Werkzeuge in Ihrem Information-Science-Toolkit. Es sagt uns, wie wir unsere Überzeugungen über etwas aktualisieren können, wenn wir neue Beweise erhalten.

Die Formel sieht so aus:

(
P(A|B) = fracA) cdot P(A){P(B)}
)

Lassen Sie uns dies anhand eines medizinischen Testbeispiels aufschlüsseln. Stellen Sie sich einen diagnostischen Take a look at vor, der zu 95 % genau ist (sowohl zur Erkennung echter Fälle als auch zum Ausschluss von Nicht-Fällen). Wenn die Krankheitsprävalenz in der Bevölkerung nur 1 % beträgt und Ihr Take a look at positiv ausfällt, wie hoch ist dann die tatsächliche Wahrscheinlichkeit, dass Sie an der angegebenen Krankheit leiden?

Überraschenderweise sind es nur etwa 16 %. Warum? Denn bei einer geringen Prävalenz gibt es mehr falsch-positive Ergebnisse als wahr-positive Ergebnisse. Dies zeigt eine wichtige Erkenntnis, die als bekannt ist Basiszins-Irrtum: Sie müssen die Basisrate (Prävalenz) berücksichtigen. Mit zunehmender Prävalenz steigt die Wahrscheinlichkeit, dass ein positiver Take a look at bedeutet, dass Sie wirklich positiv sind, dramatisch an.

Wo Sie dies verwenden werden: A/B-Testanalyse (Aktualisierung der Überzeugungen darüber, welche Model besser ist), Spam-Filter (Aktualisierung der Spam-Wahrscheinlichkeit, wenn Sie mehr Funktionen sehen), Betrugserkennung (Kombination mehrerer Signale) und wann immer Sie Vorhersagen mit neuen Informationen aktualisieren müssen.

# 5. Erwarteter Wert

Der Erwartungswert ist das durchschnittliche Ergebnis, das Sie erwarten würden, wenn Sie etwas mehrmals wiederholen würden. Sie berechnen es, indem Sie jedes mögliche Ergebnis nach seiner Wahrscheinlichkeit gewichten und dann diese gewichteten Werte summieren.

Dieses Konzept ist wichtig, um datengesteuerte Geschäftsentscheidungen zu treffen. Stellen Sie sich eine Marketingkampagne vor, die 10.000 US-Greenback kostet. Sie schätzen:

  • 20 % Probability auf großen Erfolg (50.000 $ Gewinn)
  • 40 % Probability auf mäßigen Erfolg (20.000 $ Gewinn)
  • 30 % Probability auf schlechte Leistung (Gewinn von 5.000 $)
  • 10 % Wahrscheinlichkeit eines vollständigen Scheiterns (Gewinn von 0 $)

Der erwartete Wert wäre:

(
(0,20 instances 40000) + (0,40 instances 10000) + (0,30 instances -5000) + (0,10 instances -10000) = 9500
)

Da dieser positiv ist (9.500 US-Greenback), lohnt es sich, die Kampagne unter Erwartungswertgesichtspunkten zu starten.

Sie können dies bei Entscheidungen zur Preisstrategie, bei der Ressourcenzuweisung, bei der Function-Priorisierung (erwarteter Wert des Gebäudefeatures X), bei der Risikobewertung für Investitionen und bei jeder Geschäftsentscheidung verwenden, bei der Sie mehrere ungewisse Ergebnisse abwägen müssen.

# 6. Das Gesetz der großen Zahlen

Der Gesetz der großen Zahlen besagt, dass sich der Stichprobendurchschnitt dem erwarteten Wert annähert, je mehr Proben Sie sammeln. Aus diesem Grund wollen Datenwissenschaftler immer mehr Daten.

Wenn Sie eine faire Münze werfen, können die ersten Ergebnisse eine Kopfquote von 70 % aufweisen. Wenn Sie es jedoch 10.000 Mal umdrehen, werden Sie eine Kopfquote von quick 50 % erreichen. Je mehr Proben Sie sammeln, desto zuverlässiger werden Ihre Schätzungen.

Aus diesem Grund können Sie Kennzahlen aus kleinen Stichproben nicht vertrauen. Ein A/B-Take a look at mit 50 Nutzern professional Variante könnte ergeben, dass eine Model zufällig gewinnt. Der gleiche Take a look at mit 5.000 Benutzern professional Variante liefert deutlich zuverlässigere Ergebnisse. Dieses Prinzip liegt den statistischen Signifikanztests und Stichprobengrößenberechnungen zugrunde.

# 7. Zentraler Grenzwertsatz

Der Zentraler Grenzwertsatz (CLT) ist wahrscheinlich die wichtigste Idee in der Statistik. Darin heißt es, dass, wenn Sie ausreichend große Stichproben nehmen und deren Mittelwerte berechnen, diese Stichprobenmittelwerte einer Normalverteilung folgen – auch wenn dies bei den Originaldaten nicht der Fall ist.

Dies ist hilfreich, da es bedeutet, dass wir Normalverteilungswerkzeuge für Rückschlüsse auf quick jede Artwork von Daten verwenden können, solange wir über genügend Stichproben verfügen (normalerweise wird ( n geq 30 ) als ausreichend angesehen).

Wenn Sie beispielsweise eine Stichprobe anhand einer Exponentialverteilung (stark verzerrt) erstellen und Mittelwerte für Stichproben mit der Größe 30 berechnen, sind diese Mittelwerte annähernd normalverteilt. Dies funktioniert für Gleichverteilungen, bimodale Verteilungen und quick jede erdenkliche Verteilung.

Dies ist die Grundlage für Konfidenzintervalle, Hypothesentests und A/B-Assessments. Aus diesem Grund können wir aus Stichprobenstatistiken statistische Rückschlüsse auf Bevölkerungsparameter ziehen. Aus diesem Grund funktionieren T-Assessments und Z-Assessments auch dann, wenn Ihre Daten nicht ganz regular sind.

# Zusammenfassung

Diese Wahrscheinlichkeitsideen sind keine eigenständigen Themen. Sie bilden ein Toolkit, das Sie bei jedem Information-Science-Projekt verwenden werden. Je mehr Sie üben, desto natürlicher wird diese Denkweise. Fragen Sie sich bei der Arbeit immer wieder:

  • Von welcher Verteilung gehe ich aus?
  • Welche bedingten Wahrscheinlichkeiten modelliere ich?
  • Was ist der erwartete Wert dieser Entscheidung?

Diese Fragen werden Sie zu klareren Überlegungen und besseren Modellen führen. Wenn Sie sich mit diesen Grundlagen vertraut machen, werden Sie effektiver über Daten, Modelle und die darauf basierenden Entscheidungen nachdenken. Und jetzt bauen Sie etwas Großartiges!

Bala Priya C ist ein Entwickler und technischer Redakteur aus Indien. Sie arbeitet gerne an der Schnittstelle von Mathematik, Programmierung, Datenwissenschaft und Inhaltserstellung. Zu ihren Interessen- und Fachgebieten gehören DevOps, Datenwissenschaft und Verarbeitung natürlicher Sprache. Sie liebt es zu lesen, zu schreiben, zu programmieren und Kaffee zu trinken! Derzeit arbeitet sie daran, zu lernen und ihr Wissen mit der Entwickler-Neighborhood zu teilen, indem sie Tutorials, Anleitungen, Meinungsbeiträge und mehr verfasst. Bala erstellt außerdem ansprechende Ressourcenübersichten und Programmier-Tutorials.



Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert