Eine Schlüsselidee in Datenwissenschaft und Statistik ist die Bernoulli-Verteilung, benannt nach dem Schweizer Mathematiker Jacob Bernoulli. Es ist von entscheidender Bedeutung für die Wahrscheinlichkeitstheorie und ein grundlegendes Component für komplexere statistische Modelle, die von Algorithmen für maschinelles Lernen bis zur Vorhersage des Kundenverhaltens reichen. In diesem Artikel werden wir die Bernoulli-Verteilung im Element besprechen.
Lesen Sie weiter!
Was ist eine Bernoulli-Verteilung?
Eine Bernoulli-Verteilung ist eine diskrete Wahrscheinlichkeitsverteilung, die eine Zufallsvariable mit nur zwei möglichen Ergebnissen darstellt. Normalerweise werden diese Ergebnisse mit den Begriffen „Erfolg“ und „Misserfolg“ oder alternativ mit den Zahlen 1 und 0 bezeichnet.
Sei X eine Zufallsvariable. Dann soll X einer Bernoulli-Verteilung mit Erfolgswahrscheinlichkeit p folgen
Die Wahrscheinlichkeitsmassenfunktion der Bernoulli-Verteilung
Sei X eine Zufallsvariable, die einer Bernoulli-Verteilung folgt:
Dann ist die Wahrscheinlichkeitsmassenfunktion von X
Dies ergibt sich direkt aus der oben gegebenen Definition.
Mittelwert der Bernoulli-Verteilung
Sei X eine Zufallsvariable, die einer Bernoulli-Verteilung folgt:
Dann ist der Mittelwert oder erwartete Wert von X
Nachweisen: Der Erwartungswert ist der wahrscheinlichkeitsgewichtete Durchschnitt aller möglichen Werte:
Da es für eine Bernoulli-Zufallsvariable nur zwei mögliche Ergebnisse gibt, gilt:
Quellen: https://en.wikipedia.org/wiki/Bernoulli_distribution#Imply.
Lesen Sie auch: Finish-to-Finish-Statistiken für Information Science
Varianz der Bernoulli-Verteilung
Sei X eine Zufallsvariable, die einer Bernoulli-Verteilung folgt:
Dann ist die Varianz von X
Nachweisen: Die Varianz ist der wahrscheinlichkeitsgewichtete Durchschnitt der quadrierten Abweichung vom Erwartungswert über alle möglichen Werte
und kann auch in Type der erwarteten Werte geschrieben werden:
Gleichung (1)
Der Mittelwert einer Bernoulli-Zufallsvariablen ist
Gleichung(2)
und der Mittelwert einer quadrierten Bernoulli-Zufallsvariablen ist
Gleichung(3)
Durch die Kombination der Gleichungen (1), (2) und (3) erhalten wir:
Bernoulli-Verteilung vs. Binomialverteilung
Die Bernoulli-Verteilung ist ein Sonderfall der Binomialverteilung, bei der die Anzahl der Versuche n=1 ist. Hier ist ein detaillierter Vergleich zwischen den beiden:
Aspekt | Bernoulli-Verteilung | Binomialverteilung |
Zweck | Modelliert das Ergebnis eines einzelnen Versuchs eines Ereignisses. | Modelliert das Ergebnis mehrerer Versuche desselben Ereignisses. |
Darstellung | X∼Bernoulli(p), wobei p die Erfolgswahrscheinlichkeit ist. | X∼Binomial(n,p), wobei n die Anzahl der Versuche und p die Erfolgswahrscheinlichkeit in jedem Versuch ist. |
Bedeuten | E(X)=p | E(X)=n⋅p |
Varianz | Var(X)=p(1−p) | Var(X)=n⋅p⋅(1−p) |
Unterstützung | Die Ergebnisse sind X∈{0,1} und stehen für Misserfolg (0) und Erfolg (1). | Die Ergebnisse sind X∈{0,1,2,…,n} und stellen die Anzahl der Erfolge in n Versuchen dar. |
Sonderfallbeziehung | Eine Bernoulli-Verteilung ist ein Sonderfall der Binomialverteilung, wenn n=1. | Eine Binomialverteilung verallgemeinert die Bernoulli-Verteilung für n>1. |
Beispiel | Wenn die Wahrscheinlichkeit, ein Spiel zu gewinnen, 60 % beträgt, kann die Bernoulli-Verteilung modellieren, ob Sie in einem einzelnen Spiel gewinnen (1) oder verlieren (0). | Wenn die Wahrscheinlichkeit, ein Spiel zu gewinnen, 60 % beträgt, kann die Binomialverteilung die Wahrscheinlichkeit modellieren, genau 3 von 5 Spielen zu gewinnen. |
Die Bernoulli-Verteilung (hyperlinks) modelliert das Ergebnis eines einzelnen Versuchs mit zwei möglichen Ergebnissen: 0 (Misserfolg) oder 1 (Erfolg). In diesem Beispiel besteht bei p=0,6 eine 40-prozentige Wahrscheinlichkeit des Scheiterns (P(X=0)=0,4) und eine 60-prozentige Erfolgschance (P(X=1)=0,6). Das Diagramm zeigt deutlich zwei Balken, einen für jedes Ergebnis, wobei die Höhe den jeweiligen Wahrscheinlichkeiten entspricht.
Die Binomialverteilung (rechts) stellt die Anzahl der Erfolge über mehrere Versuche hinweg dar (in diesem Fall n=5 Versuche). Es zeigt die Wahrscheinlichkeit der Beobachtung jeder möglichen Anzahl von Erfolgen im Bereich von 0 bis 5. Die Anzahl der Versuche n und die Erfolgswahrscheinlichkeit p=0,6 beeinflussen die Type der Verteilung. Hier liegt die höchste Wahrscheinlichkeit bei X=3, was bedeutet, dass das Erreichen von genau 3 Erfolgen bei 5 Versuchen am wahrscheinlichsten ist. Die Wahrscheinlichkeiten für weniger (X=0,1,2) oder mehr (X=4,5) Erfolge nehmen symmetrisch um den Mittelwert E(X)=n⋅p=3 ab.
Lesen Sie auch: Ein Leitfaden zur vollständigen Statistik für Information-Science-Anfänger!
Verwendung von Bernoulli-Verteilungen in realen Anwendungen
Die Bernoulli-Verteilung wird häufig in realen Anwendungen mit binären Ergebnissen verwendet. Bernoulli-Verteilungen sind für maschinelles Lernen von wesentlicher Bedeutung, wenn es um binäre Klassifizierungsprobleme geht. In diesen Situationen müssen wir die Daten in eine von zwei Gruppen einteilen. Zu den Beispielen gehören:
- E-Mail-Spam-Erkennung (Spam oder nicht Spam)
- Erkennung von Finanztransaktionsbetrug (authorized oder betrügerisch)
- Diagnose einer Krankheit anhand der Symptome (fehlen oder vorhanden)
- Medizinische Assessments: Feststellung, ob eine Behandlung wirksam ist (positives/negatives Ergebnis).
- Gaming: Modellierung der Ergebnisse eines einzelnen Ereignisses, z. B. Sieg oder Niederlage.
- Abwanderungsanalyse: Vorhersage, ob ein Kunde einen Dienst verlässt oder bleibt.
- Stimmungsanalyse: Textual content als positiv oder negativ klassifizieren.
Warum die Bernoulli-Verteilung verwenden?
- Einfachheit: Superb für Szenarien, in denen es nur zwei mögliche Ergebnisse gibt.
- Baustein: Die Bernoulli-Verteilung dient als Grundlage für die Binomialverteilung und andere fortgeschrittene Verteilungen.
- Interpretierbar: Ergebnisse aus der realen Welt wie Erfolg/Misserfolg, bestanden/nicht bestanden oder ja/nein passen auf natürliche Weise in den Rahmen.
Numerisches Beispiel zur Bernoulli-Verteilung:
Eine Fabrik produziert Glühbirnen. Jede Glühbirne besteht eine 90-prozentige Probability, den Qualitätstest zu bestehen (p=0,9) und eine 10-prozentige Probability, durchzufallen (1−p=0,1). Sei X die Zufallsvariable, die das Ergebnis des Qualitätstests darstellt:
- X=1: Die Glühbirne geht durch.
- X=0: Die Glühbirne ist defekt.
Drawback:
- Wie groß ist die Wahrscheinlichkeit, dass die Glühbirne den Take a look at besteht?
- Was ist der Erwartungswert E(X)?
- Was ist die Varianz Var(X)?
Lösung:
- Wahrscheinlichkeit, den Take a look at zu bestehen: Verwendung des Bernoulli PMF:
Die Wahrscheinlichkeit, die Prüfung zu bestehen, liegt additionally bei 0,9 (90 %).
- Erwarteter Wert E(X)
E(X)=p.
Hier ist p=0,9.
E(X)=0,9..
Dies bedeutet, dass die durchschnittliche Erfolgsquote 0,9 (90 %) beträgt.
- Varianz Var(X)
Var(X)=p(1−p)
Hier ist p=0,9:
Var(X)=0,9(1−0,9)=0,9⋅0,1=0,09.
Die Varianz beträgt 0,09.
Endgültige Antwort:
- Wahrscheinlichkeit des Bestehens: 0,9 (90 %).
- Erwarteter Wert: 0,9.
- Varianz: 0,09.
Dieses Beispiel zeigt, wie die Bernoulli-Verteilung einzelne binäre Ereignisse wie ein Qualitätstestergebnis modelliert.
Sehen wir uns nun an, wie diese Frage in Python gelöst werden kann
Durchführung
Schritt 1: Installieren Sie die erforderliche Bibliothek
Sie müssen matplotlib installieren, falls Sie dies noch nicht getan haben:
pip set up matplotlib
Schritt 2: Importieren Sie die Pakete
Importieren Sie nun die notwendigen Pakete für die Plot- und Bernoulli-Verteilung.
import matplotlib.pyplot as plt
from scipy.stats import bernoulli
Schritt 3: Definieren Sie die Erfolgswahrscheinlichkeit
Legen Sie die gegebene Erfolgswahrscheinlichkeit für die Bernoulli-Verteilung fest.
p = 0.9
Schritt 4: Berechnen Sie den PMF für Erfolg und Misserfolg
Berechnen Sie die Wahrscheinlichkeitsmassenfunktion (PMF) für die Ergebnisse „Nicht bestanden“ (X=0) und „Bestanden“ (X=1).
possibilities = (bernoulli.pmf(0, p), bernoulli.pmf(1, p))
Schritt 5: Legen Sie Bezeichnungen für die Ergebnisse fest
Definieren Sie die Bezeichnungen für die Ergebnisse („Nicht bestanden“ und „Bestanden“).
outcomes = ('Fail (X=0)', 'Cross (X=1)')
Schritt 6: Berechnen Sie den Erwartungswert
Der Erwartungswert (Mittelwert) für die Bernoulli-Verteilung ist einfach die Erfolgswahrscheinlichkeit.
expected_value = p # Imply of Bernoulli distribution
Schritt 7: Berechnen Sie die Varianz
Die Varianz einer Bernoulli-Verteilung wird mit der Formel Var(X)=p(1−p) berechnet.
variance = p * (1 - p) # Variance formulation
Schritt 8: Zeigen Sie die Ergebnisse an
Drucken Sie die berechneten Wahrscheinlichkeiten, den erwarteten Wert und die Varianz aus.
print("Chance of Passing (X = 1):", possibilities(1))
print("Chance of Failing (X = 0):", possibilities(0))
print("Anticipated Worth (E(X)):", expected_value)
print("Variance (Var(X)):", variance)
Ausgabe:
Schritt 9: Darstellung der Wahrscheinlichkeiten
Erstellen Sie mit Matplotlib ein Balkendiagramm für die Wahrscheinlichkeiten von Misserfolg und Erfolg.
bars = plt.bar(outcomes, possibilities, shade=('purple', 'inexperienced'))
Schritt 10: Fügen Sie dem Plot Titel und Beschriftungen hinzu
Legen Sie den Titel und die Beschriftungen für die x- und y-Achse des Diagramms fest.
plt.title(f'Bernoulli Distribution (p = {p})')
plt.xlabel('End result')
plt.ylabel('Chance')
Schritt 10: Fügen Sie der Legende Beschriftungen hinzu
Fügen Sie der Legende Beschriftungen für jeden Balken hinzu, die die Wahrscheinlichkeiten für „Nicht bestanden“ und „Bestanden“ anzeigen.
bars(0).set_label(f'Fail (X=0): {possibilities(0):.2f}')
bars(1).set_label(f'Cross (X=1): {possibilities(1):.2f}')
Schritt 11: Zeigen Sie die Legende an
Zeigen Sie die Legende auf dem Plot an.
plt.legend()
Schritt 12: Zeigen Sie die Handlung an
Zeigen Sie abschließend den Plot an.
plt.present()
Mit dieser schrittweisen Aufschlüsselung können Sie das Diagramm erstellen und die erforderlichen Werte für die Bernoulli-Verteilung berechnen.
Abschluss
Eine Schlüsselidee in der Statistik ist die Bernoulli-Verteilungsmodell Szenarien mit zwei möglichen Ergebnissen: Erfolg oder Misserfolg. Es wird in vielen verschiedenen Anwendungen eingesetzt, beispielsweise bei Qualitätstests, zur Vorhersage des Verbraucherverhaltens und beim maschinellen Lernen zur binären Kategorisierung. Schlüsselmerkmale der Verteilung, wie Varianz, erwarteter Wert und Wahrscheinlichkeitsmassenfunktion (PMF), helfen beim Verständnis und bei der Analyse solcher binären Ereignisse. Sie können komplexere Modelle wie die Binomialverteilung erstellen, indem Sie sich mit der Bernoulli-Verteilung vertraut machen.
Häufig gestellte Fragen
Antwort. Nein, es werden nur zwei Ergebnisse behandelt (Erfolg oder Misserfolg). Für mehr als zwei Ergebnisse werden andere Verteilungen, beispielsweise die Multinomialverteilung, verwendet.
Antwort. Einige Beispiele für Bernoulli-Trails sind:
1. Eine Münze werfen (Kopf oder Zahl)
2. Bestehen eines Qualitätstests (bestanden oder nicht bestanden)
Antwort. Die Bernoulli-Verteilung ist eine diskrete Wahrscheinlichkeitsverteilung, die eine Zufallsvariable mit zwei möglichen Ergebnissen darstellt: Erfolg (1) und Misserfolg (0). Sie wird durch die Erfolgswahrscheinlichkeit definiert, die mit p bezeichnet wird.
Antwort. Wenn die Anzahl der Versuche (n) gleich 1 ist, ist die Bernoulli-Verteilung eine besondere Instanz der Binomialverteilung. Die Binomialverteilung modelliert mehrere Versuche, während die Bernoulli-Verteilung nur einen modelliert.Ans.