Eine Schlüsselidee in Datenwissenschaft und Statistik ist die Bernoulli-Verteilung, benannt nach dem Schweizer Mathematiker Jacob Bernoulli. Es ist von entscheidender Bedeutung für die Wahrscheinlichkeitstheorie und ein grundlegendes Component für komplexere statistische Modelle, die von Algorithmen für maschinelles Lernen bis zur Vorhersage des Kundenverhaltens reichen. In diesem Artikel werden wir die Bernoulli-Verteilung im Element besprechen.

Lesen Sie weiter!

Bernoulli-Verteilung

Was ist eine Bernoulli-Verteilung?

Eine Bernoulli-Verteilung ist eine diskrete Wahrscheinlichkeitsverteilung, die eine Zufallsvariable mit nur zwei möglichen Ergebnissen darstellt. Normalerweise werden diese Ergebnisse mit den Begriffen „Erfolg“ und „Misserfolg“ oder alternativ mit den Zahlen 1 und 0 bezeichnet.

Sei X eine Zufallsvariable. Dann soll X einer Bernoulli-Verteilung mit Erfolgswahrscheinlichkeit p folgen

Die Wahrscheinlichkeitsmassenfunktion der Bernoulli-Verteilung

Sei X eine Zufallsvariable, die einer Bernoulli-Verteilung folgt:

Formel

Dann ist die Wahrscheinlichkeitsmassenfunktion von X

Wahrscheinlichkeitsmassenfunktion

Dies ergibt sich direkt aus der oben gegebenen Definition.

Mittelwert der Bernoulli-Verteilung

Sei X eine Zufallsvariable, die einer Bernoulli-Verteilung folgt:

Zufallsvariable, die einer Bernoulli-Verteilung folgt

Dann ist der Mittelwert oder erwartete Wert von X

Nachweisen: Der Erwartungswert ist der wahrscheinlichkeitsgewichtete Durchschnitt aller möglichen Werte:

wahrscheinlichkeitsgewichteter Durchschnitt

Da es für eine Bernoulli-Zufallsvariable nur zwei mögliche Ergebnisse gibt, gilt:

zwei mögliche Ergebnisse für eine Bernoulli-Zufallsvariable

Quellen: https://en.wikipedia.org/wiki/Bernoulli_distribution#Imply.

Lesen Sie auch: Finish-to-Finish-Statistiken für Information Science

Varianz der Bernoulli-Verteilung

Sei X eine Zufallsvariable, die einer Bernoulli-Verteilung folgt:

Zufallsvariable, die einer Bernoulli-Verteilung folgt

Dann ist die Varianz von X

Varianz

Nachweisen: Die Varianz ist der wahrscheinlichkeitsgewichtete Durchschnitt der quadrierten Abweichung vom Erwartungswert über alle möglichen Werte

Varianz ist der wahrscheinlichkeitsgewichtete Durchschnitt

und kann auch in Type der erwarteten Werte geschrieben werden:

Gleichung (1)

Gleichung

Der Mittelwert einer Bernoulli-Zufallsvariablen ist

Gleichung(2)

Gleichung 2

und der Mittelwert einer quadrierten Bernoulli-Zufallsvariablen ist

Gleichung(3)

Gleichung 3

Durch die Kombination der Gleichungen (1), (2) und (3) erhalten wir:

Bernoulli-Verteilung vs. Binomialverteilung

Die Bernoulli-Verteilung ist ein Sonderfall der Binomialverteilung, bei der die Anzahl der Versuche n=1 ist. Hier ist ein detaillierter Vergleich zwischen den beiden:

Aspekt Bernoulli-Verteilung Binomialverteilung
Zweck Modelliert das Ergebnis eines einzelnen Versuchs eines Ereignisses. Modelliert das Ergebnis mehrerer Versuche desselben Ereignisses.
Darstellung X∼Bernoulli(p), wobei p die Erfolgswahrscheinlichkeit ist. X∼Binomial(n,p), wobei n die Anzahl der Versuche und p die Erfolgswahrscheinlichkeit in jedem Versuch ist.
Bedeuten E(X)=p E(X)=n⋅p
Varianz Var(X)=p(1−p) Var(X)=n⋅p⋅(1−p)
Unterstützung Die Ergebnisse sind X∈{0,1} und stehen für Misserfolg (0) und Erfolg (1). Die Ergebnisse sind X∈{0,1,2,…,n} und stellen die Anzahl der Erfolge in n Versuchen dar.
Sonderfallbeziehung Eine Bernoulli-Verteilung ist ein Sonderfall der Binomialverteilung, wenn n=1. Eine Binomialverteilung verallgemeinert die Bernoulli-Verteilung für n>1.
Beispiel Wenn die Wahrscheinlichkeit, ein Spiel zu gewinnen, 60 % beträgt, kann die Bernoulli-Verteilung modellieren, ob Sie in einem einzelnen Spiel gewinnen (1) oder verlieren (0). Wenn die Wahrscheinlichkeit, ein Spiel zu gewinnen, 60 % beträgt, kann die Binomialverteilung die Wahrscheinlichkeit modellieren, genau 3 von 5 Spielen zu gewinnen.
Graph

Die Bernoulli-Verteilung (hyperlinks) modelliert das Ergebnis eines einzelnen Versuchs mit zwei möglichen Ergebnissen: 0 (Misserfolg) oder 1 (Erfolg). In diesem Beispiel besteht bei p=0,6 eine 40-prozentige Wahrscheinlichkeit des Scheiterns (P(X=0)=0,4) und eine 60-prozentige Erfolgschance (P(X=1)=0,6). Das Diagramm zeigt deutlich zwei Balken, einen für jedes Ergebnis, wobei die Höhe den jeweiligen Wahrscheinlichkeiten entspricht.

Die Binomialverteilung (rechts) stellt die Anzahl der Erfolge über mehrere Versuche hinweg dar (in diesem Fall n=5 Versuche). Es zeigt die Wahrscheinlichkeit der Beobachtung jeder möglichen Anzahl von Erfolgen im Bereich von 0 bis 5. Die Anzahl der Versuche n und die Erfolgswahrscheinlichkeit p=0,6 beeinflussen die Type der Verteilung. Hier liegt die höchste Wahrscheinlichkeit bei X=3, was bedeutet, dass das Erreichen von genau 3 Erfolgen bei 5 Versuchen am wahrscheinlichsten ist. Die Wahrscheinlichkeiten für weniger (X=0,1,2) oder mehr (X=4,5) Erfolge nehmen symmetrisch um den Mittelwert E(X)=n⋅p=3 ab.

Lesen Sie auch: Ein Leitfaden zur vollständigen Statistik für Information-Science-Anfänger!

Verwendung von Bernoulli-Verteilungen in realen Anwendungen

Die Bernoulli-Verteilung wird häufig in realen Anwendungen mit binären Ergebnissen verwendet. Bernoulli-Verteilungen sind für maschinelles Lernen von wesentlicher Bedeutung, wenn es um binäre Klassifizierungsprobleme geht. In diesen Situationen müssen wir die Daten in eine von zwei Gruppen einteilen. Zu den Beispielen gehören:

  • E-Mail-Spam-Erkennung (Spam oder nicht Spam)
  • Erkennung von Finanztransaktionsbetrug (authorized oder betrügerisch)
  • Diagnose einer Krankheit anhand der Symptome (fehlen oder vorhanden)
  • Medizinische Assessments: Feststellung, ob eine Behandlung wirksam ist (positives/negatives Ergebnis).
  • Gaming: Modellierung der Ergebnisse eines einzelnen Ereignisses, z. B. Sieg oder Niederlage.
  • Abwanderungsanalyse: Vorhersage, ob ein Kunde einen Dienst verlässt oder bleibt.
  • Stimmungsanalyse: Textual content als positiv oder negativ klassifizieren.

Warum die Bernoulli-Verteilung verwenden?

  • Einfachheit: Superb für Szenarien, in denen es nur zwei mögliche Ergebnisse gibt.
  • Baustein: Die Bernoulli-Verteilung dient als Grundlage für die Binomialverteilung und andere fortgeschrittene Verteilungen.
  • Interpretierbar: Ergebnisse aus der realen Welt wie Erfolg/Misserfolg, bestanden/nicht bestanden oder ja/nein passen auf natürliche Weise in den Rahmen.

Numerisches Beispiel zur Bernoulli-Verteilung:

Eine Fabrik produziert Glühbirnen. Jede Glühbirne besteht eine 90-prozentige Probability, den Qualitätstest zu bestehen (p=0,9) und eine 10-prozentige Probability, durchzufallen (1−p=0,1). Sei X die Zufallsvariable, die das Ergebnis des Qualitätstests darstellt:

  • X=1: Die Glühbirne geht durch.
  • X=0: Die Glühbirne ist defekt.

Drawback:

  1. Wie groß ist die Wahrscheinlichkeit, dass die Glühbirne den Take a look at besteht?
  2. Was ist der Erwartungswert E(X)?
  3. Was ist die Varianz Var(X)?

Lösung:

  1. Wahrscheinlichkeit, den Take a look at zu bestehen: Verwendung des Bernoulli PMF:
Bernoulli PMF

Die Wahrscheinlichkeit, die Prüfung zu bestehen, liegt additionally bei 0,9 (90 %).

  1. Erwarteter Wert E(X)

E(X)=p.

Hier ist p=0,9.

E(X)=0,9..

Dies bedeutet, dass die durchschnittliche Erfolgsquote 0,9 (90 %) beträgt.

  1. Varianz Var(X)

Var(X)=p(1−p)

Hier ist p=0,9:

Var(X)=0,9(1−0,9)=0,9⋅0,1=0,09.

Die Varianz beträgt 0,09.

Endgültige Antwort:

  1. Wahrscheinlichkeit des Bestehens: 0,9 (90 %).
  2. Erwarteter Wert: 0,9.
  3. Varianz: 0,09.

Dieses Beispiel zeigt, wie die Bernoulli-Verteilung einzelne binäre Ereignisse wie ein Qualitätstestergebnis modelliert.

Sehen wir uns nun an, wie diese Frage in Python gelöst werden kann

Durchführung

Schritt 1: Installieren Sie die erforderliche Bibliothek

Sie müssen matplotlib installieren, falls Sie dies noch nicht getan haben:

pip set up matplotlib

Schritt 2: Importieren Sie die Pakete

Importieren Sie nun die notwendigen Pakete für die Plot- und Bernoulli-Verteilung.

import matplotlib.pyplot as plt
from scipy.stats import bernoulli

Schritt 3: Definieren Sie die Erfolgswahrscheinlichkeit

Legen Sie die gegebene Erfolgswahrscheinlichkeit für die Bernoulli-Verteilung fest.

p = 0.9

Schritt 4: Berechnen Sie den PMF für Erfolg und Misserfolg

Berechnen Sie die Wahrscheinlichkeitsmassenfunktion (PMF) für die Ergebnisse „Nicht bestanden“ (X=0) und „Bestanden“ (X=1).

possibilities = (bernoulli.pmf(0, p), bernoulli.pmf(1, p))

Schritt 5: Legen Sie Bezeichnungen für die Ergebnisse fest

Definieren Sie die Bezeichnungen für die Ergebnisse („Nicht bestanden“ und „Bestanden“).

outcomes = ('Fail (X=0)', 'Cross (X=1)')

Schritt 6: Berechnen Sie den Erwartungswert

Der Erwartungswert (Mittelwert) für die Bernoulli-Verteilung ist einfach die Erfolgswahrscheinlichkeit.

expected_value = p  # Imply of Bernoulli distribution

Schritt 7: Berechnen Sie die Varianz

Die Varianz einer Bernoulli-Verteilung wird mit der Formel Var(X)=p(1−p) berechnet.

variance = p * (1 - p)  # Variance formulation

Schritt 8: Zeigen Sie die Ergebnisse an

Drucken Sie die berechneten Wahrscheinlichkeiten, den erwarteten Wert und die Varianz aus.

print("Chance of Passing (X = 1):", possibilities(1))
print("Chance of Failing (X = 0):", possibilities(0))
print("Anticipated Worth (E(X)):", expected_value)
print("Variance (Var(X)):", variance)

Ausgabe:

Ausgabe

Schritt 9: Darstellung der Wahrscheinlichkeiten

Erstellen Sie mit Matplotlib ein Balkendiagramm für die Wahrscheinlichkeiten von Misserfolg und Erfolg.

bars = plt.bar(outcomes, possibilities, shade=('purple', 'inexperienced'))

Schritt 10: Fügen Sie dem Plot Titel und Beschriftungen hinzu

Legen Sie den Titel und die Beschriftungen für die x- und y-Achse des Diagramms fest.

plt.title(f'Bernoulli Distribution (p = {p})')
plt.xlabel('End result')
plt.ylabel('Chance')

Schritt 10: Fügen Sie der Legende Beschriftungen hinzu

Fügen Sie der Legende Beschriftungen für jeden Balken hinzu, die die Wahrscheinlichkeiten für „Nicht bestanden“ und „Bestanden“ anzeigen.

bars(0).set_label(f'Fail (X=0): {possibilities(0):.2f}')
bars(1).set_label(f'Cross (X=1): {possibilities(1):.2f}')

Schritt 11: Zeigen Sie die Legende an

Zeigen Sie die Legende auf dem Plot an.

plt.legend()

Schritt 12: Zeigen Sie die Handlung an

Zeigen Sie abschließend den Plot an.

plt.present()
Ausgabe

Mit dieser schrittweisen Aufschlüsselung können Sie das Diagramm erstellen und die erforderlichen Werte für die Bernoulli-Verteilung berechnen.

Abschluss

Eine Schlüsselidee in der Statistik ist die Bernoulli-Verteilungsmodell Szenarien mit zwei möglichen Ergebnissen: Erfolg oder Misserfolg. Es wird in vielen verschiedenen Anwendungen eingesetzt, beispielsweise bei Qualitätstests, zur Vorhersage des Verbraucherverhaltens und beim maschinellen Lernen zur binären Kategorisierung. Schlüsselmerkmale der Verteilung, wie Varianz, erwarteter Wert und Wahrscheinlichkeitsmassenfunktion (PMF), helfen beim Verständnis und bei der Analyse solcher binären Ereignisse. Sie können komplexere Modelle wie die Binomialverteilung erstellen, indem Sie sich mit der Bernoulli-Verteilung vertraut machen.

Häufig gestellte Fragen

Q1. Kann die Bernoulli-Verteilung mehrere Ergebnisse verarbeiten?

Antwort. Nein, es werden nur zwei Ergebnisse behandelt (Erfolg oder Misserfolg). Für mehr als zwei Ergebnisse werden andere Verteilungen, beispielsweise die Multinomialverteilung, verwendet.

Q2. Was sind einige Beispiele für Bernoulli-Prozesse?

Antwort. Einige Beispiele für Bernoulli-Trails sind:
1. Eine Münze werfen (Kopf oder Zahl)
2. Bestehen eines Qualitätstests (bestanden oder nicht bestanden)

Q3. Was ist die Bernoulli-Verteilung?

Antwort. Die Bernoulli-Verteilung ist eine diskrete Wahrscheinlichkeitsverteilung, die eine Zufallsvariable mit zwei möglichen Ergebnissen darstellt: Erfolg (1) und Misserfolg (0). Sie wird durch die Erfolgswahrscheinlichkeit definiert, die mit p bezeichnet wird.

This fall. Was unterscheidet die Binomialverteilung von der Bernoulli-Verteilung?

Antwort. Wenn die Anzahl der Versuche (n) gleich 1 ist, ist die Bernoulli-Verteilung eine besondere Instanz der Binomialverteilung. Die Binomialverteilung modelliert mehrere Versuche, während die Bernoulli-Verteilung nur einen modelliert.Ans.

Hallo, ich bin Janvi, ein leidenschaftlicher Information-Science-Fanatic, der derzeit bei Analytics Vidhya arbeitet. Meine Reise in die Welt der Daten begann mit einer tiefen Neugier, wie wir aus komplexen Datensätzen aussagekräftige Erkenntnisse gewinnen können.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert