Die Normalverteilung, auch Gaußsche Verteilung genannt, ist eine der am häufigsten verwendeten Wahrscheinlichkeitsverteilungen in der Statistik und im maschinellen Lernen. Das Verständnis seiner Kerneigenschaften Mittelwert und Varianz ist wichtig für die Interpretation von Daten und die Modellierung realer Phänomene. In diesem Artikel werden wir uns mit den Konzepten von Mittelwert und Varianz in Bezug auf die Normalverteilung befassen, ihre Bedeutung untersuchen und untersuchen, wie sie die Kind und das Verhalten dieser allgegenwärtigen Wahrscheinlichkeitsverteilung definieren.

Mittelwert und Varianz der Normalverteilung erklärt

Was ist eine Normalverteilung?

Eine Normalverteilung ist eine kontinuierliche Wahrscheinlichkeitsverteilung, die durch ihre glockenförmige Kurve gekennzeichnet ist, die symmetrisch um ihren Mittelwert (μ) verläuft. Die Gleichung, die seine Wahrscheinlichkeitsdichtefunktion (PDF) definiert, lautet:

Wahrscheinlichkeitsdichtefunktion (PDF)

Wo:

  • μ: das bedeuten (Zentrum der Verteilung),
  • σ2: die Varianz (Ausbreitung der Verteilung),
  • σ: das Standardabweichung (Quadratwurzel der Varianz).
Was ist eine Normalverteilung?

Mittelwert der Normalverteilung

Der bedeuten (μ) ist der zentrale Wert der Verteilung. Es gibt die Place des Peaks an und fungiert als Gleichgewichtspunkt, an dem die Verteilung symmetrisch ist.

Wichtige Punkte zum Mittelwert:

  1. Alle Werte in der Verteilung sind gleichmäßig um μ verteilt.
  2. In realen Daten stellt μ oft den „Durchschnitt“ eines Datensatzes dar.
  3. Für eine Normalverteilung etwa 68 % der Daten liegt innerhalb einer Standardabweichung (μ±σ).

Beispiel: Wenn ein Höhendatensatz eine Normalverteilung mit μ=170 cm aufweist, beträgt die durchschnittliche Höhe 170 cm und die Verteilung ist symmetrisch um diesen Wert.

Lesen Sie auch: Statistik für Information Science: Was ist Normalverteilung?

Varianz der Normalverteilung

Der Varianz (σ2) quantifiziert die Streuung der Daten um den Mittelwert. Eine kleinere Varianz deutet darauf hin, dass die Datenpunkte eng um μ gruppiert sind, während eine größere Varianz auf eine größere Streuung hindeutet.

Varianz

Wichtige Punkte zur Varianz:

  1. Varianz ist die durchschnittliche quadratische Abweichung aus dem Mittelwert, wobei xi​ einzelne Datenpunkte sind.
  2. Der Standardabweichung (σ) ist die Quadratwurzel der Varianz, was die Interpretation in denselben Einheiten wie die Daten erleichtert.
  3. Varianz steuert die „Breite“ der Glockenkurve. Für höhere Varianz:
    • Die Kurve wird flacher und breiter.
    • Die Daten sind stärker verstreut.

Beispiel: Wenn der Höhendatensatz σ2=25 aufweist, beträgt die Standardabweichung (σ) 5, was bedeutet, dass die meisten Höhen innerhalb von 170 ± 5 cm liegen.

Lesen Sie auch: Normalverteilung: Ein ultimativer Leitfaden

Beziehung zwischen Mittelwert und Varianz

  1. Unabhängige Immobilien: Mittelwert und Varianz beeinflussen unabhängig voneinander die Kind der Normalverteilung. Durch Anpassen von μ wird die Kurve nach hyperlinks oder rechts verschoben, während durch Anpassen von σ2 die Streuung geändert wird.
  2. Dateneinblicke: Zusammen definieren diese Parameter die Gesamtstruktur der Verteilung und sind entscheidend für die Vorhersagemodellierung, das Testen von Hypothesen und die Entscheidungsfindung.

Praktische Anwendungen

Hier die praktischen Anwendungen:

  1. Datenanalyse: Viele Naturphänomene (z. B. Höhen, Testergebnisse) folgen einer Normalverteilung, was eine einfache Analyse mit μ und σ2 ermöglicht.
  2. Maschinelles Lernen: In Algorithmen wie Gaussian Naive Bayes spielen Mittelwert und Varianz eine entscheidende Rolle bei der Modellierung von Klassenwahrscheinlichkeiten.
  3. Standardisierung: Durch die Transformation der Daten mit μ=0 und σ2=1 (Z-Scores) vereinfachen Normalverteilungen die vergleichende Analyse.

Visualisierung der Auswirkungen von Mittelwert und Varianz

  1. Den Mittelwert ändern: Der Spitzenwert der Verteilung verschiebt sich horizontal.
  2. Varianz ändern: Die Kurve wird breiter oder schmaler. Ein kleinerer σ2 führt zu einem höheren Peak, während ein größerer σ2 die Kurve abflacht.

Implementierung in Python

Sehen wir uns nun an, wie man den Mittelwert und die Varianz berechnet und die Auswirkungen von Mittelwert und Varianz visualisiert Python:

1. Berechnen Sie den Mittelwert

Der bedeuten wird berechnet, indem alle Datenpunkte summiert und durch die Anzahl der Punkte dividiert werden. So machen Sie es Schritt für Schritt in Python:

Schritt 1: Definieren Sie den Datensatz

information = (4, 8, 6, 5, 9)

Schritt 2: Berechnen Sie die Summe der Daten

total_sum = sum(information)

Schritt 3: Zählen Sie die Anzahl der Datenpunkte

n = len(information)

Schritt 4: Berechnen Sie den Mittelwert

imply = total_sum / n
print(f"Imply: {imply}")
Imply: 6.4

Oder wir können die im Statistikmodul integrierte Funktion „imply“ verwenden, um den Mittelwert direkt zu berechnen

import statistics 
# Outline the dataset information = (4, 8, 6, 5, 9) 
# Calculate the imply utilizing the built-in perform 
imply = statistics.imply(information) 
print(f"Imply: {imply}")
Imply: 6.4

2. Berechnen Sie die Varianz

Der Varianz misst die Streuung der Daten um den Mittelwert. Befolgen Sie diese Schritte:

Schritt 1: Abweichungen vom Mittelwert berechnen

deviations = ((x - imply) for x in information)

Schritt 2: Quadrieren Sie jede Abweichung

squared_deviations = (dev**2 for dev in deviations)

Schritt 3: Summieren Sie die quadrierten Abweichungen

sum_squared_deviations = sum(squared_deviations)

Schritt 4: Berechnen Sie die Varianz

variance = sum_squared_deviations / n
print(f"Variance: {variance}")
Variance: 3.44

Wir können auch die integrierte Methode verwenden, um die Varianz im Statistikmodul zu berechnen.

import statistics 
# Outline the dataset information = (4, 8, 6, 5, 9) 
# Calculate the variance utilizing the built-in perform 
variance = statistics.variance(information) 
print(f"Variance: {variance}")
Variance: 3.44

3. Visualisieren Sie die Auswirkungen von Mittelwert und Varianz

Lassen Sie uns nun visualisieren, wie sich eine Änderung des Mittelwerts und der Varianz auf die Kind einer Normalverteilung auswirkt:

Code:

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm

Schritt 1: Definieren Sie einen Bereich von x-Werten

x = np.linspace(-10, 20, 1000)

Schritt 2: Definieren Sie Verteilungen mit unterschiedlichen Mittelwerten (mu), aber gleicher Varianz

means = (0, 5, 10)  # Totally different means
constant_variance = 4
constant_std_dev = np.sqrt(constant_variance)

Schritt 3: Definieren Sie Verteilungen mit demselben Mittelwert, aber unterschiedlichen Varianzen

constant_mean = 5
variances = (1, 4, 9)  # Totally different variances
std_devs = (np.sqrt(var) for var in variances)

Schritt 4: Zeichnen Sie Verteilungen mit unterschiedlichen Mittelwerten auf

plt.determine(figsize=(12, 6))
plt.subplot(1, 2, 1)
for mu in means:
    y = norm.pdf(x, mu, constant_std_dev)  # Regular PDF
    plt.plot(x, y, label=f"Imply = {mu}, Variance = {constant_variance}")
plt.title("Impression of Altering the Imply (Fixed Variance)", fontsize=14)
plt.xlabel("x")
plt.ylabel("Likelihood Density")
plt.legend()
plt.grid()

Schritt 5: Zeichnen Sie Verteilungen mit unterschiedlichen Varianzen

plt.subplot(1, 2, 2)
for var, std in zip(variances, std_devs):
    y = norm.pdf(x, constant_mean, std)  # Regular PDF
    plt.plot(x, y, label=f"Imply = {constant_mean}, Variance = {var}")
plt.title("Impression of Altering the Variance (Fixed Imply)", fontsize=14)
plt.xlabel("x")
plt.ylabel("Likelihood Density")
plt.legend()
plt.grid()
plt.tight_layout()
plt.present()
Handlung

Lesen Sie auch: 6 Arten der Wahrscheinlichkeitsverteilung in der Datenwissenschaft

Schlussfolgerung aus der Grafik

Auswirkungen der Änderung des Mittelwerts:

  • Der Mittelwert (μ) bestimmt den zentralen Standort der Verteilung.
  • Beobachtung: Wenn sich der Mittelwert ändert:
    • Die gesamte Kurve verschiebt sich horizontal entlang der x-Achse.
    • Die Gesamtform (Ausbreitung und Höhe) bleibt unverändert, da die Varianz konstant ist.
  • Abschluss: Der Mittelwert beeinflusst, wo die Verteilung zentriert ist, hat jedoch keinen Einfluss auf die Ausbreitung oder Breite der Kurve.

Auswirkung der Varianzänderung:

  • Der Varianz (σ2) bestimmt die Verbreitung oder Streuung der Daten.
  • Beobachtung: Wenn sich die Varianz ändert:
    • A größere Varianz erstellt ein breiter Und schmeicheln Kurve, was auf eine stärkere Streuung der Daten hinweist.
    • A kleinere Varianz erstellt ein schmaler Und größer Kurve, was auf eine geringere Streuung und mehr Konzentration um den Mittelwert hindeutet.
  • Abschluss: Die Varianz beeinflusst, wie stark die Daten um den Mittelwert verteilt sind, und beeinflusst somit die Breite und Höhe der Kurve.

Wichtige Punkte:

  • Der bedeuten (μ) bestimmt das Zentrum der Normalverteilung.
  • Der Varianz (σ2 ) bestimmt seine Ausbreitung.
  • Zusammen liefern sie eine vollständige Beschreibung der Kind der Normalverteilung und ermöglichen eine präzise Datenmodellierung.

Häufige Fehler bei der Interpretation von Mittelwert und Varianz

  1. Varianz falsch interpretieren: Eine höhere Varianz weist nicht immer auf schlechtere Daten hin. es spiegelt möglicherweise die natürliche Vielfalt im Datensatz wider.
  2. Ausreißer ignorieren: Ausreißer können den Mittelwert verzerren und die Varianz erhöhen.
  3. Normalität vorausgesetzt: Nicht alle Datensätze sind normalverteilt und die Anwendung von auf Mittelwert/Varianz basierenden Modellen auf nicht normale Daten kann zu Fehlern führen.

Abschluss

Der Mittelwert (μ) bestimmt das Zentrum der Normalverteilung, während die Varianz (σ2) ihre Ausbreitung steuert. Durch die Anpassung des Mittelwerts wird die Kurve horizontal verschoben, während sich durch die Änderung der Varianz ihre Breite und Höhe ändert. Zusammen definieren sie die Kind und das Verhalten der Verteilung und sind daher für die Analyse von Daten, die Erstellung von Modellen und das Treffen fundierter Entscheidungen in der Statistik und beim maschinellen Lernen unerlässlich.

Wenn Sie außerdem on-line nach einem KI/ML-Kurs suchen, dann erkunden Sie: The zertifiziertes KI- und ML-BlackBelt-Plus-Programm!

Häufig gestellte Fragen

Q1. Welche Rolle spielt der Mittelwert (𝜇) in der Normalverteilung?

Antwort. Der Mittelwert bestimmt das Zentrum der Verteilung. Es stellt den Symmetriepunkt und den Durchschnitt der Daten dar.

Q2. Wie sind Mittelwert und Varianz in einer Normalverteilung unabhängig?

Antwort. Der Mittelwert bestimmt den zentralen Ort der Verteilung, während die Varianz ihre Ausbreitung steuert. Die Anpassung des einen hat keinen Einfluss auf das andere.

Q3. Wie wirkt sich eine Änderung des Mittelwerts auf die Verteilung aus?

Antwort. Durch die Änderung des Mittelwerts wird die Kurve horizontal entlang der x-Achse verschoben, ihre Kind oder Ausbreitung wird jedoch nicht verändert.

This fall. Was passiert, wenn die Varianz Null ist?

Antwort. Wenn die Varianz Null ist, sind alle Datenpunkte identisch und die Verteilung fällt im Mittel auf einen einzigen Punkt zusammen.

F5. Warum ist es wichtig, Mittelwert und Varianz zu verstehen?

Antwort. Mittelwert und Varianz definieren die Kind der Normalverteilung und sind für die statistische Analyse, die Vorhersagemodellierung und das Verständnis der Datenvariabilität von wesentlicher Bedeutung.

F6. Wie wirkt sich Varianz auf die Datenvisualisierung aus?

Antwort. Eine höhere Varianz führt zu einer flacheren, breiteren Glockenkurve, die eine größere Streuung der Daten anzeigt, während eine geringere Varianz zu einer höheren, schmaleren Kurve führt, was auf eine engere Clusterbildung um den Mittelwert hindeutet.

Hallo, ich bin Janvi, ein leidenschaftlicher Information-Science-Fanatic, der derzeit bei Analytics Vidhya arbeitet. Meine Reise in die Welt der Daten begann mit einer tiefen Neugier, wie wir aus komplexen Datensätzen aussagekräftige Erkenntnisse gewinnen können.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert