Die Normalverteilung, auch Gaußsche Verteilung genannt, ist eine der am häufigsten verwendeten Wahrscheinlichkeitsverteilungen in der Statistik und im maschinellen Lernen. Das Verständnis seiner Kerneigenschaften Mittelwert und Varianz ist wichtig für die Interpretation von Daten und die Modellierung realer Phänomene. In diesem Artikel werden wir uns mit den Konzepten von Mittelwert und Varianz in Bezug auf die Normalverteilung befassen, ihre Bedeutung untersuchen und untersuchen, wie sie die Kind und das Verhalten dieser allgegenwärtigen Wahrscheinlichkeitsverteilung definieren.
Was ist eine Normalverteilung?
Eine Normalverteilung ist eine kontinuierliche Wahrscheinlichkeitsverteilung, die durch ihre glockenförmige Kurve gekennzeichnet ist, die symmetrisch um ihren Mittelwert (μ) verläuft. Die Gleichung, die seine Wahrscheinlichkeitsdichtefunktion (PDF) definiert, lautet:
Wo:
- μ: das bedeuten (Zentrum der Verteilung),
- σ2: die Varianz (Ausbreitung der Verteilung),
- σ: das Standardabweichung (Quadratwurzel der Varianz).
Mittelwert der Normalverteilung
Der bedeuten (μ) ist der zentrale Wert der Verteilung. Es gibt die Place des Peaks an und fungiert als Gleichgewichtspunkt, an dem die Verteilung symmetrisch ist.
Wichtige Punkte zum Mittelwert:
- Alle Werte in der Verteilung sind gleichmäßig um μ verteilt.
- In realen Daten stellt μ oft den „Durchschnitt“ eines Datensatzes dar.
- Für eine Normalverteilung etwa 68 % der Daten liegt innerhalb einer Standardabweichung (μ±σ).
Beispiel: Wenn ein Höhendatensatz eine Normalverteilung mit μ=170 cm aufweist, beträgt die durchschnittliche Höhe 170 cm und die Verteilung ist symmetrisch um diesen Wert.
Lesen Sie auch: Statistik für Information Science: Was ist Normalverteilung?
Varianz der Normalverteilung
Der Varianz (σ2) quantifiziert die Streuung der Daten um den Mittelwert. Eine kleinere Varianz deutet darauf hin, dass die Datenpunkte eng um μ gruppiert sind, während eine größere Varianz auf eine größere Streuung hindeutet.
Wichtige Punkte zur Varianz:
- Varianz ist die durchschnittliche quadratische Abweichung aus dem Mittelwert, wobei xi einzelne Datenpunkte sind.
- Der Standardabweichung (σ) ist die Quadratwurzel der Varianz, was die Interpretation in denselben Einheiten wie die Daten erleichtert.
- Varianz steuert die „Breite“ der Glockenkurve. Für höhere Varianz:
- Die Kurve wird flacher und breiter.
- Die Daten sind stärker verstreut.
Beispiel: Wenn der Höhendatensatz σ2=25 aufweist, beträgt die Standardabweichung (σ) 5, was bedeutet, dass die meisten Höhen innerhalb von 170 ± 5 cm liegen.
Lesen Sie auch: Normalverteilung: Ein ultimativer Leitfaden
Beziehung zwischen Mittelwert und Varianz
- Unabhängige Immobilien: Mittelwert und Varianz beeinflussen unabhängig voneinander die Kind der Normalverteilung. Durch Anpassen von μ wird die Kurve nach hyperlinks oder rechts verschoben, während durch Anpassen von σ2 die Streuung geändert wird.
- Dateneinblicke: Zusammen definieren diese Parameter die Gesamtstruktur der Verteilung und sind entscheidend für die Vorhersagemodellierung, das Testen von Hypothesen und die Entscheidungsfindung.
Praktische Anwendungen
Hier die praktischen Anwendungen:
- Datenanalyse: Viele Naturphänomene (z. B. Höhen, Testergebnisse) folgen einer Normalverteilung, was eine einfache Analyse mit μ und σ2 ermöglicht.
- Maschinelles Lernen: In Algorithmen wie Gaussian Naive Bayes spielen Mittelwert und Varianz eine entscheidende Rolle bei der Modellierung von Klassenwahrscheinlichkeiten.
- Standardisierung: Durch die Transformation der Daten mit μ=0 und σ2=1 (Z-Scores) vereinfachen Normalverteilungen die vergleichende Analyse.
Visualisierung der Auswirkungen von Mittelwert und Varianz
- Den Mittelwert ändern: Der Spitzenwert der Verteilung verschiebt sich horizontal.
- Varianz ändern: Die Kurve wird breiter oder schmaler. Ein kleinerer σ2 führt zu einem höheren Peak, während ein größerer σ2 die Kurve abflacht.
Implementierung in Python
Sehen wir uns nun an, wie man den Mittelwert und die Varianz berechnet und die Auswirkungen von Mittelwert und Varianz visualisiert Python:
1. Berechnen Sie den Mittelwert
Der bedeuten wird berechnet, indem alle Datenpunkte summiert und durch die Anzahl der Punkte dividiert werden. So machen Sie es Schritt für Schritt in Python:
Schritt 1: Definieren Sie den Datensatz
information = (4, 8, 6, 5, 9)
Schritt 2: Berechnen Sie die Summe der Daten
total_sum = sum(information)
Schritt 3: Zählen Sie die Anzahl der Datenpunkte
n = len(information)
Schritt 4: Berechnen Sie den Mittelwert
imply = total_sum / n
print(f"Imply: {imply}")
Imply: 6.4
Oder wir können die im Statistikmodul integrierte Funktion „imply“ verwenden, um den Mittelwert direkt zu berechnen
import statistics
# Outline the dataset information = (4, 8, 6, 5, 9)
# Calculate the imply utilizing the built-in perform
imply = statistics.imply(information)
print(f"Imply: {imply}")
Imply: 6.4
2. Berechnen Sie die Varianz
Der Varianz misst die Streuung der Daten um den Mittelwert. Befolgen Sie diese Schritte:
Schritt 1: Abweichungen vom Mittelwert berechnen
deviations = ((x - imply) for x in information)
Schritt 2: Quadrieren Sie jede Abweichung
squared_deviations = (dev**2 for dev in deviations)
Schritt 3: Summieren Sie die quadrierten Abweichungen
sum_squared_deviations = sum(squared_deviations)
Schritt 4: Berechnen Sie die Varianz
variance = sum_squared_deviations / n
print(f"Variance: {variance}")
Variance: 3.44
Wir können auch die integrierte Methode verwenden, um die Varianz im Statistikmodul zu berechnen.
import statistics
# Outline the dataset information = (4, 8, 6, 5, 9)
# Calculate the variance utilizing the built-in perform
variance = statistics.variance(information)
print(f"Variance: {variance}")
Variance: 3.44
3. Visualisieren Sie die Auswirkungen von Mittelwert und Varianz
Lassen Sie uns nun visualisieren, wie sich eine Änderung des Mittelwerts und der Varianz auf die Kind einer Normalverteilung auswirkt:
Code:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm
Schritt 1: Definieren Sie einen Bereich von x-Werten
x = np.linspace(-10, 20, 1000)
Schritt 2: Definieren Sie Verteilungen mit unterschiedlichen Mittelwerten (mu), aber gleicher Varianz
means = (0, 5, 10) # Totally different means
constant_variance = 4
constant_std_dev = np.sqrt(constant_variance)
Schritt 3: Definieren Sie Verteilungen mit demselben Mittelwert, aber unterschiedlichen Varianzen
constant_mean = 5
variances = (1, 4, 9) # Totally different variances
std_devs = (np.sqrt(var) for var in variances)
Schritt 4: Zeichnen Sie Verteilungen mit unterschiedlichen Mittelwerten auf
plt.determine(figsize=(12, 6))
plt.subplot(1, 2, 1)
for mu in means:
y = norm.pdf(x, mu, constant_std_dev) # Regular PDF
plt.plot(x, y, label=f"Imply = {mu}, Variance = {constant_variance}")
plt.title("Impression of Altering the Imply (Fixed Variance)", fontsize=14)
plt.xlabel("x")
plt.ylabel("Likelihood Density")
plt.legend()
plt.grid()
Schritt 5: Zeichnen Sie Verteilungen mit unterschiedlichen Varianzen
plt.subplot(1, 2, 2)
for var, std in zip(variances, std_devs):
y = norm.pdf(x, constant_mean, std) # Regular PDF
plt.plot(x, y, label=f"Imply = {constant_mean}, Variance = {var}")
plt.title("Impression of Altering the Variance (Fixed Imply)", fontsize=14)
plt.xlabel("x")
plt.ylabel("Likelihood Density")
plt.legend()
plt.grid()
plt.tight_layout()
plt.present()
Lesen Sie auch: 6 Arten der Wahrscheinlichkeitsverteilung in der Datenwissenschaft
Schlussfolgerung aus der Grafik
Auswirkungen der Änderung des Mittelwerts:
- Der Mittelwert (μ) bestimmt den zentralen Standort der Verteilung.
- Beobachtung: Wenn sich der Mittelwert ändert:
- Die gesamte Kurve verschiebt sich horizontal entlang der x-Achse.
- Die Gesamtform (Ausbreitung und Höhe) bleibt unverändert, da die Varianz konstant ist.
- Abschluss: Der Mittelwert beeinflusst, wo die Verteilung zentriert ist, hat jedoch keinen Einfluss auf die Ausbreitung oder Breite der Kurve.
Auswirkung der Varianzänderung:
- Der Varianz (σ2) bestimmt die Verbreitung oder Streuung der Daten.
- Beobachtung: Wenn sich die Varianz ändert:
- A größere Varianz erstellt ein breiter Und schmeicheln Kurve, was auf eine stärkere Streuung der Daten hinweist.
- A kleinere Varianz erstellt ein schmaler Und größer Kurve, was auf eine geringere Streuung und mehr Konzentration um den Mittelwert hindeutet.
- Abschluss: Die Varianz beeinflusst, wie stark die Daten um den Mittelwert verteilt sind, und beeinflusst somit die Breite und Höhe der Kurve.
Wichtige Punkte:
- Der bedeuten (μ) bestimmt das Zentrum der Normalverteilung.
- Der Varianz (σ2 ) bestimmt seine Ausbreitung.
- Zusammen liefern sie eine vollständige Beschreibung der Kind der Normalverteilung und ermöglichen eine präzise Datenmodellierung.
Häufige Fehler bei der Interpretation von Mittelwert und Varianz
- Varianz falsch interpretieren: Eine höhere Varianz weist nicht immer auf schlechtere Daten hin. es spiegelt möglicherweise die natürliche Vielfalt im Datensatz wider.
- Ausreißer ignorieren: Ausreißer können den Mittelwert verzerren und die Varianz erhöhen.
- Normalität vorausgesetzt: Nicht alle Datensätze sind normalverteilt und die Anwendung von auf Mittelwert/Varianz basierenden Modellen auf nicht normale Daten kann zu Fehlern führen.
Abschluss
Der Mittelwert (μ) bestimmt das Zentrum der Normalverteilung, während die Varianz (σ2) ihre Ausbreitung steuert. Durch die Anpassung des Mittelwerts wird die Kurve horizontal verschoben, während sich durch die Änderung der Varianz ihre Breite und Höhe ändert. Zusammen definieren sie die Kind und das Verhalten der Verteilung und sind daher für die Analyse von Daten, die Erstellung von Modellen und das Treffen fundierter Entscheidungen in der Statistik und beim maschinellen Lernen unerlässlich.
Wenn Sie außerdem on-line nach einem KI/ML-Kurs suchen, dann erkunden Sie: The zertifiziertes KI- und ML-BlackBelt-Plus-Programm!
Häufig gestellte Fragen
Antwort. Der Mittelwert bestimmt das Zentrum der Verteilung. Es stellt den Symmetriepunkt und den Durchschnitt der Daten dar.
Antwort. Der Mittelwert bestimmt den zentralen Ort der Verteilung, während die Varianz ihre Ausbreitung steuert. Die Anpassung des einen hat keinen Einfluss auf das andere.
Antwort. Durch die Änderung des Mittelwerts wird die Kurve horizontal entlang der x-Achse verschoben, ihre Kind oder Ausbreitung wird jedoch nicht verändert.
Antwort. Wenn die Varianz Null ist, sind alle Datenpunkte identisch und die Verteilung fällt im Mittel auf einen einzigen Punkt zusammen.
Antwort. Mittelwert und Varianz definieren die Kind der Normalverteilung und sind für die statistische Analyse, die Vorhersagemodellierung und das Verständnis der Datenvariabilität von wesentlicher Bedeutung.
Antwort. Eine höhere Varianz führt zu einer flacheren, breiteren Glockenkurve, die eine größere Streuung der Daten anzeigt, während eine geringere Varianz zu einer höheren, schmaleren Kurve führt, was auf eine engere Clusterbildung um den Mittelwert hindeutet.