Bild von kostenlospik
Statistische Funktionen sind der Grundstein für die Gewinnung aussagekräftiger Erkenntnisse aus Rohdaten. Python bietet Statistikern und Datenwissenschaftlern ein leistungsstarkes Toolkit zum Verstehen und Analysieren von Datensätzen. Bibliotheken wie NumPy, Pandas und SciPy bieten eine umfassende Funktionssuite. In diesem Handbuch werden 10 wichtige statistische Funktionen in Python innerhalb dieser Bibliotheken erläutert.
Bibliotheken für die statistische Analyse
Python bietet viele Bibliotheken, die speziell für statistische Analysen entwickelt wurden. Drei der am häufigsten verwendeten sind NumPy, Pandas und SciPy stats.
- NumPy: Die Abkürzung steht für Numerical Python. Diese Bibliothek bietet Unterstützung für Arrays, Matrizen und eine Reihe mathematischer Funktionen.
- Pandas: Pandas ist eine Bibliothek zur Datenbearbeitung und -analyse, die bei der Arbeit mit Tabellen und Zeitreihendaten hilfreich ist. Sie basiert auf NumPy und bietet zusätzliche Funktionen zur Datenbearbeitung.
- SciPy-Statistiken: Die Abkürzung steht für Scientific Python. Diese Bibliothek wird für wissenschaftliche und technische Berechnungen verwendet. Sie bietet eine große Anzahl von Wahrscheinlichkeitsverteilungen, statistischen Funktionen und Hypothesentests.
Python-Bibliotheken müssen heruntergeladen und in die Arbeitsumgebung importiert werden, bevor sie verwendet werden können. Um eine Bibliothek zu installieren, verwenden Sie das Terminal und den Befehl pip set up. Sobald sie installiert ist, kann sie mit der Importanweisung in Ihr Python-Skript oder Jupyter-Pocket book geladen werden. NumPy wird normalerweise importiert als np
Pandas als pd
und normalerweise wird nur das Statistikmodul aus SciPy importiert.
pip set up numpy
pip set up pandas
pip set up scipy
import numpy as np
import pandas as pd
from scipy import stats
Wenn verschiedene Funktionen mit mehr als einer Bibliothek berechnet werden können, wird Beispielcode für die jeweilige Bibliothek angezeigt.
1. Mittelwert (Durchschnitt)
Der Mittelwert, auch Durchschnitt genannt, ist die grundlegendste statistische Kennzahl. Er liefert einen zentralen Wert für eine Reihe von Zahlen. Mathematisch gesehen ist er die Summe aller Werte geteilt durch die Anzahl der vorhandenen Werte.
mean_numpy = np.imply(information)
mean_pandas = pd.Sequence(information).imply()
2. Median
Der Median ist ein weiteres Maß für die zentrale Tendenz. Er wird berechnet, indem der mittlere Wert des Datensatzes angegeben wird, wenn alle Werte in der richtigen Reihenfolge sortiert sind. Im Gegensatz zum Mittelwert wird er nicht von Ausreißern beeinflusst. Dies macht ihn zu einem robusteren Maß für schiefe Verteilungen.
median_numpy = np.median(information)
median_pandas = pd.Sequence(information).median()
3. Standardabweichung
Die Standardabweichung ist ein Maß für die Variation oder Streuung in einem Wertesatz. Sie wird anhand der Differenzen zwischen jedem Datenpunkt und dem Mittelwert berechnet. Eine niedrige Standardabweichung zeigt an, dass die Werte im Datensatz eher nahe am Mittelwert liegen, während eine größere Standardabweichung anzeigt, dass die Werte stärker gestreut sind.
std_numpy = np.std(information)
std_pandas = pd.Sequence(information).std()
4. Perzentile
Perzentile geben die relative Stellung eines Wertes innerhalb eines Datensatzes an, wenn alle Daten der Reihe nach sortiert sind. Beispielsweise ist das 25. Perzentil der Wert, unter dem 25 % der Daten liegen. Der Median wird technisch als das 50. Perzentil definiert.
Perzentile werden mithilfe der NumPy-Bibliothek berechnet und die jeweiligen Perzentile müssen in die Funktion aufgenommen werden. Im Beispiel werden das 25., 50. und 75. Perzentil berechnet, aber jeder Perzentilwert zwischen 0 und 100 ist gültig.
percentiles = np.percentile(information, (25, 50, 75))
5. Korrelation
Die Korrelation zwischen zwei Variablen beschreibt die Stärke und Richtung ihrer Beziehung. Es ist das Ausmaß, in dem sich eine Variable ändert, wenn sich die andere ändert. Der Korrelationskoeffizient reicht von -1 bis 1, wobei -1 eine perfekte damaging Korrelation, 1 eine perfekte constructive Korrelation und 0 keine lineare Beziehung zwischen den Variablen anzeigt.
corr_numpy = np.corrcoef(x, y)
corr_pandas = pd.Sequence(x).corr(pd.Sequence(y))
6. Kovarianz
Kovarianz ist ein statistisches Maß, das das Ausmaß darstellt, in dem sich zwei Variablen gemeinsam ändern. Sie gibt nicht die Stärke der Beziehung an, wie dies bei einer Korrelation der Fall ist, aber sie gibt die Richtung der Beziehung zwischen den Variablen an. Sie ist auch der Schlüssel zu vielen statistischen Methoden, die die Beziehungen zwischen Variablen untersuchen, wie z. B. der Hauptkomponentenanalyse.
cov_numpy = np.cov(x, y)
cov_pandas = pd.Sequence(x).cov(pd.Sequence(y))
7. Schiefe
Die Schiefe misst die Asymmetrie der Verteilung einer kontinuierlichen Variable. Eine Schiefe von Null bedeutet, dass die Daten symmetrisch verteilt sind, wie etwa bei der Normalverteilung. Die Schiefe hilft dabei, potenzielle Ausreißer im Datensatz zu identifizieren, und die Herstellung der Symmetrie ist eine Voraussetzung für einige statistische Methoden und Transformationen.
skew_scipy = stats.skew(information)
skew_pandas = pd.Sequence(information).skew()
8. Kurtosis
Kurtosis wird oft zusammen mit Schiefe verwendet und beschreibt, wie groß die Fläche in den Enden einer Verteilung im Verhältnis zur Normalverteilung ist. Sie wird verwendet, um das Vorhandensein von Ausreißern anzuzeigen und die Gesamtform der Verteilung zu beschreiben, z. B. ob sie stark spitz (leptokurtisch genannt) oder flacher (platykurtisch genannt) ist.
kurt_scipy = stats.kurtosis(information)
kurt_pandas = pd.Sequence(information).kurt()
9. T-Check
Ein T-Check ist ein statistischer Check, mit dem ermittelt wird, ob zwischen den Mittelwerten zweier Gruppen ein signifikanter Unterschied besteht. Oder im Fall eines Einstichproben-T-Assessments kann er verwendet werden, um zu ermitteln, ob der Mittelwert einer Stichprobe signifikant von einem vorgegebenen Populationsmittelwert abweicht.
Dieser Check wird mit dem Statistikmodul in der SciPy-Bibliothek ausgeführt. Der Check liefert zwei Ausgabeteile, die T-Statistik und den P-Wert. Wenn der P-Wert kleiner als 0,05 ist, wird das Ergebnis im Allgemeinen als statistisch signifikant angesehen, wenn die beiden Mittelwerte voneinander abweichen.
t_test, p_value = stats.ttest_ind(data1, data2)
onesamp_t_test, p_value = stats.ttest_1samp(information, popmean = 0)
10. Chi-Quadrat
Der Chi-Quadrat-Check wird verwendet, um zu bestimmen, ob ein signifikanter Zusammenhang zwischen zwei kategorialen Variablen wie Berufsbezeichnung und Geschlecht besteht. Der Check verwendet auch das Statistikmodul innerhalb der SciPy-Bibliothek und erfordert die Eingabe sowohl der beobachteten als auch der erwarteten Daten. Ähnlich wie beim t-Check liefert die Ausgabe sowohl eine Chi-Quadrat-Teststatistik als auch einen p-Wert, der mit 0,05 verglichen werden kann.
chi_square_test, p_value = stats.chisquare(f_obs=noticed, f_exp=anticipated)
Zusammenfassung
In diesem Artikel wurden 10 wichtige statistische Funktionen in Python hervorgehoben, aber es gibt noch viele weitere in verschiedenen Paketen, die für spezifischere Anwendungen verwendet werden können. Die Nutzung dieser Instruments für Statistiken und Datenanalysen ermöglicht es Ihnen, aussagekräftige Erkenntnisse aus Ihren Daten zu gewinnen.
Mehrnaz Siavoshi hat einen Grasp in Datenanalyse und arbeitet hauptberuflich als Biostatistikerin an der Entwicklung komplexer maschineller Lernverfahren und statistischer Analysen im Gesundheitswesen. Sie hat Erfahrung mit KI und hat an der College of the Individuals Universitätskurse in Biostatistik und maschinellem Lernen unterrichtet.