Bild vom Autor | Midjourney & Canva
Pandas bietet verschiedene Funktionen, mit denen Benutzer Daten bereinigen und analysieren können. In diesem Artikel werden wir auf einige der wichtigsten Pandas-Funktionen eingehen, die erforderlich sind, um wertvolle Erkenntnisse aus Ihren Daten zu gewinnen. Diese Funktionen vermitteln Ihnen die erforderlichen Fähigkeiten, um Rohdaten in aussagekräftige Informationen umzuwandeln.
Daten werden geladen
Das Laden von Daten ist der erste Schritt der Datenanalyse. Es ermöglicht uns, Daten aus verschiedenen Dateiformaten in einen Pandas DataFrame zu lesen. Dieser Schritt ist entscheidend für den Zugriff auf und die Bearbeitung von Daten in Python. Sehen wir uns an, wie man Daten mit Pandas lädt.
import pandas as pd
# Loading pandas from CSV file
information = pd.read_csv('information.csv')
Dieser Codeausschnitt importiert die Pandas-Bibliothek und verwendet die csv_lesen() Funktion zum Laden von Daten aus einer CSV-Datei. Standardmäßig geht read_csv() davon aus, dass die erste Zeile Spaltennamen enthält und verwendet Kommas als Trennzeichen.
Dateninspektion
Wir können eine Datenprüfung durchführen, indem wir Schlüsselattribute wie die Anzahl der Zeilen und Spalten sowie zusammenfassende Statistiken untersuchen. Dies hilft uns, ein umfassendes Verständnis des Datensatzes und seiner Eigenschaften zu erlangen, bevor wir mit der weiteren Analyse fortfahren.
df.kopf(): Es gibt standardmäßig die ersten fünf Zeilen des DataFrame zurück. Dies ist nützlich, um den oberen Teil der Daten zu überprüfen und sicherzustellen, dass er korrekt geladen wurde.
A B C
0 1.0 5.0 10.0
1 2.0 NaN 11.0
2 NaN NaN 12.0
3 4.0 8.0 12.0
4 5.0 8.0 12.0
df.tail(): Es gibt standardmäßig die letzten fünf Zeilen des DataFrame zurück. Dies ist nützlich, um den unteren Teil der Daten zu überprüfen.
A B C
1 2.0 NaN 11.0
2 NaN NaN 12.0
3 4.0 8.0 12.0
4 5.0 8.0 12.0
5 5.0 8.0 NaN
df.data(): Diese Methode bietet eine kurze Zusammenfassung des DataFrame. Sie enthält die Anzahl der Einträge, Spaltennamen, nicht null-Zählungen und Datentypen.
<class 'pandas.core.body.DataFrame'>
RangeIndex: 6 entries, 0 to five
Knowledge columns (complete 3 columns):
# Column Non-Null Depend Dtype
--- ------ -------------- -----
0 A 5 non-null float64
1 B 4 non-null float64
2 C 5 non-null float64
dtypes: float64(3)
reminiscence utilization: 272.0 bytes
df.beschreiben(): Dies generiert beschreibende Statistiken für numerische Spalten im DataFrame. Es umfasst Anzahl, Mittelwert, Standardabweichung, Minimal, Most und die Quartilwerte (25 %, 50 %, 75 %).
A B C
rely 5.000000 4.000000 5.000000
imply 3.400000 7.250000 11.400000
std 1.673320 1.258306 0.547723
min 1.000000 5.000000 10.000000
25% 2.000000 7.000000 11.000000
50% 4.000000 8.000000 12.000000
75% 5.000000 8.000000 12.000000
max 5.000000 8.000000 12.000000
Datenreinigung
Die Datenbereinigung ist ein entscheidender Schritt im Datenanalyseprozess, da sie die Qualität des Datensatzes sicherstellt. Pandas bietet eine Vielzahl von Funktionen zur Behebung gängiger Datenqualitätsprobleme wie fehlende Werte, Duplikate und Inkonsistenzen.
df.dropna(): Dies wird verwendet, um alle Zeilen zu entfernen, die fehlende Werte enthalten.
Beispiel: clean_df = df.dropna()
df.fillna():Dies wird verwendet, um fehlende Werte durch den Mittelwert der jeweiligen Spalten zu ersetzen.
Beispiel: filled_df = df.fillna(df.imply())
df.istnull(): Dadurch werden die fehlenden Werte in Ihrem Datenrahmen identifiziert.
Beispiel: missing_values = df.isnull()
Datenauswahl und -filterung
Datenauswahl und -filterung sind wichtige Techniken zum Bearbeiten und Analysieren von Daten in Pandas. Diese Vorgänge ermöglichen es uns, bestimmte Zeilen, Spalten oder Teilmengen von Daten basierend auf bestimmten Bedingungen zu extrahieren. Dies erleichtert es, sich auf relevante Informationen zu konzentrieren und Analysen durchzuführen. Hier ist ein Blick auf verschiedene Methoden zur Datenauswahl und -filterung in Pandas:
df(‚Spaltenname‘): Es wird eine einzelne Spalte ausgewählt.
Beispiel: df(“Title”)
0 Alice
1 Bob
2 Charlie
3 David
4 Eva
Title: Title, dtype: object
df((‚Spalte1‘, ‚Spalte2‘)): Es werden mehrere Spalten ausgewählt.
Beispiel: df("Title, Metropolis")
0 Alice
1 Bob
2 Charlie
3 David
4 Eva
Title: Title, dtype: object
df.iloc(): Es greift auf Zeilen- und Spaltengruppen nach ganzzahliger Place zu.
Beispiel: df.iloc(0:2)
Title Age
0 Alice 24
1 Bob 27
Datenaggregation und -gruppierung
Für die Datenzusammenfassung und -analyse ist es entscheidend, Daten in Pandas zu aggregieren und zu gruppieren. Diese Vorgänge ermöglichen es uns, große Datensätze in aussagekräftige Erkenntnisse umzuwandeln, indem wir verschiedene Zusammenfassungsfunktionen wie Mittelwert, Summe, Anzahl usw. anwenden.
df.gruppieren(): Gruppiert Daten basierend auf angegebenen Spalten.
Beispiel: df.groupby(('Yr')).agg({'Inhabitants': 'sum', 'Area_sq_miles': 'imply'})
Inhabitants Area_sq_miles
Yr
2020 15025198 332.866667
2021 15080249 332.866667
df.agg(): Bietet eine Möglichkeit, mehrere Aggregatfunktionen gleichzeitig anzuwenden.
Beispiel: df.groupby(('Yr')).agg({'Inhabitants': ('sum', 'imply', 'max')})
Inhabitants
sum imply max
Yr
2020 15025198 5011732.666667 6000000
2021 15080249 5026749.666667 6500000
Zusammenführen und Verknüpfen von Daten
Pandas bietet mehrere leistungsstarke Funktionen zum Zusammenführen, Verketten und Verbinden von DataFrames, sodass wir Daten effizient und effektiv integrieren können.
pd.merge(): Kombiniert zwei DataFrames basierend auf einem gemeinsamen Schlüssel oder Index.
Beispiel: merged_df = pd.merge(df1, df2, on='A')
pd.concat(): Verkettet DataFrames entlang einer bestimmten Achse (Zeilen oder Spalten).
Beispiel: concatenated_df = pd.concat((df1, df2))
Zeitreihenanalyse
Bei der Zeitreihenanalyse mit Pandas wird die Pandas-Bibliothek zum Visualisieren und Analysieren von Zeitreihendaten verwendet. Pandas bietet Datenstrukturen und Funktionen, die speziell für die Arbeit mit Zeitreihendaten entwickelt wurden.
bis_datumzeit(): Konvertiert eine Spalte mit Zeichenfolgen in Datums-/Uhrzeitobjekte.
Beispiel: df('date') = pd.to_datetime(df('date'))
date worth
0 2022-01-01 10
1 2022-01-02 20
2 2022-01-03 30
setze_index(): Legt eine Datums-/Uhrzeitspalte als Index des DataFrame fest.
Beispiel: df.set_index('date', inplace=True)
date worth
2022-01-01 10
2022-01-02 20
2022-01-03 30
Schicht(): Verschiebt den Index der Zeitreihendaten um eine angegebene Anzahl von Perioden vorwärts oder rückwärts.
Beispiel: df_shifted = df.shift(intervals=1)
date worth
2022-01-01 NaN
2022-01-02 10.0
2022-01-03 20.0
Abschluss
In diesem Artikel haben wir einige der Pandas-Funktionen behandelt, die für die Datenanalyse unerlässlich sind. Mit diesen Instruments können Sie fehlende Werte nahtlos verarbeiten, Duplikate entfernen, bestimmte Werte ersetzen und verschiedene andere Datenmanipulationsaufgaben durchführen. Darüber hinaus haben wir fortgeschrittene Techniken wie Datenaggregation, -zusammenführung und Zeitreihenanalyse untersucht.
Jayita Gulati ist eine Enthusiastin für maschinelles Lernen und technische Autorin, die von ihrer Leidenschaft für die Erstellung von Modellen für maschinelles Lernen angetrieben wird. Sie hat einen Grasp-Abschluss in Informatik von der Universität Liverpool.