Dateneinblicke freisetzen: Wichtige Pandas-Funktionen für eine effektive Analyse
Bild vom Autor | Midjourney & Canva

Pandas bietet verschiedene Funktionen, mit denen Benutzer Daten bereinigen und analysieren können. In diesem Artikel werden wir auf einige der wichtigsten Pandas-Funktionen eingehen, die erforderlich sind, um wertvolle Erkenntnisse aus Ihren Daten zu gewinnen. Diese Funktionen vermitteln Ihnen die erforderlichen Fähigkeiten, um Rohdaten in aussagekräftige Informationen umzuwandeln.

Daten werden geladen

Das Laden von Daten ist der erste Schritt der Datenanalyse. Es ermöglicht uns, Daten aus verschiedenen Dateiformaten in einen Pandas DataFrame zu lesen. Dieser Schritt ist entscheidend für den Zugriff auf und die Bearbeitung von Daten in Python. Sehen wir uns an, wie man Daten mit Pandas lädt.

import pandas as pd
# Loading pandas from CSV file
information = pd.read_csv('information.csv')

Dieser Codeausschnitt importiert die Pandas-Bibliothek und verwendet die csv_lesen() Funktion zum Laden von Daten aus einer CSV-Datei. Standardmäßig geht read_csv() davon aus, dass die erste Zeile Spaltennamen enthält und verwendet Kommas als Trennzeichen.

Dateninspektion

Wir können eine Datenprüfung durchführen, indem wir Schlüsselattribute wie die Anzahl der Zeilen und Spalten sowie zusammenfassende Statistiken untersuchen. Dies hilft uns, ein umfassendes Verständnis des Datensatzes und seiner Eigenschaften zu erlangen, bevor wir mit der weiteren Analyse fortfahren.

df.kopf(): Es gibt standardmäßig die ersten fünf Zeilen des DataFrame zurück. Dies ist nützlich, um den oberen Teil der Daten zu überprüfen und sicherzustellen, dass er korrekt geladen wurde.

     A    B     C
0  1.0  5.0  10.0
1  2.0  NaN  11.0
2  NaN  NaN  12.0
3  4.0  8.0  12.0
4  5.0  8.0  12.0

df.tail(): Es gibt standardmäßig die letzten fünf Zeilen des DataFrame zurück. Dies ist nützlich, um den unteren Teil der Daten zu überprüfen.

     A    B     C
1  2.0  NaN  11.0
2  NaN  NaN  12.0
3  4.0  8.0  12.0
4  5.0  8.0  12.0
5  5.0  8.0   NaN

df.data(): Diese Methode bietet eine kurze Zusammenfassung des DataFrame. Sie enthält die Anzahl der Einträge, Spaltennamen, nicht null-Zählungen und Datentypen.

<class 'pandas.core.body.DataFrame'>
RangeIndex: 6 entries, 0 to five
Knowledge columns (complete 3 columns):
 #   Column  Non-Null Depend  Dtype  
---  ------  --------------  -----  
 0   A       5 non-null      float64
 1   B       4 non-null      float64
 2   C       5 non-null      float64
dtypes: float64(3)
reminiscence utilization: 272.0 bytes

df.beschreiben(): Dies generiert beschreibende Statistiken für numerische Spalten im DataFrame. Es umfasst Anzahl, Mittelwert, Standardabweichung, Minimal, Most und die Quartilwerte (25 %, 50 %, 75 %).

              A         B          C
rely  5.000000  4.000000   5.000000
imply   3.400000  7.250000  11.400000
std    1.673320  1.258306   0.547723
min    1.000000  5.000000  10.000000
25%    2.000000  7.000000  11.000000
50%    4.000000  8.000000  12.000000
75%    5.000000  8.000000  12.000000
max    5.000000  8.000000  12.000000

Datenreinigung

Die Datenbereinigung ist ein entscheidender Schritt im Datenanalyseprozess, da sie die Qualität des Datensatzes sicherstellt. Pandas bietet eine Vielzahl von Funktionen zur Behebung gängiger Datenqualitätsprobleme wie fehlende Werte, Duplikate und Inkonsistenzen.

df.dropna(): Dies wird verwendet, um alle Zeilen zu entfernen, die fehlende Werte enthalten.

Beispiel: clean_df = df.dropna()

df.fillna():Dies wird verwendet, um fehlende Werte durch den Mittelwert der jeweiligen Spalten zu ersetzen.

Beispiel: filled_df = df.fillna(df.imply())

df.istnull(): Dadurch werden die fehlenden Werte in Ihrem Datenrahmen identifiziert.

Beispiel: missing_values = df.isnull()

Datenauswahl und -filterung

Datenauswahl und -filterung sind wichtige Techniken zum Bearbeiten und Analysieren von Daten in Pandas. Diese Vorgänge ermöglichen es uns, bestimmte Zeilen, Spalten oder Teilmengen von Daten basierend auf bestimmten Bedingungen zu extrahieren. Dies erleichtert es, sich auf relevante Informationen zu konzentrieren und Analysen durchzuführen. Hier ist ein Blick auf verschiedene Methoden zur Datenauswahl und -filterung in Pandas:

df(‚Spaltenname‘): Es wird eine einzelne Spalte ausgewählt.

Beispiel: df(“Title”)

0      Alice
1        Bob
2    Charlie
3      David
4        Eva
Title: Title, dtype: object

df((‚Spalte1‘, ‚Spalte2‘)): Es werden mehrere Spalten ausgewählt.

Beispiel: df("Title, Metropolis")

0      Alice
1        Bob
2    Charlie
3      David
4        Eva
Title: Title, dtype: object

df.iloc(): Es greift auf Zeilen- und Spaltengruppen nach ganzzahliger Place zu.

Beispiel: df.iloc(0:2)

    Title  Age
0  Alice   24
1   Bob   27

Datenaggregation und -gruppierung

Für die Datenzusammenfassung und -analyse ist es entscheidend, Daten in Pandas zu aggregieren und zu gruppieren. Diese Vorgänge ermöglichen es uns, große Datensätze in aussagekräftige Erkenntnisse umzuwandeln, indem wir verschiedene Zusammenfassungsfunktionen wie Mittelwert, Summe, Anzahl usw. anwenden.

df.gruppieren(): Gruppiert Daten basierend auf angegebenen Spalten.

Beispiel: df.groupby(('Yr')).agg({'Inhabitants': 'sum', 'Area_sq_miles': 'imply'})

         Inhabitants  Area_sq_miles
Yr                              
2020       15025198     332.866667
2021       15080249     332.866667

df.agg(): Bietet eine Möglichkeit, mehrere Aggregatfunktionen gleichzeitig anzuwenden.

Beispiel: df.groupby(('Yr')).agg({'Inhabitants': ('sum', 'imply', 'max')})

      Inhabitants                          
          sum          imply       max
Yr                                  
2020  15025198  5011732.666667  6000000
2021  15080249  5026749.666667  6500000

Zusammenführen und Verknüpfen von Daten

Pandas bietet mehrere leistungsstarke Funktionen zum Zusammenführen, Verketten und Verbinden von DataFrames, sodass wir Daten effizient und effektiv integrieren können.

pd.merge(): Kombiniert zwei DataFrames basierend auf einem gemeinsamen Schlüssel oder Index.

Beispiel: merged_df = pd.merge(df1, df2, on='A')

pd.concat(): Verkettet DataFrames entlang einer bestimmten Achse (Zeilen oder Spalten).

Beispiel: concatenated_df = pd.concat((df1, df2))

Zeitreihenanalyse

Bei der Zeitreihenanalyse mit Pandas wird die Pandas-Bibliothek zum Visualisieren und Analysieren von Zeitreihendaten verwendet. Pandas bietet Datenstrukturen und Funktionen, die speziell für die Arbeit mit Zeitreihendaten entwickelt wurden.

bis_datumzeit(): Konvertiert eine Spalte mit Zeichenfolgen in Datums-/Uhrzeitobjekte.

Beispiel: df('date') = pd.to_datetime(df('date'))

     date       worth
0 2022-01-01     10
1 2022-01-02     20
2 2022-01-03     30

setze_index(): Legt eine Datums-/Uhrzeitspalte als Index des DataFrame fest.

Beispiel: df.set_index('date', inplace=True)

    date     worth  
2022-01-01     10
2022-01-02     20
2022-01-03     30

Schicht(): Verschiebt den Index der Zeitreihendaten um eine angegebene Anzahl von Perioden vorwärts oder rückwärts.

Beispiel: df_shifted = df.shift(intervals=1)

  date       worth
2022-01-01    NaN
2022-01-02   10.0
2022-01-03   20.0

Abschluss

In diesem Artikel haben wir einige der Pandas-Funktionen behandelt, die für die Datenanalyse unerlässlich sind. Mit diesen Instruments können Sie fehlende Werte nahtlos verarbeiten, Duplikate entfernen, bestimmte Werte ersetzen und verschiedene andere Datenmanipulationsaufgaben durchführen. Darüber hinaus haben wir fortgeschrittene Techniken wie Datenaggregation, -zusammenführung und Zeitreihenanalyse untersucht.

Jayita Gulati ist eine Enthusiastin für maschinelles Lernen und technische Autorin, die von ihrer Leidenschaft für die Erstellung von Modellen für maschinelles Lernen angetrieben wird. Sie hat einen Grasp-Abschluss in Informatik von der Universität Liverpool.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert