So führen Sie große DataFrames effizient mit Pandas zusammen
Bild vom Herausgeber | Midjourney & Canva

Lernen wir, wie man große DataFrames in Pandas effizient zusammenführt.

Vorbereitung

Stellen Sie sicher, dass das Pandas-Paket in Ihrer Umgebung installiert ist. Wenn nicht, können Sie es über Pip mit dem folgenden Code installieren:

Nachdem das Pandas-Paket installiert wurde, erfahren wir im nächsten Teil mehr.

Effizient fusionieren mit Pandas

Pandas ist ein Open-Supply-Paket zur Datenbearbeitung, das in der Daten-Group von vielen verwendet wird. Es ist ein flexibles Paket, das viele Datenaufgaben bewältigen kann, darunter auch das Zusammenführen von Daten. Zusammenführen hingegen bezeichnet die Aktivität, zwei oder mehr Datensätze auf der Grundlage gemeinsamer Spalten oder Indizes zu kombinieren. Es wird hauptsächlich verwendet, wenn wir mehrere Datensätze haben und deren Informationen kombinieren möchten.

In der Praxis werden wir mit mehreren großen Tabellen konfrontiert. Wenn wir die Tabellen in Pandas DataFrames umwandeln, können wir sie bearbeiten und zusammenführen. Eine größere Größe bedeutet jedoch, dass sie rechenintensiv ist und viele Ressourcen beansprucht.

Aus diesem Grund gibt es einige Methoden, um die Effizienz der Zusammenführung großer Pandas-DataFrames zu verbessern.

Verwenden wir zunächst, sofern zutreffend, einen speichereffizienteren Typ, etwa einen Kategorietyp und einen kleineren Float-Typ.

df1('object1') = df1('object1').astype('class')
df2('object2') = df2('object2').astype('class')

df1('numeric1') = df1('numeric1').astype('float32')
df2('numeric2') = df2('numeric2').astype('float32')

Versuchen Sie dann, die zusammenzuführenden Schlüsselspalten als Index festzulegen. Das liegt daran, dass das indexbasierte Zusammenführen schneller ist.

df1.set_index('key', inplace=True) 
df2.set_index('key', inplace=True)

Als nächstes verwenden wir den DataFrame .merge Methode anstelle von pd.merge Funktion, da sie viel effizienter und leistungsoptimierter ist.

merged_df = df1.merge(df2, left_index=True, right_index=True, how='inside')

Schließlich können Sie den gesamten Prozess debuggen, um zu verstehen, welche Zeilen aus welchem ​​DataFrame stammen.

merged_df_debug = pd.merge(df1.reset_index(), df2.reset_index(), on='key', how='outer', indicator=True)

Mit dieser Methode können Sie die Effizienz der Zusammenführung großer DataFrames verbessern.

Zusätzliche Ressourcen

Cornellius Yudha Wijaya ist Knowledge Science Assistant Supervisor und Datenautor. Während seiner Vollzeitbeschäftigung bei Allianz Indonesien teilt er gerne Python- und Datentipps über soziale Medien und in den Medien. Cornellius schreibt über eine Vielzahl von KI- und maschinellen Lernthemen.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert