5 nützliche Python-Skripte zur Automatisierung langweiliger Excel-Aufgaben
Bild vom Autor

# Einführung

Excel bleibt für die Datenarbeit related, aber ein erheblicher Teil der damit verbrachten Zeit ist rein mechanischer Natur. Aufgaben wie das Kombinieren von Dateien aus mehreren Quellen, das Aufspüren doppelter Datensätze, das Neuformatieren inkonsistenter Exporte und das Aufteilen eines Masterblatts in separate Dateien sind nicht komplex, aber zeitaufwändig und anfällig für menschliches Versagen.

Diese fünf Python Skripte helfen dabei, diese Aufgaben zu automatisieren. Jedes ist eigenständig, konfigurierbar und für die Arbeit mit chaotischen Daten aus der realen Welt konzipiert.

Alle Skripte finden Sie auf GitHub.

# Mehrere Excel-Dateien zusammenführen

// Der Schmerzpunkt

Beim Konsolidieren von Daten aus mehreren Excel- oder CSV-Dateien (Comma-Separated Values) ist der manuelle Vorgang – Öffnen jeder Datei, Kopieren der Daten und Einfügen in ein Masterblatt – langsam und anfällig für Fehlausrichtungsfehler, insbesondere wenn die Spaltenreihenfolge zwischen den Dateien unterschiedlich ist.

// Was das Skript macht

Dieses Skript durchsucht einen Ordner nach XLSX- und CSV-Dateien, stapelt alle Daten in einem einzigen einheitlichen Blatt und schreibt eine saubere zusammengeführte Ausgabedatei. Optionally available kann eine Quellspalte hinzugefügt werden, sodass Sie immer wissen, welche Zeile aus welcher Datei stammt, und nicht übereinstimmende Spaltenreihenfolgen werden automatisch behandelt.

// Wie es funktioniert

Das Skript verwendet Pandas um jede Datei in einem Zielverzeichnis zu lesen, richtet Spalten nach Namen statt nach Place aus und verkettet alles zu einer einzigen DataFrame. Eine konfigurierbare add_source_column Flag hängt den ursprünglichen Dateinamen an jede Zeile an. Spaltenkonflikte werden protokolliert, sodass Sie wissen, ob in einigen Dateien zusätzliche oder fehlende Felder vorhanden waren. Die Ausgabe wird mit geschrieben openpyxl und enthält eine Zusammenfassungsregisterkarte, auf der die Anzahl der Zeilen professional Datei angezeigt wird.

Holen Sie sich das Skript zum Zusammenführen von Excel-Dateien

# Suchen und Markieren doppelter Zeilen

// Der Schmerzpunkt

Doppelte Datensätze kommen häufig in Datensätzen vor, die systemübergreifend exportiert und erneut importiert wurden. Genaue Übereinstimmungen sind leicht zu finden, aber Beinahe-Duplikate – gleicher Datensatz, leicht unterschiedliche Formatierung oder Abstände – sind im großen Maßstab manuell schwerer zu erkennen.

// Was das Skript macht

Dieses Skript durchsucht eine Excel-Datei auf der Grundlage der von Ihnen definierten Spalten nach doppelten Zeilen, kennzeichnet exakte Duplikate und Beinahe-Duplikate durch Fuzzy-Matches in Zeichenfolgenfeldern und schreibt eine mit Anmerkungen versehene Ausgabedatei, in der jede Gruppe vermuteter Duplikate mit Farbcodierung und einem Konfidenzwert hervorgehoben wird.

// Wie es funktioniert

Das Skript verwendet pandas zur exakten Duplikaterkennung und RapidFuzz für Fuzzy-String-Matching für konfigurierbare Schlüsselspalten. Jeder Zeile wird eine doppelte Gruppen-ID und ein Übereinstimmungskonfidenzprozentsatz zugewiesen. Die Ausgabe-Excel-Datei verwendet openpyxl Formatierung, um doppelte Cluster hervorzuheben. Ein separates Übersichtsblatt zeigt die Gesamtzahl der gefundenen Duplikate, aufgeschlüsselt nach Übereinstimmungstyp.

Holen Sie sich das Duplikat-Finder-Skript

# Bereinigen und Standardisieren unordentlicher exportierter Daten

// Der Schmerzpunkt

Aus externen Systemen exportierte Daten kommen häufig inkonsistent formatiert mit gemischten Datumsformaten, inkonsistenter Groß- und Kleinschreibung, Telefonnummern mit unterschiedlichen Trennzeichen und nachgestellten Leerzeichen an. Wenn Sie dies manuell bereinigen, bevor eine Analyse durchgeführt wird, summiert sich das schnell.

// Was das Skript macht

Dieses Skript wendet einen konfigurierbaren Satz von Reinigungsregeln auf eine Excel- oder CSV-Datei an. Dazu gehören das Standardisieren von Datumsangaben, das Entfernen von Leerzeichen, das Korrigieren der Groß- und Kleinschreibung, das Normalisieren von Telefonnummern und Postleitzahlen, das Entfernen leerer Zeilen und das Markieren von Zellen, die falsch erscheinen. Es gibt eine bereinigte Datei und ein Änderungsprotokoll aus, das genau zeigt, was geändert wurde.

// Wie es funktioniert

Das Skript liest eine Konfigurationsdatei, die Spaltennamen Reinigungsvorgängen zuordnet: date_format, title_case, strip_whitespace, phone_normalize, remove_blank_rowsund andere. Jeder Vorgang wird nacheinander angewendet. Ein paralleles Änderungsprotokoll wird in ein zweites Blatt in der Ausgabe geschrieben und zeigt die Originalwerte im Vergleich zu den bereinigten Werten für jede geänderte Zelle. Nichts wird stillschweigend verworfen. Wenn ein Wert nicht geparst werden kann, wird er in a gekennzeichnet _clean_errors Spalte.

Holen Sie sich das Datenbereinigungsskript

# Aufteilen eines Blattes in separate Dateien nach Spaltenwert

// Der Schmerzpunkt

Ein Masterdatensatz muss oft als separate Dateien verteilt werden – beispielsweise eine professional Area, Abteilung oder Kategorie. Wenn Sie dies manuell tun, müssen Sie wiederholt filtern, kopieren und speichern, wobei ein hohes Risiko besteht, dass Daten zwischen Dateien verwechselt werden.

// Was das Skript macht

Dieses Skript liest eine einzelne Excel-Tabelle und teilt sie in separate Ausgabedateien auf – eine professional eindeutigem Wert in einer angegebenen Spalte. Jede Ausgabedatei enthält nur die Zeilen für diesen Wert, wobei die ursprüngliche Formatierung erhalten bleibt. Dateinamen werden automatisch aus den Spaltenwerten generiert. Optionally available kann jede Datei mithilfe einer von Ihnen bereitgestellten Title-zu-E-Mail-Zuordnung als E-Mail-Anhang gesendet werden.

// Wie es funktioniert

Das Skript gruppiert die DataFrame durch die Zielspalte mit pandasund schreibt dann jede Gruppe mit in ihre eigene XLSX-Datei openpyxl. Eine Benennungsvorlage, z Sales_Report_{worth}_{date}.xlsxMit dieser Choice können Sie das Format des Ausgabedateinamens steuern. Spaltenüberschriften, Datentypen und grundlegende Formatierungen bleiben in jeder Ausgabedatei erhalten. Ein optionaler E-Mail-Modus liest eine CSV-Zuordnung von {worth} → {e-mail handle} und sendet jede Datei über die Easy Mail Switch Protocol (SMTP).

Holen Sie sich das Sheet-Splitter-Skript

# Generieren eines zusammenfassenden Pivot-Berichts aus Rohdaten

// Der Schmerzpunkt

Um einen zusammenfassenden Bericht aus Rohdaten zu erstellen – Gesamtzahlen nach Kategorie, monatlichen Traits oder Prime-Performern –, müssen Pivot-Tabellen erstellt, formatiert und die Ergebnisse in ein vorzeigbares Structure kopiert werden. Wenn die Quelldaten regelmäßig aktualisiert werden, wird dieser Vorgang jedes Mal von Grund auf wiederholt.

// Was das Skript macht

Dieses Skript liest eine Excel-Rohdatendatei, erstellt konfigurierbare Pivot-Zusammenfassungen und schreibt einen formatierten Zusammenfassungsbericht mit mehreren Registerkarten. Diagramme werden generiert und in die Ausgabedatei eingebettet. Sie können es jederzeit erneut ausführen, wenn sich die Quelldaten ändern.

// Wie es funktioniert

Eine Konfigurationsdatei definiert das Datumsfeld, das Wertfeld, Gruppierungsspalten und bestimmte auszuführende Aggregationen. Das Skript verwendet pandas für alle Aggregationslogiken und openpyxl mit Matplotlib zur Diagrammerstellung. Jeder Zusammenfassungstyp erhält eine eigene Registerkarte. Durch die bedingte Formatierung werden die höchsten und niedrigsten Werte hervorgehoben. Der Bericht ist für die bedarfsgesteuerte Neugenerierung konzipiert und die erneute Ausführung des Skripts überschreibt die vorherige Ausgabe sauber.

Holen Sie sich das Pivot-Berichtsgenerator-Skript

# Zusammenfassung

Diese fünf Skripte decken häufige Excel-Aufgaben ab, die sich leicht automatisieren lassen, deren manuelle Ausführung jedoch mühsam ist. Wählen Sie diejenige aus, die sich mit der häufigsten Aufgabe in Ihrem Arbeitsablauf befasst, und beginnen Sie dort. Hier ein kurzer Überblick:

Skriptname Zweck Hauptmerkmale Bester Anwendungsfall
Zusammenführung von Excel-Dateien Kombinieren Sie mehrere Excel-/CSV-Dateien Spaltenausrichtung, Quellenverfolgung, Zusammenfassungsblatt Konsolidierung von Daten aus mehreren Quellen
Duplikat-Finder Identifizieren Sie exakte und unscharfe Duplikate Fuzzy-Matching, Konfidenzwerte, Farbhervorhebung Bereinigen von Datensätzen mit wiederholten Datensätzen
Datenreiniger Standardisieren Sie unordentliche exportierte Daten Formatierungsregeln, Normalisierung, Änderungsprotokoll Vorverarbeitung externer Rohdaten
Blattspalter Teilen Sie ein Blatt in mehrere Dateien auf Automatische Dateibenennung, Gruppierung, optionaler E-Mail-Versand Verteilen von Berichten nach Kategorie/Area
Pivot-Berichtsgenerator Erstellen Sie zusammenfassende Berichte aus Rohdaten Automatisierte Pivots, Diagramme, Multi-Tab-Ausgabe Wiederkehrende Berichte und Dashboards

Viel Spaß beim Automatisieren!

Bala Priya C ist ein Entwickler und technischer Redakteur aus Indien. Sie arbeitet gerne an der Schnittstelle von Mathematik, Programmierung, Datenwissenschaft und Inhaltserstellung. Zu ihren Interessen- und Fachgebieten gehören DevOps, Datenwissenschaft und Verarbeitung natürlicher Sprache. Sie liebt es zu lesen, zu schreiben, zu programmieren und Kaffee zu trinken! Derzeit arbeitet sie daran, zu lernen und ihr Wissen mit der Entwickler-Group zu teilen, indem sie Tutorials, Anleitungen, Meinungsbeiträge und mehr verfasst. Bala erstellt außerdem ansprechende Ressourcenübersichten und Programmier-Tutorials.



Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert