Hör auf, schlechte DAGs zu erstellen – optimieren Sie Ihre Luftstromumgebung, indem Sie Ihren Python -Code verbessern | von Alvaro Leandro Cavalcante Carneiro

Apache AirFlow ist eines der beliebtesten Orchestrierungswerkzeuge im Datenfeld und führt Workflows für Unternehmen weltweit an. Jeder, der bereits mit Luftstrom in einer Produktionsumgebung gearbeitet hat, insbesondere in einem komplexen, weiß, dass er gelegentlich einige Probleme und seltsame Fehler aufweisen kann.

Unter den vielen Aspekten, die Sie in einer Luftstromumgebung verwalten müssen, fliegt häufig eine kritische Metrik unter das Radar: Dag analysieren. Die Überwachung und Optimierung der Parsezeit ist unerlässlich, um Leistungs Engpässe zu vermeiden und die korrekte Funktion Ihrer Orchestrierungen zu gewährleisten, wie wir in diesem Artikel untersuchen werden.

Das heißt, dieses Tutorial zielt darauf ab, vorzustellen airflow-parse-benchein Open-Supply-Device, das ich entwickelt habe, um Dateningenieuren dabei zu helfen, ihre Luftstromumgebungen zu überwachen und zu optimieren, um Erkenntnisse zur Reduzierung der Codekomplexität zu erhalten und die Zeit zu analysieren.

In Bezug auf den Luftstrom ist Dag Parse Time oft eine übersehene Metrik. Parsing tritt jedes Mal auf, wenn der Luftstrom Ihre Python -Dateien verarbeitet, um die DAGs dynamisch zu erstellen.

Standardmäßig werden alle Ihre DAGs alle 30 Sekunden analysiert – eine Frequenz, die von der Konfigurationsvariablen gesteuert wird min_file_process_interval. Dies bedeutet, dass alle 30 Sekunden den gesamten Python -Code, der in Ihrem vorhanden ist dags Der Ordner wird gelesen, importiert und verarbeitet, um DAG -Objekte zu generieren, die die zu geplanten Aufgaben enthalten. Erfolgreich verarbeitete Dateien werden dann zu dem hinzugefügt Dag -Tasche.

Zwei wichtige Luftstromkomponenten verarbeiten diesen Vorgang:

Zusammen beide Komponenten (allgemein als die bezeichnet als die DAG -Prozessor) werden vom Luftstrom ausgeführt Schedulerund sicherstellen, dass Ihre DAG -Objekte aktualisiert werden, bevor sie ausgelöst werden. Aus Skalierungs- und Sicherheitsgründen ist es jedoch auch möglich, Ihren DAG -Prozessor als separate Komponente in Ihrem Cluster auszuführen.

Wenn Ihre Umgebung nur ein paar Dutzend DAGs hat, ist es unwahrscheinlich, dass der Analyseprozess zu Problemen führt. Es ist jedoch üblich, Produktionsumgebungen mit Hunderten oder sogar Tausenden von DAGs zu finden. In diesem Fall kann dies zu hoch sind, wenn Ihre Parse -Zeit zu hoch ist, dies kann zu:

Verzögerung der DAG -Planung.
Erhöhen Sie die Nutzung der Ressourcen.
Umwelt Herzschlag Probleme.
Scheduler -Fehler.
Übermäßige CPU und Speicherverbrauch, Verschwendung von Ressourcen.

Stellen Sie sich nun vor, eine Umgebung mit Hunderten von DAGs zu haben, die unnötig komplexe Parsinglogik enthalten. Kleine Ineffizienzen können sich schnell zu erheblichen Problemen verwandeln und die Stabilität und Leistung Ihres gesamten Luftstromaufbaus beeinflussen.

Beim Schreiben von Luftstrom -DAGs gibt es einige wichtige Finest Practices, die Sie beachten können, um einen optimierten Code zu erstellen. Obwohl Sie viele Tutorials zur Verbesserung Ihrer DAGs finden können, werde ich einige der wichtigsten Prinzipien zusammenfassen, die Ihre DAG -Leistung erheblich verbessern können.

Begrenzen Sie den Code der obersten Ebene

Eine der häufigsten Ursachen für hohe DAG-Parsingzeiten ist ineffizienter oder komplexer Code auf höchstem Niveau. Prime-Stage-Code in einer Airflow-DAG-Datei wird jedes Mal ausgeführt, wenn der Scheduler die Datei analysiert. Wenn dieser Code ressourcenintensive Vorgänge wie Datenbankabfragen, API-Aufrufe oder dynamische Aufgabengenerierung enthält, kann er die Parsingleistung erheblich beeinträchtigen.

Der folgende Code zeigt ein Beispiel für a Nicht optimierte DAG: