Bild vom Autor | DALLE-3 & Canva
Information Engineering wächst rasant und Unternehmen stellen mittlerweile mehr Information Engineers als Information Scientists ein. Operative Jobs wie Information Engineering, Cloud-Architektur und MLOps Engineering sind stark gefragt.
Als Dateningenieur müssen Sie Containerisierung, Infrastruktur als Code, Workflow-Orchestrierung, analytisches Engineering, Stapelverarbeitung und Streaming-Instruments beherrschen. Abgesehen von diesen Instruments müssen Sie die Cloud-Infrastruktur beherrschen und Dienste wie Databricks und Snowflakes verwalten.
In diesem Weblog erfahren Sie mehr über 10 GitHub-Repositories, die Ihnen dabei helfen, alle wichtigen Instruments und Konzepte zu beherrschen. Diese GitHub-Repositories enthalten Kurse, Erfahrungen, Roadmaps, eine Liste wichtiger Instruments, Projekte und ein Handbuch. Sie müssen sie nur mit einem Lesezeichen versehen, während Sie lernen, ein professioneller Dateningenieur zu werden.
1. Fantastische Datentechnik
Der Fantastische Datentechnik Das Repository enthält eine Liste von Instruments, Frameworks und Bibliotheken für das Information Engineering und ist somit ein hervorragender Ausgangspunkt für alle, die in das Feld einsteigen möchten.
Es umfasst Instruments für Datenbanken, Datenaufnahme, Dateisysteme, Streaming, Stapelverarbeitung, Information-Lake-Administration, Workflow-Orchestrierung, Überwachung, Assessments sowie Diagramme und Dashboards.
Verknüpfung: igorbarinov/großartiges-data-engineering
2. Datentechnik-Zoomcamp
Datentechnik-Zoomcamp ist ein umfassender Kurs, der praxisnahes Lernen im Bereich Datentechnik bietet. Sie lernen neue Konzepte und Instruments mithilfe von Video-Tutorials, Assessments, Projekten, Hausaufgaben und Group-gesteuerten Bewertungen.
Das Information Engineering Zoomcamp umfasst:
- Containerisierung und Infrastruktur als Code
- Workflow-Orchestrierung
- Datenaufnahme
- Information Warehouse
- Analytik-Engineering
- Stapelverarbeitung
- Streaming
Verknüpfung: DataTalksClub/Datentechnik-Zoomcamp
3. Das Information Engineering-Kochbuch
Der Datentechnik-Kochbuch ist eine Sammlung von Artikeln und Tutorials, die verschiedene Aspekte der Datentechnik abdecken, darunter Datenaufnahme, Datenverarbeitung und Information Warehousing.
Das Information Engineering Cookbook enthält:
- Grundlegende technische Fähigkeiten
- Fortgeschrittene technische Fähigkeiten
- Kostenlose praktische Kurse/Tutorials
- Fallstudien
- Greatest Practices Cloud-Plattformen
- 130+ Datenquellen Information Science
- 1001 Interviewfragen
- Empfohlene Bücher, Kurse und Podcasts
Verknüpfung: andkret/Kochbuch
4. Roadmap für Dateningenieure
Der Roadmap für Dateningenieure Repository bietet eine Schritt-für-Schritt-Anleitung, um Dateningenieur zu werden. Dieses Repository deckt alles ab, von den Grundlagen des Datenengineerings bis hin zu fortgeschrittenen Themen wie Infrastrukturen als Code und Cloud Computing.
Die Information Engineer Roadmap umfasst:
- Informatik-Grundlagen
- Python lernen
- Testen
- Datenbank
- Information Warehouse
- Cluster-Computing
- Datenverarbeitung
- Nachrichten
- Workflow-Planung
- Netzwerk
- Infrastrukturen als Code
- CI/CD
- Datensicherheit und Datenschutz
Verknüpfung: datastacktv/Dateningenieur-Roadmap
5. Datentechnik HowTo
Datentechnik – HowTo ist eine anfängerfreundliche Ressource, um Information Engineering von Grund auf zu erlernen. Es enthält eine Liste mit Tutorials, Kursen, Büchern und anderen Ressourcen, die Ihnen dabei helfen, eine solide Grundlage in Information-Engineering-Konzepten und Greatest Practices zu schaffen. Wenn Sie neu auf dem Gebiet sind, hilft Ihnen dieses Repository dabei, sich mühelos in der riesigen Landschaft des Information Engineering zurechtzufinden.
So werden Sie Dateningenieur:
- Nützliche Artikel und Blogs
- Gespräche
- Algorithmen & Datenstrukturen
- SQL
- Programmierung
- Datenbanken
- Verteilte Systeme
- Bücher
- Kurse
- Werkzeuge
- Cloud-Plattformen
- Gemeinschaften
- Arbeitsplätze
- E-newsletter
Verknüpfung: adilkhash/Information-Engineering-HowTo
6. Fantastische Open Supply-Datentechnik
Fantastische Open Supply-Datentechnik ist eine Liste von Open-Supply-Datentechniktools, die eine wahre Fundgrube für alle ist, die zu diesen beitragen oder sie zum Erstellen realer Datentechnikprojekte verwenden möchten. Sie enthält eine Fülle von Informationen zu Open-Supply-Instruments und -Frameworks und ist somit eine hervorragende Ressource für alle, die various Datentechniklösungen erkunden möchten.
Das Repository enthält Open-Supply-Instruments zu:
- Analyse
- Enterprise Intelligence
- Daten Lakehouse
- Änderungsdatenerfassung
- Datenspeicher
- Datenverwaltung und Register
- Datenvirtualisierung
- Datenorchestrierung
- Formate
- Integration
- Messaging-Infrastruktur
- Spezifikationen und Requirements
- Stream-Verarbeitung
- Testen
- Überwachung und Protokollierung
- Versionierung
- Workflow-Administration
Verknüpfung: gunnarmorling/großartiges Open-Supply-Information-Engineering
7. Pyspark-Beispielprojekt
Pyspark-Beispielprojekt Das Repository bietet ein praktisches Beispiel für die Implementierung bewährter Methoden für PySpark ETL-Jobs und -Anwendungen.
PySpark ist ein beliebtes Software zur Datenverarbeitung und dieses Repository hilft Ihnen, es zu beherrschen. Sie lernen, wie Sie Ihren Code strukturieren, Datentransformationen handhaben und Ihre PySpark-Workflows effizient optimieren.
Das Projekt umfasst:
- Aufbau eines ETL-Jobs
- Übergeben von Konfigurationsparametern an den ETL-Job
- Verpacken von ETL-Job-Abhängigkeiten
- Ausführen des ETL-Jobs
- Debuggen von Spark-Jobs
- Automatisiertes Testen
- Projektabhängigkeiten verwalten
Verknüpfung: AlexIoannides/pyspark-beispielprojekt
8. Handbuch für Dateningenieure
Handbuch für Dateningenieure ist eine umfassende Sammlung von Ressourcen, die alle Aspekte des Information Engineering abdecken. Es enthält Tutorials, Artikel und Bücher zu allen Themen rund um Information Engineering. Egal, ob Sie nach einem Kurzhandbuch oder vertieftem Wissen suchen, dieses Handbuch bietet für Information Engineers aller Erfahrungsstufen etwas.
Das Handbuch enthält:
- Tolle Bücher
- Communities zum Folgen
- Unternehmen, die Sie im Auge behalten sollten
- Blogs zum Lesen
- Weiße Papiere
- Tolle YouTube-Kanäle
- Tolle Podcasts
- E-newsletter
- Influencer auf LinkedIn, Twitter, TikTok und Instagram, denen Sie folgen sollten
- Kurse
- Zertifizierungen
- Konferenzen
Verknüpfung: DataExpert-io/Dateningenieur-Handbuch
9. Information Engineering Wiki
Der Information Engineering Wiki Repository ist ein Group-gesteuertes Wiki, das eine umfassende Ressource zum Erlernen von Information Engineering bietet. Dieses Repository deckt ein breites Themenspektrum ab, darunter Datenpipelines, Information Warehousing und Datenmodellierung.
Information Engineering Wiki beinhaltet:
- Konzepte der Datentechnik
- Häufig gestellte Fragen zum Information Engineering
- Anleitungen zum Treffen von Information-Engineering-Entscheidungen
- Häufig verwendete Instruments für Information Engineering
- Schritt-für-Schritt-Anleitungen für Information-Engineering-Aufgaben
- Lernmittel
Verknüpfung: Datentechnik-Group/Datentechnik-Wiki
10. Datentechnik-Praxis
Datentechnik-Praxis bietet einen praktischen Ansatz zum Erlernen von Information Engineering. Es bietet Praxisprojekte und Übungen, die Ihnen helfen, Ihr Wissen und Ihre Fähigkeiten in realen Szenarien anzuwenden. Durch die Bearbeitung dieser Projekte sammeln Sie praktische Erfahrungen und erstellen ein Portfolio, das Ihre Information-Engineering-Fähigkeiten demonstriert.
Zu den Information Engineering Apply Issues gehören Übungen zu:
- Herunterladen von Dateien
- Net Scraping + Herunterladen + Pandas
- Boto3 AWS + s3 + Python.
- Konvertieren Sie JSON in CSV + unregelmäßige Verzeichnisse
- Datenmodellierung für Postgres + Python
- Aufnahme und Aggregation mit PySpark
- Verwenden verschiedener PySpark-Funktionen
- Verwenden von DuckDB für Analysen und Transformationen
- Verwenden von Polars Lazy Computation
Verknüpfung: Daniel Seaside/Datentechnik-Praxis
Letzte Worte
Um Information Engineering zu meistern, braucht man Hingabe, Ausdauer und die Leidenschaft, neue Konzepte und Instruments zu lernen. Diese 10 GitHub-Repositories bieten eine Fülle von Informationen und Ressourcen, die Ihnen helfen, ein professioneller Information Engineer zu werden und Sie über aktuelle Traits auf dem Laufenden zu halten.
Egal, ob Sie gerade erst anfangen oder bereits ein erfahrener Dateningenieur sind, ich ermutige Sie, diese Ressourcen zu erkunden, zu Open-Supply-Projekten beizutragen und mit der dynamischen Dateningenieur-Group auf GitHub in Kontakt zu bleiben.
Abid Ali Awan (@1abidaliawan) ist ein zertifizierter Datenwissenschaftler, der gerne Modelle für maschinelles Lernen erstellt. Derzeit konzentriert er sich auf die Erstellung von Inhalten und das Schreiben technischer Blogs zu Technologien für maschinelles Lernen und Datenwissenschaft. Abid hat einen Grasp-Abschluss in Technologiemanagement und einen Bachelor-Abschluss in Telekommunikationstechnik. Seine Imaginative and prescient ist es, mithilfe eines Graph-Neural-Networks ein KI-Produkt für Studenten zu entwickeln, die mit psychischen Erkrankungen zu kämpfen haben.