10 GitHub-Repositorys zum Beherrschen von Daten Titelbild des Engineering-Blogs10 GitHub-Repositorys zum Beherrschen von Daten Titelbild des Engineering-Blogs
Bild vom Autor | DALLE-3 & Canva

Information Engineering wächst rasant und Unternehmen stellen mittlerweile mehr Information Engineers als Information Scientists ein. Operative Jobs wie Information Engineering, Cloud-Architektur und MLOps Engineering sind stark gefragt.

Als Dateningenieur müssen Sie Containerisierung, Infrastruktur als Code, Workflow-Orchestrierung, analytisches Engineering, Stapelverarbeitung und Streaming-Instruments beherrschen. Abgesehen von diesen Instruments müssen Sie die Cloud-Infrastruktur beherrschen und Dienste wie Databricks und Snowflakes verwalten.

In diesem Weblog erfahren Sie mehr über 10 GitHub-Repositories, die Ihnen dabei helfen, alle wichtigen Instruments und Konzepte zu beherrschen. Diese GitHub-Repositories enthalten Kurse, Erfahrungen, Roadmaps, eine Liste wichtiger Instruments, Projekte und ein Handbuch. Sie müssen sie nur mit einem Lesezeichen versehen, während Sie lernen, ein professioneller Dateningenieur zu werden.

1. Fantastische Datentechnik

Der Fantastische Datentechnik Das Repository enthält eine Liste von Instruments, Frameworks und Bibliotheken für das Information Engineering und ist somit ein hervorragender Ausgangspunkt für alle, die in das Feld einsteigen möchten.

Es umfasst Instruments für Datenbanken, Datenaufnahme, Dateisysteme, Streaming, Stapelverarbeitung, Information-Lake-Administration, Workflow-Orchestrierung, Überwachung, Assessments sowie Diagramme und Dashboards.

Verknüpfung: igorbarinov/großartiges-data-engineering

2. Datentechnik-Zoomcamp

Datentechnik-Zoomcamp ist ein umfassender Kurs, der praxisnahes Lernen im Bereich Datentechnik bietet. Sie lernen neue Konzepte und Instruments mithilfe von Video-Tutorials, Assessments, Projekten, Hausaufgaben und Group-gesteuerten Bewertungen.

Das Information Engineering Zoomcamp umfasst:

  1. Containerisierung und Infrastruktur als Code
  2. Workflow-Orchestrierung
  3. Datenaufnahme
  4. Information Warehouse
  5. Analytik-Engineering
  6. Stapelverarbeitung
  7. Streaming

Verknüpfung: DataTalksClub/Datentechnik-Zoomcamp

3. Das Information Engineering-Kochbuch

Der Datentechnik-Kochbuch ist eine Sammlung von Artikeln und Tutorials, die verschiedene Aspekte der Datentechnik abdecken, darunter Datenaufnahme, Datenverarbeitung und Information Warehousing.

Das Information Engineering Cookbook enthält:

  1. Grundlegende technische Fähigkeiten
  2. Fortgeschrittene technische Fähigkeiten
  3. Kostenlose praktische Kurse/Tutorials
  4. Fallstudien
  5. Greatest Practices Cloud-Plattformen
  6. 130+ Datenquellen Information Science
  7. 1001 Interviewfragen
  8. Empfohlene Bücher, Kurse und Podcasts

Verknüpfung: andkret/Kochbuch

4. Roadmap für Dateningenieure

Der Roadmap für Dateningenieure Repository bietet eine Schritt-für-Schritt-Anleitung, um Dateningenieur zu werden. Dieses Repository deckt alles ab, von den Grundlagen des Datenengineerings bis hin zu fortgeschrittenen Themen wie Infrastrukturen als Code und Cloud Computing.

Die Information Engineer Roadmap umfasst:

  1. Informatik-Grundlagen
  2. Python lernen
  3. Testen
  4. Datenbank
  5. Information Warehouse
  6. Cluster-Computing
  7. Datenverarbeitung
  8. Nachrichten
  9. Workflow-Planung
  10. Netzwerk
  11. Infrastrukturen als Code
  12. CI/CD
  13. Datensicherheit und Datenschutz

Verknüpfung: datastacktv/Dateningenieur-Roadmap

5. Datentechnik HowTo

Datentechnik – HowTo ist eine anfängerfreundliche Ressource, um Information Engineering von Grund auf zu erlernen. Es enthält eine Liste mit Tutorials, Kursen, Büchern und anderen Ressourcen, die Ihnen dabei helfen, eine solide Grundlage in Information-Engineering-Konzepten und Greatest Practices zu schaffen. Wenn Sie neu auf dem Gebiet sind, hilft Ihnen dieses Repository dabei, sich mühelos in der riesigen Landschaft des Information Engineering zurechtzufinden.

So werden Sie Dateningenieur:

  1. Nützliche Artikel und Blogs
  2. Gespräche
  3. Algorithmen & Datenstrukturen
  4. SQL
  5. Programmierung
  6. Datenbanken
  7. Verteilte Systeme
  8. Bücher
  9. Kurse
  10. Werkzeuge
  11. Cloud-Plattformen
  12. Gemeinschaften
  13. Arbeitsplätze
  14. E-newsletter

Verknüpfung: adilkhash/Information-Engineering-HowTo

6. Fantastische Open Supply-Datentechnik

Fantastische Open Supply-Datentechnik ist eine Liste von Open-Supply-Datentechniktools, die eine wahre Fundgrube für alle ist, die zu diesen beitragen oder sie zum Erstellen realer Datentechnikprojekte verwenden möchten. Sie enthält eine Fülle von Informationen zu Open-Supply-Instruments und -Frameworks und ist somit eine hervorragende Ressource für alle, die various Datentechniklösungen erkunden möchten.

Das Repository enthält Open-Supply-Instruments zu:

  1. Analyse
  2. Enterprise Intelligence
  3. Daten Lakehouse
  4. Änderungsdatenerfassung
  5. Datenspeicher
  6. Datenverwaltung und Register
  7. Datenvirtualisierung
  8. Datenorchestrierung
  9. Formate
  10. Integration
  11. Messaging-Infrastruktur
  12. Spezifikationen und Requirements
  13. Stream-Verarbeitung
  14. Testen
  15. Überwachung und Protokollierung
  16. Versionierung
  17. Workflow-Administration

Verknüpfung: gunnarmorling/großartiges Open-Supply-Information-Engineering

7. Pyspark-Beispielprojekt

Pyspark-Beispielprojekt Das Repository bietet ein praktisches Beispiel für die Implementierung bewährter Methoden für PySpark ETL-Jobs und -Anwendungen.

PySpark ist ein beliebtes Software zur Datenverarbeitung und dieses Repository hilft Ihnen, es zu beherrschen. Sie lernen, wie Sie Ihren Code strukturieren, Datentransformationen handhaben und Ihre PySpark-Workflows effizient optimieren.

Das Projekt umfasst:

  1. Aufbau eines ETL-Jobs
  2. Übergeben von Konfigurationsparametern an den ETL-Job
  3. Verpacken von ETL-Job-Abhängigkeiten
  4. Ausführen des ETL-Jobs
  5. Debuggen von Spark-Jobs
  6. Automatisiertes Testen
  7. Projektabhängigkeiten verwalten

Verknüpfung: AlexIoannides/pyspark-beispielprojekt

8. Handbuch für Dateningenieure

Handbuch für Dateningenieure ist eine umfassende Sammlung von Ressourcen, die alle Aspekte des Information Engineering abdecken. Es enthält Tutorials, Artikel und Bücher zu allen Themen rund um Information Engineering. Egal, ob Sie nach einem Kurzhandbuch oder vertieftem Wissen suchen, dieses Handbuch bietet für Information Engineers aller Erfahrungsstufen etwas.

Das Handbuch enthält:

  1. Tolle Bücher
  2. Communities zum Folgen
  3. Unternehmen, die Sie im Auge behalten sollten
  4. Blogs zum Lesen
  5. Weiße Papiere
  6. Tolle YouTube-Kanäle
  7. Tolle Podcasts
  8. E-newsletter
  9. Influencer auf LinkedIn, Twitter, TikTok und Instagram, denen Sie folgen sollten
  10. Kurse
  11. Zertifizierungen
  12. Konferenzen

Verknüpfung: DataExpert-io/Dateningenieur-Handbuch

9. Information Engineering Wiki

Der Information Engineering Wiki Repository ist ein Group-gesteuertes Wiki, das eine umfassende Ressource zum Erlernen von Information Engineering bietet. Dieses Repository deckt ein breites Themenspektrum ab, darunter Datenpipelines, Information Warehousing und Datenmodellierung.

Information Engineering Wiki beinhaltet:

  1. Konzepte der Datentechnik
  2. Häufig gestellte Fragen zum Information Engineering
  3. Anleitungen zum Treffen von Information-Engineering-Entscheidungen
  4. Häufig verwendete Instruments für Information Engineering
  5. Schritt-für-Schritt-Anleitungen für Information-Engineering-Aufgaben
  6. Lernmittel

Verknüpfung: Datentechnik-Group/Datentechnik-Wiki

10. Datentechnik-Praxis

Datentechnik-Praxis bietet einen praktischen Ansatz zum Erlernen von Information Engineering. Es bietet Praxisprojekte und Übungen, die Ihnen helfen, Ihr Wissen und Ihre Fähigkeiten in realen Szenarien anzuwenden. Durch die Bearbeitung dieser Projekte sammeln Sie praktische Erfahrungen und erstellen ein Portfolio, das Ihre Information-Engineering-Fähigkeiten demonstriert.

Zu den Information Engineering Apply Issues gehören Übungen zu:

  1. Herunterladen von Dateien
  2. Net Scraping + Herunterladen + Pandas
  3. Boto3 AWS + s3 + Python.
  4. Konvertieren Sie JSON in CSV + unregelmäßige Verzeichnisse
  5. Datenmodellierung für Postgres + Python
  6. Aufnahme und Aggregation mit PySpark
  7. Verwenden verschiedener PySpark-Funktionen
  8. Verwenden von DuckDB für Analysen und Transformationen
  9. Verwenden von Polars Lazy Computation

Verknüpfung: Daniel Seaside/Datentechnik-Praxis

Letzte Worte

Um Information Engineering zu meistern, braucht man Hingabe, Ausdauer und die Leidenschaft, neue Konzepte und Instruments zu lernen. Diese 10 GitHub-Repositories bieten eine Fülle von Informationen und Ressourcen, die Ihnen helfen, ein professioneller Information Engineer zu werden und Sie über aktuelle Traits auf dem Laufenden zu halten.

Egal, ob Sie gerade erst anfangen oder bereits ein erfahrener Dateningenieur sind, ich ermutige Sie, diese Ressourcen zu erkunden, zu Open-Supply-Projekten beizutragen und mit der dynamischen Dateningenieur-Group auf GitHub in Kontakt zu bleiben.

Abid Ali Awan (@1abidaliawan) ist ein zertifizierter Datenwissenschaftler, der gerne Modelle für maschinelles Lernen erstellt. Derzeit konzentriert er sich auf die Erstellung von Inhalten und das Schreiben technischer Blogs zu Technologien für maschinelles Lernen und Datenwissenschaft. Abid hat einen Grasp-Abschluss in Technologiemanagement und einen Bachelor-Abschluss in Telekommunikationstechnik. Seine Imaginative and prescient ist es, mithilfe eines Graph-Neural-Networks ein KI-Produkt für Studenten zu entwickeln, die mit psychischen Erkrankungen zu kämpfen haben.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert