Ideen für Data-Engineering-Projekte

Bild vom Autor

Für Anfänger in jedem Datenbereich ist es oft schwierig, Wirklich verstehen, worum es in einem bestimmten Datenfeld geht. Sie können theoretische Erklärungen und Stellenbeschreibungen lesen und sich YouTube-Movies mit Erklärungen anhören, aber Ihr Verständnis bleibt immer auf der Ebene „Ich verstehe es, aber nicht ganz“.

Dasselbe gilt für Information Engineering. Natürlich müssen Sie wissen, was Information Engineering ist und Was Dateningenieure tun. Und damit fangen wir an. Aber Sie sollten dieses theoretische Wissen durch Praxis ergänzen; an der Schnittstelle zwischen beiden liegt das wahre Wissen.

Information Engineering zu praktizieren ist ziemlich schwierig, ohne tatsächlich in einem Unternehmen als Information Engineer zu arbeiten. Das liegt vor allem daran, dass es beim Information Engineering nicht nur um die Handhabung von Daten geht, sondern auch um Datenarchitektur und den Aufbau einer Dateninfrastruktur.

Es gibt jedoch einen Weg, und dieser Weg besteht in der Durchführung von Information-Engineering-Projekten. Wenn wir wissen, was Information Engineers tun, können wir geeignete Projekte auswählen, um Information Engineering zu meistern.

Was ist Information Engineering?

Information Engineering sorgt dafür, dass Daten – stapelweise oder in Echtzeit – von mehreren und unterschiedlichen Datenquellen zum Datenspeicher fließen, wo sie den Datennutzern zur Verfügung stehen. Dazwischen werden die Daten auch verarbeitet, analysiert und in ein für die Verwendung geeignetes Format umgewandelt.

Dies wird als Datenpipeline bezeichnet und die Aufgabe des Dateningenieurs besteht darin, sie zu erstellen und zu warten.

Aus dieser Beschreibung können wir entscheidende Aspekte des Information Engineering extrahieren:

  • Datentransformation und -verarbeitung
  • Datenvisualisierung
  • Datenpipelines
  • Datenspeicherung

Um Information Engineering zu beherrschen, sollten sich Ihre Projekte auf einige dieser Themen konzentrieren oder diese beinhalten.

Aufgrund der Natur der Datentechnik ist es unmöglich, sich ein Projekt vorzustellen, das sich nur mit einem Aspekt davon befasst. Das ist die ganze Bandbreite der Arbeit eines Datentechnikers. Es ist nicht wirklich möglich, ein Projekt durchzuführen, das sich nur mit der Datenverarbeitung beschäftigt. OK, aber woher kommen diese Daten und wo enden sie?

Die meisten Projekte, die ich ausgewählt habe, sind Finish-to-Finish-Datentechnikprojekte, die Ihnen beibringen, wie Sie eine Datenpipeline erstellen – die Essenz der Datentechnik. Die Projekte verfolgen jedoch unterschiedliche Ansätze und verwenden unterschiedliche Technologien, sodass Sie aus einem Projekt einige Aspekte lernen können, die Sie aus einem anderen Projekt nicht lernen können.

Ideen für Information-Engineering-Projekte

Projektideen zum Master Data Engineering Projektideen zum Master Data Engineering

Bild vom Autor

Durch die Durchführung von Projekten lernen Sie, was Information Engineering in der Praxis bedeutet. Um ein Projekt abzuschließen, müssen Sie verschiedene technische Fähigkeiten, Vertrautheit mit gängigen Information-Engineering-Instruments und ein Verständnis des gesamten Prozesses nachweisen.

Dadurch eignen sich Projekte preferrred zum Lernen.

1. Datenpipeline-Entwicklungsprojekt

Mehr Information Engineering als den Aufbau einer Datenpipeline gibt es nicht. Das Sicherstellen des Datenflusses von den Quellen zu den Datennutzern und damit die Unterstützung datengesteuerter Entscheidungsfindung ist das Herzstück des Information Engineering.

Durch die Durchführung eines Datenpipeline-Entwicklungsprojekts lernen Sie die Integration von Daten aus verschiedenen Quellen und den gesamten ETL-Prozess kennen.

Projektvorschlag

Hyperlink: AWS Finish-to-Finish Information Engineering von CodeWith You (Yusuf Ganiyu)

Beschreibung: Dies ist ein hervorragendes Projekt, dessen Ziel es ist, eine Datenpipeline aufzubauen, die Daten von Reddit extrahiert, transformiert und dann in das Redshift-Information Warehouse lädt.

Das Video führt Sie durch jeden Schritt und das Projekt Der Quellcode ist auch auf GitHub verfügbar.

Verwendete Technologien:

2. Datentransformationsprojekt

Unter Transformieren von Daten versteht man die Umwandlung in standardisierte Formate, die mit Analysetools kompatibel und für die Analyse geeignet sind.

Außer dass sie die Datenanalyse und Entscheidungsfindung ermöglicht, spielt die Datentransformation auch eine wichtige Rolle bei der Verbesserung der Datenqualität, da sie die Bereinigung und Validierung der Daten umfasst.

Projektvorschlag

Hyperlink: Chama-Datentransformation von StrataScratch

Beschreibung: Die Aufgabe besteht darin, die in drei CSV-Dateien enthaltenen Daten von Chama mit einer beliebigen Programmiersprache, jedoch unter Beachtung bestimmter Transformationsregeln, zu transformieren.

Verwendete Technologien:

3. Information Lake-Implementierungsprojekt

Information Lakes sind zentrale Speicher, die große Datenmengen in ihrem ursprünglichen Format speichern. Sie sind für die Handhabung und Analyse von Massive Information unverzichtbar. Da Massive Information in Unternehmen immer häufiger zum Einsatz kommt, müssen Dateningenieure wissen, wie man Information Lakes implementiert.

Projektvorschlag

Hyperlink: Finish-to-Finish Azure Information Engineering von Kaviprakash Selvaraj

Beschreibung: Dieses Finish-to-Finish-Datentechnikprojekt von Azure Information verwendet Verkaufsdaten. Es behandelt Themen wie Datenaufnahme, -verarbeitung und -speicherung. Interessant ist, dass es die Schritte zum Einrichten und Verwalten eines Datensees, nämlich Azure Information Lake, beschreibt.

Verwendete Technologien:

4. Information Warehousing-Projekt

Daten aus Information Lakes werden strukturiert und anschließend in Information Warehouses gespeichert. Diese dienen als zentrale Datenspeicher für Enterprise Intelligence.

Durch die Implementierung eines Information Warehouse wird der Datenabruf effizienter und die Datenverwaltung vereinfacht. Darüber hinaus wird die Datenqualität sichergestellt und es werden Erkenntnisse über die Daten gewonnen.

In einem Information-Warehousing-Projekt lernen Sie etwas über Datenmodellierung und Datenbankverwaltung.

Projektvorschlag

Hyperlink: AWS Information Engineering-Projekt von Ahmed Ali

Beschreibung: Dieses Finish-to-Finish-Projekt verwendet NYC-Taxidaten mit dem Ziel, eine ELT-Pipeline in AWS aufzubauen. Es eignet sich zum Erlernen von Information Warehousing, da die Daten in ein Information Warehouse, nämlich Amazon Redshift, geladen werden.

Verwendete Technologien:

5. Projekt zur Echtzeit-Datenverarbeitung

Die Verarbeitung von Daten in Echtzeit ist für Unternehmen immer wichtiger geworden, um zeitnahe und proaktive Entscheidungen treffen zu können. Aus diesem Grund müssen Dateningenieure wissen, wie sie ein System einrichten, das Daten effektiv und effizient in Echtzeit verarbeitet.

Projektvorschlag

Hyperlink: Echtzeit-Datenstreaming von CodeWithYu (Yusuf Ganiyu)

Beschreibung: Dieses CodeWithYu-Video gibt Ihnen detaillierte Anleitungen zum Erstellen einer Pipeline für Datenstreaming. Sie erfahren, wie Sie eine Datenpipeline einrichten, in Echtzeit streamen, verteilte Synchronisierung, Datenverarbeitung, Datenspeicherung und Containerisierung durchführen.

Die Daten, mit denen Sie arbeiten, stammen von der zufälliger Benutzer API. Wie in einem seiner Movies, das ich vorhin verlinkt habe, hat auch dieses eine Quellcode auf GitHub.

Verwendete Technologien:

6. Datenvisualisierungsprojekt

Auch wenn die Datenvisualisierung vielleicht nicht das Erste ist, was einem in den Sinn kommt, wenn man an Datentechnik denkt, ist sie für Dateningenieure eine wichtige Fähigkeit.

Das Visualisieren von Daten im Rahmen des Information Engineering bedeutet normalerweise das Erstellen operativer Dashboards, die den aktuellen Standing von Datenpipelines anzeigen, z. B. die Verarbeitungsgeschwindigkeit oder die Menge der aufgenommenen Daten.

Dateningenieure können außerdem Dashboards für in einem Warehouse gespeicherte Daten erstellen, um Geschäftsbenutzern den Zugriff auf die benötigten Informationen zu erleichtern.

Projektvorschlag

Hyperlink: Von Rohdaten zur Datenvisualisierung – Information-Engineering-Projekt von Naufaldy Erianda

Beschreibung: Das Ziel dieses Projekts ist es, Daten aus verschiedenen Quellen zu extrahieren, zu transformieren und für die Datenvisualisierung verfügbar zu machen. Am Ende erstellen Sie ein Dashboard in Looker Studio.

Verwendete Technologien:

Abschluss

Information Engineering ist ein komplexes Feld, das vor allem für Anfänger überwältigend wirken kann. Am einfachsten lernt man Information Engineering am besten durch die Durchführung von Information-Engineering-Projekten.

Ich habe sechs Projekte vorgeschlagen, die Ihnen Folgendes beibringen:

  • Erstellen einer Pipeline
  • Daten transformieren
  • Information Lake implementieren
  • Information Warehouse implementieren
  • Erstellen Sie eine Pipeline für die Echtzeit-Datenverarbeitung
  • Daten visualisieren

Maschinelles Lernen wird für die Automatisierung verschiedener Datentechnikaufgaben zunehmend unverzichtbar. Um nicht zurückgelassen zu werden, schauen Sie sich einige dieser Projekte zum maschinellen Lernen Und Information Science Projekte die auch zum Einüben von Information-Engineering-Kenntnissen genutzt werden können.

Nate Rosidi ist Datenwissenschaftler und arbeitet in der Produktstrategie. Er ist außerdem außerordentlicher Professor für Analytik und Gründer von StrataScratch, einer Plattform, die Datenwissenschaftlern mit echten Interviewfragen von Prime-Unternehmen bei der Vorbereitung auf ihre Vorstellungsgespräche hilft. Nate schreibt über die neuesten Tendencies auf dem Arbeitsmarkt, gibt Interviewtipps, teilt Datenwissenschaftsprojekte und deckt alles ab, was mit SQL zu tun hat.



Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert