. Ein Teil von mir hat diese Reise begonnen, weil Knowledge Engineering derzeit einer der angesagtesten und bestbezahlten Berufe ist. Ich werde nicht so tun, als wäre das kein Faktor gewesen.

Aber es steckt noch mehr dahinter.

Ich lerne jetzt schon seit einiger Zeit Datenanalyse. SQL, Energy BI, Python (Pandas, NumPy, ein wenig Polars), Datenbereinigung, EDA. Wie auch immer, ich warfare damit im Unglück. Und es macht mir wirklich Spaß. Aber irgendwann wurde ich neugierig, was passiert, bevor die Daten auf meinem Schreibtisch landen. Wie bewegt es sich? Wer baut diese Pipelines? Wie sieht eigentlich die Infrastruktur dahinter aus?

Diese Neugier hat einen Samen gepflanzt.

Dann begann die KI, vieles von dem, was ich mache, schneller und einfacher zu machen. Was großartig ist. Aber es brachte mich auch zum Nachdenken: Wenn KI die Analyse übernehmen kann, welchen Vorteil habe ich dann? Was kann ich aufbauen und verstehen, das tiefer geht? Ich arbeite als IT-Systemanalytiker bei einem Startup und obwohl mir die Arbeit Spaß macht, wurde mir klar, dass ich mich nicht so herausgefordert habe, wie ich es wollte. Ich warfare bereit für mehr.

Der letzte Anstoß kam von einem Video von Knowledge With Baraa, in dem er eine vollständige Präsentation vorlegte Daten-Engineering-Roadmap. Etwas daran, es strukturiert und aufgeschlüsselt zu sehen, gab ihm das Gefühl, actual und machbar zu sein. Hier bin ich additionally.

Ich lerne öffentlich Knowledge Engineering. Und dieser Artikel ist der Beginn dieser Reise.

Außerdem hinterlasse ich nur einen Haftungsausschluss, dass ich nicht mit Knowledge with Baraa verbunden bin. Ich teile nur meine persönliche Reise. Hoffe es hilft.

Warum speziell Knowledge Engineering?

Ich möchte hier einen Second verbringen, weil ich denke, dass diese Frage eine echte Antwort verdient.

Durch die Datenanalyse habe ich gelernt, wie man mit Daten arbeitet, nachdem sie eingegangen sind. Bereinigen Sie es, erforschen Sie es, visualisieren Sie es, ziehen Sie Erkenntnisse daraus. Diese Fähigkeiten sind wirklich wertvoll. Aber je mehr ich lernte, desto mehr stieß ich immer wieder auf dieselbe Wand. Die Daten, mit denen ich arbeitete, waren bereits von jemand anderem geformt und verschoben worden. Jemand hatte die Pipeline gebaut, die es zu mir brachte. Jemand hatte entschieden, wie es gespeichert wurde, wie es strukturiert warfare und wie oft es aktualisiert wurde.

Ich wollte diese Individual sein.

Knowledge Engineering ist der Analyse vorgelagert. Es geht darum, die Systeme aufzubauen, die Analysen überhaupt erst ermöglichen. Datenpipelines, Speicherarchitektur, Workflow-Orchestrierung, umfangreiche Datenverarbeitung. Dies sind die Grundlagen, auf denen alles andere aufbaut. Und ehrlich gesagt reizt mich diese Artwork der Infrastrukturarbeit in einer Weise, wie es die reine Analyse nicht mehr tut.

Es gibt auch ein praktisches Argument. Stellen im Bereich Knowledge Engineering gehören durchweg zu den bestbezahlten Stellen in der Datenbranche. Da KI-Instruments die Analyseebene immer besser automatisieren können, wird die Nachfrage nach Personen, die eine zuverlässige Dateninfrastruktur aufbauen und warten können, nur noch wachsen. Ich würde die Rohre lieber bauen, als sie nur zu benutzen.

Und noch etwas. Das Startup, bei dem ich arbeite, verwendet keines der Instruments, die ich gleich erlernen werde. Das bedeutet, dass ich jede Stunde, die ich in diese Sache investiere, völlig selbstbestimmt bin. Kein Staff, von dem man lernen kann, keine Arbeitsprojekte, auf die man es anwenden kann. Nur ich, das Web und alles, was ich selbst aufbauen kann. Das ist eine Herausforderung, die ich bewusst wähle.

Warum ich das in der Öffentlichkeit mache

Über das zu schreiben, was ich lerne, ist etwas, woran ich bereits fest glaube. Es zwingt Sie dazu, etwas tatsächlich zu verstehen, bevor Sie es erklären. Es macht Sie verantwortlich. Und mit der Zeit entsteht etwas, was ein Lebenslauf allein niemals schaffen könnte.

Aber ich werde auch ehrlich zu meinen Ängsten sein, denn ich denke, das ist der Sinn, wenn ich das öffentlich mache.

Ich habe das Shiny-Object-Syndrom. Da habe ich es gesagt. Ich habe mich mit Grafikdesign, Animation, Schreiben, Advertising and marketing und IT beschäftigt, bevor ich mich mit Daten beschäftigt habe. Es gibt immer etwas Neues und Aufregendes, das meine Aufmerksamkeit erregt. Datentechnik könnte leicht durch die nächste auffällige Sache in meinem Feed ersetzt werden, wenn ich es nicht absichtlich mache.

Konsistenz ist eine andere Sache. Ich arbeite von 9 bis 17 Uhr und berühre die Werkzeuge, die ich lernen werde, kaum. Es gibt keine natürliche Verstärkung bei der Arbeit, keinen Kollegen, an den ich Airflow-Fragen weiterleiten kann. Ich baue das komplett in meiner Freizeit auf, außerhalb meiner beruflichen Verantwortung.

Und Gleichgewicht. Drei bis vier Stunden am Tag sind das Ziel. An manchen Tagen wird sich das einfach anfühlen. An anderen Tagen wird es sich unmöglich anfühlen.

Die Veröffentlichung dieser Reise ist mein Verantwortungssystem. Wenn ich nonetheless werde, weißt du, dass ich ausgerutscht bin. Und ich möchte lieber nicht ausrutschen.

Womit ich anfange

Ich fange nicht bei Null an, was hilft. Ich verfüge bereits über SQL-Kenntnisse für Anfänger bis Fortgeschrittene aus meiner Arbeit in der Datenanalyse, über grundlegende Python-Grundlagen und einige praktische Erfahrungen mit Pandas. Das gibt mir eine Grundlage, auf der ich aufbauen kann, anstatt alles von Grund auf neu aufzubauen.

Hier ist der vollständige Lernstapel, ungefähr in der Reihenfolge, in der ich ihn angehen werde.

1. SQL: Geht tiefer als Analytics

Ich kenne SQL. Aber Analytics-SQL und Engineering-SQL sind unterschiedliche Dinge. Ich werde mich eingehender mit der Abfrageoptimierung, der Indizierung, der Arbeit mit sehr großen Datensätzen und dem Schreiben von SQL befassen, das auf Leistung und nicht nur auf Erkundung ausgelegt ist. Wenn Sie SQL bisher nur zum Abrufen und Filtern von Daten verwendet haben, gibt es darunter noch eine ganz andere Ebene, die es wert ist, verstanden zu werden.

Warum es das Erste ist: Alles in der Datentechnik berührt irgendwann SQL. Wenn Sie hier scharf werden, bevor Sie komplexere Werkzeuge einsetzen, wird der Relaxation der Reise einfacher.

2. Python: Von der Exploration zur Produktionsreife

Ich habe die Grundlagen. Pandas, NumPy, einige Polartiere. Aber das Python, das ich geschrieben habe, lebt hauptsächlich in Notizbüchern. Explorativ, chaotisch, nicht für die Ewigkeit gebaut. Das Ziel besteht nun darin, saubereren, strukturierteren und wiederverwendbaren Code zu schreiben. Funktionen, Module, Fehlerbehandlung, Scripting. Die Artwork von Python, die Sie tatsächlich in eine Pipeline einfügen würden.

Warum es wichtig ist: Python ist der Klebstoff, der die meisten modernen Knowledge-Engineering-Stacks zusammenhält. Airflow nutzt es. PySpark ist darauf aufgebaut. Es ist nicht verhandelbar, sich hier wohl zu fühlen.

3. Git und GitHub: Versionskontrolle richtig durchgeführt

Ich werde ehrlich sein. Meine Git-Kenntnisse lauten derzeit „Kopieren Sie den Befehl, ich hoffe, er funktioniert.“ Das muss sich ändern. Die Versionskontrolle ist von grundlegender Bedeutung für die Arbeit eines Ingenieurs und nicht nur eines Analysten. Ich lerne Branching, Pull Requests und wie man Code projektübergreifend richtig verwaltet.

Warum es wichtig ist: Jedes Projekt, das ich von nun an erstelle, geht auf GitHub. Es ist das Portfolio, die Disziplin und die Artwork und Weise, wie echte Groups arbeiten.

4. Apache Spark und PySpark: Large Knowledge-Verarbeitung

Hier wird es richtig spannend. Apache Spark ist eine der am weitesten verbreiteten Engines zur Verarbeitung großer Datenmengen. PySpark ist die Python-API dafür, was bedeutet, dass ich eine Sprache verwenden kann, mit der ich bereits einigermaßen vertraut bin, um mit verteilten Daten im großen Maßstab zu arbeiten.

Der Sprung von Pandas zu Spark ist ein Umdenken. Pandas funktioniert auf einer einzigen Maschine. Spark ist für die Cluster-übergreifende Ausführung konzipiert. Das Erlernen dieser verteilten Denkweise ist eine der Fähigkeiten, die Dateningenieure von Analysten unterscheidet.

Warum es wichtig ist: Wenn Sie in einer Produktionsumgebung mit Large Knowledge arbeiten möchten, ist Spark nahezu unumgänglich. Es taucht ständig in Stellenbeschreibungen auf und ist der Kern des Databricks-Ökosystems, auf das ich aufbauen werde.

5. Apache Airflow: Orchestrierung von Datenpipelines

Datenpipelines laufen nicht von selbst. Sie benötigen etwas, um sie zu planen, zu überwachen und Fehler elegant zu behandeln. Hier kommen Instruments zur Workflow-Orchestrierung ins Spiel, und Airflow ist meine Wahl.

Ich habe hier einige Optionen in Betracht gezogen. Databricks Workflows ist großartig, wenn Sie bereits tief im Databricks-Ökosystem tätig sind. Azure Knowledge Manufacturing unit ist für Azure-lastige Umgebungen sinnvoll. Aber Airflow ist kostenlos, Open-Supply, Cloud-unabhängig und branchenweit weit verbreitet. Außerdem lernen Sie die Kernkonzepte der Orchestrierung auf eine Weise kennen, die sich auf andere Instruments übertragen lässt. Mit Airflow anzufangen schien mir die richtige Entscheidung zu sein, vor allem weil ich versuche, die Kosten niedrig zu halten.

Warum es wichtig ist: Orchestrierung ist das, was eine Sammlung von Skripten in eine tatsächliche Pipeline verwandelt. Um Airflow zu verstehen, muss man verstehen, wie Produktionsdaten-Workflows verwaltet werden.

6. Databricks: Die Datenplattform

Irgendwann müssen Sie sich für eine Datenplattform entscheiden und sich eingehend damit befassen. Ich gehe mit Databricks. Es basiert auf Spark, ist sehr gefragt und verfügt über eine kostenlose Neighborhood Version, mit der Sie üben können, ohne für Cloud-Credit bezahlen zu müssen.

Auch die Alternativen sind solide. Snowflake ist ein sauberes, schnelles SQL-Warehouse, das viele Unternehmen lieben. BigQuery ist die vollständig verwaltete, serverlose Possibility von Google und wirklich hervorragend, wenn Sie sich für Google Cloud entscheiden. Aber Databricks befindet sich an der Schnittstelle von Large Knowledge, maschinellem Lernen und Knowledge Engineering und passt genau zu meinen Zielen. Für meine Ziele hat es am meisten Sinn gemacht.

Warum es wichtig ist: Arbeitgeber möchten, dass Sie Plattformerfahrung haben. Es ist wertvoller, sich eingehend mit einem Thema zu befassen, als ein wenig über alle zu wissen.

Wie ich die 12 Monate strukturiere

Die ehrliche Antwort ist, dass dies länger als 12 Monate dauern kann. Und ich bin damit einverstanden. Ich nehme mir lieber 15 Monate Zeit, um wirklich zu verstehen, was ich tue, als in 12 Monaten durchzustarten und bei den Grundlagen unsicher herauszukommen.

Der allgemeine Ansatz besteht darin, jede Fertigkeit der Reihe nach durchzugehen und nicht voranzukommen, bis ich mit dem, was ich gerade gelernt habe, etwas aufgebaut habe. Tutorials eignen sich intestine zur Orientierung, aber in Projekten findet echtes Lernen statt. Mein Plan ist es, hier auf „In direction of Knowledge Science“ jede Part zu dokumentieren: die Konzepte, die Projekte, die Frustrationen und die Erfolge.

Um den Fortschritt zu verfolgen, verwende ich die Notion-Roadmap von Knowledge With Baraa als Rückgrat. Es unterteilt jede Fertigkeit in Kernthemen und ermöglicht es mir, zu verfolgen, wo ich stehe, ohne vom Gesamtbild auf einmal überwältigt zu werden.

Was den Zeitaufwand angeht, sind drei bis vier Stunden professional Tag das Ziel. Ein Teil davon wird strukturiertes Lernen sein. Einige werden bauen. Einige werden über das schreiben, was ich gerade gelernt habe, was eine eigene Type des Lernens ist.

Wie Erfolg aussieht

Das Ziel ist es, eine hochbezahlte Stelle im Bereich Knowledge Engineering zu bekommen. Das ist echt und ich werde es nicht verschönern.

Aber daneben möchte ich eine glaubwürdige Stimme in diesem Bereich werden. Jemand, der Dinge aufbaut, über die es sich zu sprechen lohnt, der die Reise dokumentiert, ohne die schwierigen Teile herauszufiltern, und der vielleicht den Weg für jemanden, der hinter mir auftaucht, ein wenig klarer macht.

Das Schreiben und das Lernen nähren sich gegenseitig. Das Portfolio wird zum Beweis. Der Beweis baut die Marke auf. Das ist die Imaginative and prescient.

Ab heute

Dieser Artikel ist mein offizielles Startdatum. Ich warte nicht, bis ich mich bereit fühle oder bis alles perfekt geplant ist. Ich fange jetzt damit an, während ich schreibe, und lasse den Prozess öffentlich und etwas chaotisch ablaufen.

Wenn Sie irgendwo auf einem ähnlichen Weg sind. Egal, ob Sie in der Analytik über Technik nachdenken, in der IT-Branche sich fragen, was als nächstes kommt, oder ob Sie einfach jemand sind, der versucht, Fähigkeiten aufzubauen, die in einer KI-beschleunigten Welt ihren Wert behalten. Folgen Sie uns.

Ich denke, wir werden viel zu besprechen haben. Ich werde meine Erkenntnisse auch auf meinem YouTube-Kanal teilen. Fühlen Sie sich additionally frei, sich unten anzumelden und mitzumachen.


Dies ist der erste Artikel einer fortlaufenden Serie, die meine Reise zur Datentechnik dokumentiert. Ich werde regelmäßig über meine Fortschritte, die Projekte, die ich aufbaue, und alles, was ich dabei lerne, veröffentlichen.

Und wenn Sie Zugriff auf die Notion-Vorlage erhalten möchten und sich auf derselben Reise befinden wie ich, können Sie darauf zugreifen Hier.

Folgen Sie meiner Reise weiter unten.

YouTube

Medium

LinkedIn

Twitter

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert