Wie ich Statistiken als Datenwissenschaftler tatsächlich verwendeWie ich Statistiken als Datenwissenschaftler tatsächlich verwende
Bild durch Ideogramm

# Einführung

Wenn Sie die Wortdatenwissenschaft hören, denken Sie wahrscheinlich an zwei Wörter: Programmierung und Statistik. Tatsächlich entmutigt die Voraussetzung für Lernstatistiken häufig Menschen davon, eine Karriere in der Daten zu verfolgen. Es hilft nicht, dass die meisten Datenwissenschaftsbeschreibungen den Anschein haben, als ob Sie einen Doktortitel in Statistiken benötigen, um in der Rolle zu gedeihen, wenn die Realität völlig anders ist.

In der Mehrheit der Datenwissenschaftspositionen, insbesondere in Technologieunternehmen, die sich auf die Produktentwicklung konzentrieren, müssen Sie es wissen angewandte Statistiken. Dies beinhaltet die Verwendung vorhandener statistischer Rahmenbedingungen zur Lösung von Geschäftsproblemen. Dies unterscheidet sich von akademischen Statistiken (denken Sie an, komplexe Formeln von Hand zu berechnen). Stattdessen müssen Sie lediglich verstehen, was ein Konzept bedeutet, wie man es mithilfe vorhandener Bibliotheken berechnet und wie man es interpretiert. Hier ist ein Beispiel: In den meisten praktischen Datenwissenschaftszenarien reicht es aus, zu verstehen, was ein P-Wert von 0,03 bedeutet und wie sie mit einer geschäftlichen Entscheidung mithilfe von Hand entschieden werden kann, anstatt wissen zu müssen, wie man sie von Hand berechnet.

In diesem Artikel werde ich Ihnen Beispiele geben, wie ich Statistiken in meinem Datenwissenschaftsjob verwende, zusammen mit den Ressourcen, mit denen ich dieses Wissen gewonnen habe.

# Wie ich Statistiken in meinem Datenwissenschaftsjob verwende

// Experimentieren

Die meisten Tech -Unternehmen (Google, Meta, Spotify) haben eine große Experimentierkultur. Sie testen rigoros, bevor sie Änderungen vornehmen.

Bei A/B -Assessments muss ich statistische Konzepte wie:

  • Statistische Kraft zur Bestimmung der für das Experiment erforderlichen Stichprobengröße
  • Signifikanzniveaus, P-Werte und Konfidenzintervalle für die Entscheidungsfindung

Es gibt Zeiten, in denen P-Werte möglicherweise nicht die ganze Geschichte erzählen, in denen Sie komplexere Analyseformen wie Differenzabschätzung (DID) lernen müssen. Dies sind jedoch Konzepte, die ich im Job aufgegriffen habe, indem ich Artikel las, Fragen und Diskussionen mit hochrangigen Kollegen stellte. Sie können unmöglich lernen und sich an jedes Konzept erinnern, das durch Kurse oder sogar einen Universitätsabschluss erforderlich ist. Ich schlage vor, die Kernkonzepte aufzunehmen, die erforderlich sind, um Sie durch das Knowledge Science -Interview zu bringen und den Relaxation im Job zu lernen.

// Modellieren

Das Erstellen von Modellen für maschinelles Lernen erfordert Kenntnisse über Statistiken. Nach meiner Erfahrung battle es jedoch ausreichend, Kenntnisse über Modelle für maschinelles Lernen zu haben, anstatt die Theorie hinter diesen Algorithmen und ihre Erstellung zu lernen.

Dies gilt natürlich nicht für jede Branche. Ein Datenwissenschaftler, der in einem spezialisierten Sektor wie Prognose, Biostatistik oder Ökonometrie arbeitet, muss ein tiefes statistisches Wissen im Zusammenhang mit ihrem Feld besitzen.

Nach meiner Erfahrung liegt der Fokus bei der Arbeit in Produkt- oder Technologieunternehmen jedoch eher auf die geschäftlichen Auswirkungen und Interpretation dieser Modelle als auf die mathematische Strenge dahinter.

// Datenanalyse

Ich verbringe auch viel Zeit damit, Daten zu analysieren, um zu verstehen, wie Benutzer mit dem Produkt interagieren und Empfehlungen darüber geben, wie diese Erfahrung verbessert werden kann. Dies umfasst typischerweise beschreibende Statistiken, in denen ich Visualisierungen erstelle, Kundensegmentierung durchführe und Datenverteilungen vergleiche. Die meisten datenbezogenen Fragen, wie „Warum die Kundenbindung in den letzten 3 Monaten gesunken ist“, können mit einfachen Visualisierungen gelöst werden und erfordern keine anspruchsvolle statistische Methoden.

Wenn Sie den Unterschied zwischen Mittelwert, Median und Modus kennen und Visualisierungen wie Histogramme und Boxplots erstellen können, sind Sie bereits mit dem Wissen ausgestattet, um diese Artwork der Analyse durchzuführen. In seltenen Fällen müssen Sie eine fortschrittliche Regressionstechnik verwenden oder ein Zeitreihenmodell erstellen. Auch dies lerne ich normalerweise bei hochrangigen Kollegen, Dokumentationen und On-line -Tutorials.

# Drei Ressourcen zum Erlernen von Statistiken für Datenwissenschaft

Ich habe einen Abschluss in Informatik und wurde wenig bis gar keine Statistiken beigebracht. Alle meine statistischen Kenntnisse stammen aus Ressourcen, die ich on-line gefunden habe, und ich habe eine Liste der hilfreichsten zusammengestellt:

  • Udacity -Intro in Statistik wird für vollständige Anfänger empfohlen und deckt beschreibende Statistiken, Inferenzstatistiken und Wahrscheinlichkeit ab
  • Statquest ist hilfreich, wenn Sie bestimmte Konzepte lernen möchten. Wenn Sie beispielsweise erfahren möchten, wie Regression funktioniert
  • Statistisches Lernen auf EDX ist ein weiterer großartiger Kurs, den Sie kostenlos prüfen können. Dieser Lernpfad lehrt Sie, statistische Konzepte in Python anzuwenden, was ihn für die meisten Datenwissenschaftsjobs related macht

# Imbiss

Während die Idee, Statistiken für die Datenwissenschaft zu lernen, einschüchternd klingen könnte, müssen die meisten Datenwissenschaftsjobs angewandte Statistiken kennen, was die Fähigkeit ist, statistische Konzepte zur Lösung von Geschäftsproblemen anzuwenden. Nach meiner Erfahrung kann dieses Wissen problemlos über On-line -Kurse erworben werden und erfordert keinen Grasp -Abschluss in Statistik.

Die in diesem Artikel aufgeführten Ressourcen sollten ausreichen, um Sie durch den Statistikabschnitt der Knowledge Science -Interviews zu bringen. Jedes Wissen, das darüber hinausgeht, kann im Job erworben werden, indem Artikel und Papiere zu diesem Thema kontinuierlich gelesen, mit vorhandenen Rahmenbedingungen in Ihrer Organisation zusammenarbeiten und von hochrangigen Datenwissenschaftlern gelernt werden.

Natassha Selvaraj ist ein autodidaktischer Datenwissenschaftler mit einer Leidenschaft für das Schreiben. Natassha schreibt über alles, was Knowledge Science zu tun hat, einen echten Grasp aller Datenthemen. Sie können sich mit ihr verbinden LinkedIn Oder schauen Sie sich sie an YouTube -Kanal.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert