Bild vom Autor
Ich bin ein Datenwissenschaftler mit einem Hintergrund in Informatik.
Ich bin mit Datenstrukturen, objektorientierter Programmierung und Datenbankverwaltung vertraut, da mir diese Konzepte drei Jahre lang an der Universität beigebracht wurden.
Als ich jedoch in den Bereich der Datenwissenschaft einstieg, bemerkte ich eine erhebliche Qualifikationslücke.
Mir fehlten die mathematischen oder statistischen Kenntnisse, die für quick alle Information-Science-Rollen erforderlich sind.
Ich habe ein paar On-line-Kurse in Statistik belegt, aber nichts davon hat mich wirklich überzeugt.
Die meisten Programme waren entweder sehr grundlegend und auf Führungskräfte der oberen Ebene zugeschnitten. Andere waren sehr detailliert und bauten auf Vorkenntnissen auf, die ich nicht besaß.
Ich habe viel Zeit damit verbracht, das Web nach Ressourcen zu durchforsten, um Konzepte wie Hypothesentests und Konfidenzintervalle besser zu verstehen.
Und nachdem ich Vorstellungsgespräche für mehrere Information-Science-Positionen geführt hatte, stellte ich fest, dass die meisten Fragen in Statistik-Interviews einem ähnlichen Muster folgten.
In diesem Artikel liste ich die 10 häufigsten Statistikfragen auf, die mir in Vorstellungsgesprächen im Bereich Information Science begegnet sind, zusammen mit Beispielantworten auf diese Fragen.
Frage 1: Was ist ein p-Wert?
Antwort: Vorausgesetzt, die Nullhypothese ist wahr, ist ein p-Wert die Wahrscheinlichkeit, dass Sie ein mindestens so extremes Ergebnis sehen wie das beobachtete.
P-Werte werden normalerweise berechnet, um zu bestimmen, ob das Ergebnis eines statistischen Exams signifikant ist. Einfach ausgedrückt sagt uns der P-Wert, ob genügend Beweise vorliegen, um die Nullhypothese abzulehnen.
Frage 2: Erklären Sie das Konzept der statistischen Leistung
Antwort: Wenn Sie einen statistischen Check durchführen, um festzustellen, ob ein Effekt vorhanden ist, ist die statistische Teststärke die Wahrscheinlichkeit, dass der Check den Effekt genau erkennt.
Hier ist ein einfaches Beispiel, um dies zu erklären:
Nehmen wir an, wir schalten eine Anzeige für eine Testgruppe von 100 Personen und erzielen 80 Conversions.
Die Nullhypothese besagt, dass die Anzeige keinen Einfluss auf die Anzahl der Conversions hatte. Tatsächlich hatte die Anzeige jedoch einen erheblichen Einfluss auf die Höhe der Verkäufe.
Die statistische Aussagekraft ist die Wahrscheinlichkeit, dass Sie die Nullhypothese richtig ablehnen und den Effekt tatsächlich erkennen. Eine höhere statistische Aussagekraft bedeutet, dass der Check einen Effekt, falls vorhanden, besser erkennen kann.
Frage 3: Wie würden Sie Konfidenzintervalle einem nicht-technischen Stakeholder beschreiben?
Verwenden wir dasselbe Beispiel wie zuvor, in dem eine Anzeige für eine Stichprobengröße von 100 Personen geschaltet wird und 80 Conversions erzielt werden.
Anstatt zu sagen, dass die Konversionsrate 80 % beträgt, würden wir einen Bereich angeben, da wir nicht wissen, wie sich die tatsächliche Inhabitants verhalten würde. Mit anderen Worten: Wenn wir eine unendliche Anzahl von Stichproben nehmen würden, wie viele Konversionen würden wir sehen?
Hier ist ein Beispiel dafür, was wir ausschließlich auf Grundlage der aus unserer Stichprobe gewonnenen Daten sagen könnten:
„Wenn wir diese Anzeige für eine größere Gruppe von Personen schalten würden, sind wir zu 95 % davon überzeugt, dass die Conversion-Price irgendwo zwischen 75 % und 88 % liegen würde.“
Wir verwenden diesen Bereich, weil wir die Reaktion der Gesamtbevölkerung nicht kennen und nur eine Schätzung auf Grundlage unserer Testgruppe erstellen können, bei der es sich lediglich um eine Stichprobe handelt.
Frage 4: Was ist der Unterschied zwischen einem parametrischen und einem nichtparametrischen Check?
Bei einem parametrischen Check wird davon ausgegangen, dass der Datensatz einer zugrunde liegenden Verteilung folgt. Die häufigste Annahme bei der Durchführung eines parametrischen Exams ist, dass die Daten regular verteilt sind.
Beispiele für parametrische Exams sind ANOVA, T-Check, F-Check und der Chi-Quadrat-Check.
Nichtparametrische Exams treffen jedoch keine Annahmen über die Verteilung des Datensatzes. Wenn Ihr Datensatz nicht regular verteilt ist oder Ränge oder Ausreißer enthält, ist es ratsam, einen nichtparametrischen Check zu wählen.
Frage 5: Was ist der Unterschied zwischen Kovarianz und Korrelation?
Die Kovarianz misst die Richtung der linearen Beziehung zwischen Variablen. Die Korrelation misst die Stärke und Richtung dieser Beziehung.
Während sowohl Korrelation als auch Kovarianz ähnliche Informationen über Merkmalsbeziehungen liefern, liegt der Hauptunterschied zwischen ihnen im Maßstab.
Die Korrelation liegt zwischen -1 und +1. Sie ist standardisiert und ermöglicht es Ihnen, leicht zu erkennen, ob eine constructive oder unfavorable Beziehung zwischen Merkmalen besteht und wie stark dieser Effekt ist. Die Kovarianz hingegen wird in denselben Einheiten wie die abhängigen und unabhängigen Variablen angezeigt, was die Interpretation etwas erschweren kann.
Frage 6: Wie würden Sie Ausreißer in einem Datensatz analysieren und behandeln?
Es gibt einige Möglichkeiten, Ausreißer im Datensatz zu erkennen.
- Visuelle Methoden: Ausreißer können visuell mithilfe von Diagrammen wie Boxplots und Streudiagrammen identifiziert werden. Punkte, die außerhalb der Whiskers eines Boxplots liegen, sind normalerweise Ausreißer. Bei der Verwendung von Streudiagrammen können Ausreißer als Punkte erkannt werden, die weit von anderen Datenpunkten in der Visualisierung entfernt sind.
- Nicht-visuelle Methoden: Eine nicht-visuelle Technik zum Erkennen von Ausreißern ist der Z-Rating. Z-Scores werden berechnet, indem ein Wert vom Mittelwert abgezogen und durch die Standardabweichung geteilt wird. Dadurch erfahren wir, wie viele Standardabweichungen ein Wert vom Mittelwert entfernt ist. Werte, die über oder unter 3 Standardabweichungen vom Mittelwert liegen, gelten als Ausreißer.
Frage 7: Unterscheiden Sie zwischen einem einseitigen und einem zweiseitigen Check.
Ein einseitiger Check prüft, ob ein Zusammenhang oder Effekt in eine Richtung besteht. So kann man beispielsweise nach dem Ausspielen einer Anzeige mit einem einseitigen Check prüfen, ob eine constructive Auswirkung, additionally eine Umsatzsteigerung, vorliegt. Dabei handelt es sich um einen rechtsseitigen Check.
Ein zweiseitiger Check untersucht die Möglichkeit einer Beziehung in beide Richtungen. Wenn beispielsweise an allen öffentlichen Schulen ein neuer Unterrichtsstil eingeführt wurde, würde ein zweiseitiger Check feststellen, ob es zu einer signifikanten Verbesserung oder Verschlechterung der Noten kommt.
Frage 8: Welchen statistischen Check würden Sie im folgenden Szenario durchführen?
Ein On-line-Händler möchte die Wirksamkeit einer neuen Werbekampagne bewerten. Er erfasst täglich Verkaufsdaten für 30 Tage vor und nach der Veröffentlichung der Anzeige. Das Unternehmen möchte feststellen, ob die Anzeige zu einem signifikanten Unterschied bei den täglichen Verkäufen beigetragen hat.
Optionen:
A) Chi-Quadrat-Check
B) Gepaarter t-Check
C) Einweg-ANOVA
d) T-Check für unabhängige Stichproben
Antwort: Um die Wirksamkeit einer neuen Werbekampagne zu bewerten, sollten wir einen gepaarten t-Check verwenden.
Mit einem gepaarten t-Check werden die Mittelwerte zweier Stichproben verglichen und geprüft, ob ein Unterschied statistisch signifikant ist.
In diesem Fall vergleichen wir die Verkäufe vor und nach der Schaltung der Anzeige und vergleichen eine Veränderung in derselben Datengruppe. Deshalb verwenden wir einen gepaarten t-Check statt eines t-Exams für unabhängige Stichproben.
Frage 9: Was ist ein Chi-Quadrat-Unabhängigkeitstest?
Mit einem Chi-Quadrat-Unabhängigkeitstest wird die Beziehung zwischen beobachteten und erwarteten Ergebnissen untersucht. Die Nullhypothese (H0) dieses Exams besagt, dass jeder beobachtete Unterschied zwischen den Merkmalen rein zufällig ist.
Vereinfacht ausgedrückt kann uns dieser Check dabei helfen, festzustellen, ob die Beziehung zwischen zwei kategorialen Variablen auf Zufall beruht oder ob ein statistisch signifikanter Zusammenhang zwischen ihnen besteht.
Wenn Sie beispielsweise testen möchten, ob ein Zusammenhang zwischen dem Geschlecht (männlich vs. weiblich) und der Vorliebe für eine Eissorte (Vanille vs. Schokolade) besteht, können Sie einen Chi-Quadrat-Unabhängigkeitstest verwenden.
Frage 10: Erklären Sie das Konzept der Regularisierung in Regressionsmodellen.
Bei der Regularisierung handelt es sich um eine Technik, mit der Überanpassung durch Hinzufügen zusätzlicher Informationen reduziert wird. Dadurch können sich Modelle besser an Datensätze anpassen und verallgemeinern, mit denen sie nicht trainiert wurden.
Bei der Regression gibt es zwei häufig verwendete Regularisierungstechniken: Ridge- und Lasso-Regression.
Dabei handelt es sich um Modelle, die die Fehlergleichung des Regressionsmodells durch Hinzufügen eines Strafterms leicht verändern.
Bei der Ridge-Regression wird ein Strafterm mit der Summe der quadrierten Koeffizienten multipliziert. Dies bedeutet, dass Modelle mit größeren Koeffizienten stärker bestraft werden. Bei der Lasso-Regression wird ein Strafterm mit der Summe der absoluten Koeffizienten multipliziert.
Während das Hauptziel beider Methoden darin besteht, die Größe der Koeffizienten zu verringern und gleichzeitig den Modellfehler zu minimieren, werden bei der Ridge-Regression große Koeffizienten stärker bestraft.
Andererseits wendet die Lasso-Regression auf jeden Koeffizienten eine konstante Strafe an, was bedeutet, dass die Koeffizienten in einigen Fällen auf Null schrumpfen können.
10 Statistikfragen, um Ihr Information Science-Vorstellungsgespräch zu meistern – Nächste Schritte
Wenn Sie es geschafft haben, diesem Leitfaden bis hierher zu folgen, herzlichen Glückwunsch!
Sie verfügen jetzt über ein gutes Verständnis für die Statistikfragen, die in Information-Science-Interviews gestellt werden.
Als nächsten Schritt empfehle ich die Teilnahme an einem Onlinekurs, um diese Konzepte aufzufrischen und in die Praxis umzusetzen.
Hier sind einige Lernressourcen zum Thema Statistik, die ich nützlich fand:
Der letzte Kurs kann kostenlos auf edX geprüft werden, während es sich bei den ersten beiden Ressourcen um YouTube-Kanäle handelt, die sich ausführlich mit Statistik und maschinellem Lernen befassen.
 
 
Natassha Selvaraj ist eine autodidaktische Datenwissenschaftlerin mit einer Leidenschaft für das Schreiben. Natassha schreibt über alles, was mit Datenwissenschaft zu tun hat, und ist eine wahre Meisterin aller Datenthemen. Sie können mit ihr in Kontakt treten auf LinkedIn oder schau dir ihre YouTube-Kanal.