alleine Datenwissenschaft Reisesuche und hatte großes Glück, die Probability zu haben, mit vielen Unternehmen zu interviewen.
Diese Interviews waren eine Mischung aus technischem und verhaltensbezogenem Treffen mit echten Menschen, und ich habe mich auch einen angemessenen Anteil an Bewertungsaufgaben erhalten, um sie selbst zu erledigen.
Wenn ich diesen Prozess durchführe, recherchierte ich viel darüber, welche Arten von Fragen in den Datenwissenschaftsinterviews allgemein gestellt werden. Dies sind Konzepte, mit denen Sie nicht nur vertraut sein sollten, sondern auch wissen, wie man es erklärt.
1. Pwert

Wenn Sie einen statistischen Take a look at durchführen, haben Sie normalerweise eine Nullhypothese H0 und eine various Hypothese H1.
Nehmen wir an, Sie führen ein Experiment durch, um die Wirksamkeit einiger Gewichtsverlustmedikamente zu bestimmen. Gruppe A nahm ein Placebo und die Gruppe B nahm die Medikamente ein. Anschließend berechnen Sie eine mittlere Anzahl von Pfund, die für jede Gruppe über sechs Monate verloren verloren haben, und möchten feststellen, ob die Anzahl der für Gruppe B verlorenen Gewicht statistisch signifikant höher ist H1 wäre, dass es einen signifikanten Unterschied gab und die Gruppe B aufgrund der Medikamente mehr Gewicht verlor.
Zusammenfassung:
- H0: Imply LBS verlorene Gruppe A = mittlere LBS verlorene Gruppe B
- H1: Imply lbs verlorene Gruppe A
Sie würden dann eine durchführen T-Take a look at Mittel zu vergleichen, um einen p-Wert zu erhalten. Dies kann in Python oder einer anderen statistischen Software program erfolgen. Bevor Sie jedoch einen P-Wert erhalten, wählen Sie zuerst einen Alpha (α) -Wert (AKA-Signifikanzniveau) aus, mit dem Sie das P vergleichen werden.
Der gewählte typische Alpha -Wert beträgt 0,05, was bedeutet, dass die Wahrscheinlichkeit eines Typ -I -Fehlers (der sagt, dass es einen Unterschied in den Mitteln gibt, wenn es gibt) 0,05 oder 5percentbeträgt.
Wenn Ihr P -Wert Z-Rating ist ein Maß dafür, wie weit ein Datenpunkt aus dem Mittelwert liegt und eine der häufigsten Ausreißer-Erkennungsmethoden ist. Um den Z -Rating zu verstehen, müssen Sie grundlegende statistische Konzepte verstehen, wie z. B.: Ein Z-Rating-Wert von 2 für einen bestimmten Datenpunkt zeigt an, dass dieser Wert 2 Standardabweichungen über dem Mittelwert liegt. Ein Z -Rating von -1,5 zeigt an, dass der Wert 1,5 Standardabweichungen unter dem Mittelwert liegt. In der Regel wird ein Datenpunkt mit einem Z-Rating von> 3 oder <-3 als Ausreißer angesehen. Ausreißer sind ein häufiges Downside in der Information Science, daher ist es wichtig zu wissen, wie man sie identifiziert und mit ihnen umgeht. Weitere Informationen zu anderen einfachen Ausreißererkennungsmethoden finden Sie in meinem Artikel zu Z-Rating-, IQR- und Modified Z-Rating: Lineare Regression ist eines der grundlegendsten ML- und statistischen Modelle, und das Verständnis ist entscheidend, in jeder Datenwissenschaftsrolle erfolgreich zu sein. Auf hoher Ebene, Lineare Regression Ziel ist es, die Beziehung zwischen einer unabhängigen Variablen (en) zu einer abhängigen Variablen zu modellieren und eine unabhängige Variable zu verwenden, um den Wert der abhängigen Variablen vorherzusagen. Dies geschieht, indem es eine „Zeile der besten Passform“ an den Datensatz annimmt – eine Zeile, die die Summe der quadratischen Unterschiede zwischen den tatsächlichen Werten und den vorhergesagten Werten minimiert. Ein Beispiel hierfür ist der Versuch, die Beziehung zwischen Temperatur und elektrischem Energieverbrauch zu modellieren. Bei der Messung des elektrischen Verbrauchs eines Gebäudes wirkt sich die Temperatur häufig auf die Verwendung aus, da bei der Steigung der Temperatur bei der Steigung der Temperatur häufig Strom verwendet wird, um ihre Räume abzukühlen. Wir können additionally ein Regressionsmodell verwenden, um diese Beziehung zu modellieren, bei der die unabhängige Variable Temperatur und die abhängige Variable der Verbrauch ist (da die Verwendung von der Temperatur abhängt und nicht umgekehrt). Die lineare Regression gibt eine Gleichung im Format y = mx+b aus, wobei m die Steigung der Linie und B der y -Schnittpunkt ist. Um eine Vorhersage für y zu machen, würden Sie Ihren X -Wert in die Gleichung anschließen. Die Regression hat 4 verschiedene Annahmen der zugrunde liegenden Daten, an die sich die Akronymzeile erinnern kann: L: Lineare Beziehung zwischen der unabhängigen Variablen x und der abhängigen Variablen y. I: Unabhängigkeit der Residuen. Residuen beeinflussen sich nicht. (Ein Relaxation ist die Differenz zwischen dem von der Linie vorhergesagten Wert und dem tatsächlichen Wert). N: Normalverteilung der Residuen. Die Residuen folgen einer Normalverteilung. E: Gleiche Varianzvon Residuen über verschiedene x -Werte hinweg. Die häufigste Leistungsmetrik bei der linearen Regression ist das R², das Ihnen den Varianzanteil in der abhängigen Variablen zeigt, die durch die unabhängige Variable erklärt werden kann. Ein R² von 1 zeigt eine perfekte lineare Beziehung an, während ein R² von 0 bedeutet, dass dieser Datensatz keine Vorhersagefähigkeit gibt. Ein guter R² ist tendenziell 0,75 oder höher, aber dies variiert auch je nach Artwork des Issues, das Sie lösen. Die lineare Regression unterscheidet sich von der Korrelation. Korrelation Zwischen zwei Variablen gibt Ihnen einen numerischen Wert zwischen -1 und 1, der Ihnen die Stärke und Richtung der Beziehung zwischen zwei Variablen zeigt. Regression gibt Ihnen eine Gleichung, die verwendet werden kann, um zukünftige Werte auf der Grundlage der am besten geeigneten Linie für frühere Werte vorherzusagen. Der Zentralgrenze Theorem (CLT) ist ein grundlegendes Konzept in der Statistik, dass die Verteilung des Stichprobenmittelwerts einer Normalverteilung nähert, wenn die Stichprobengröße unabhängig von der ursprünglichen Verteilung der Daten größer wird. Eine Normalverteilung, auch als Glockenkurve bezeichnet, ist eine statistische Verteilung, bei der der Mittelwert 0 beträgt und die Standardabweichung 1 ist. CLT basiert auf diesen Annahmen: Eine Stichprobengröße von ≥ 30 wird typischerweise als minimaler akzeptabler Wert für den CLT angesehen. Wenn Sie jedoch die Stichprobengröße erhöhen, sieht die Verteilung immer mehr wie eine Glockenkurve aus. CLT ermöglicht Statistikern, mit der Normalverteilung Schlussfolgerungen über Bevölkerungsparameter zu ziehen, selbst wenn die zugrunde liegende Bevölkerung normalerweise nicht verteilt ist. Es bildet die Grundlage für viele statistische Methoden, einschließlich Konfidenzintervalle und Hypothesentests. Wenn ein Modell unterfasst,Es warfare nicht in der Lage, Muster in den Trainingsdaten ordnungsgemäß zu erfassen. Aus diesem Grund funktioniert es nicht nur schlecht im Trainingsdatensatz, sondern auch bei unsichtbaren Daten schlecht. So wissen Sie, ob ein Modell unterbrochen wird: Wenn ein Modell ÜberfitsDies bedeutet, dass die Trainingsdaten zu genau gelernt haben. Im Wesentlichen hat es die Trainingsdaten auswendig gelernt und ist hervorragend vorhersagen, kann jedoch nicht auf unsichtbare Daten verallgemeinern, wenn es Zeit ist, neue Werte vorherzusagen. So wissen Sie, ob ein Modell überpassend ist: Zusätzlich: Ein Modell, das zugrunde liegt, hat eine hohe Verzerrung. Ein Modell, das überflüssig ist, hat eine hohe Varianz. Eine gute Stability zwischen den beiden zu finden, wird als die genannt Vorspannungsvarianz-Kompromiss. Dies ist keineswegs eine umfassende Liste. Weitere wichtige Themen sind zu überprüft: Hier sind einige meiner anderen Artikel, die viele dieser grundlegenden ML- und Statistikkonzepte abdecken: Es ist regular, sich bei der Überprüfung dieser Konzepte überfordert zu fühlen, insbesondere wenn Sie seit Ihren Datenwissenschaftskursen in der Schule nicht viele von ihnen gesehen haben. Wichtiger ist jedoch, dass Sie sicherstellen, dass Sie mit dem, was für Ihre eigenen Erfahrung am relevantesten ist (z. B. die Grundlagen der Zeitreihenmodellierung,, wenn dies Ihre Spezialität ist), und einfach ein grundlegendes Verständnis dieser anderen Konzepte zu haben. Denken Sie auch daran, dass der beste Weg, um diese Konzepte in einem Interview zu erklären, darin besteht, ein Beispiel zu verwenden und die Interviewer durch die relevanten Definitionen zu führen, während Sie Ihr Szenario durchgehen. Dies wird Ihnen helfen, sich auch besser an alles zu erinnern.2. Z-Rating (und andere Ausreißer-Erkennungsmethoden)
3. Lineare Regression
4. Zentralgrenze Theorem
5. Überanpassung und Unteranpassung
Abschluss
Danke fürs Lesen