Als wir in die Datenwissenschaft einstiegen, gab es einen Satz, den wir alle gehört hatten; Jeder weiß es, ob jung oder alt:
„Korrelation bedeutet keine Kausalität.“
Es ist ein eingängiger Satz, und Sie haben ihn bestimmt schon ein- oder zweimal gesagt und vielleicht sogar zuversichtlich genickt, als jemand anderes ihn gesagt hat. Besonders für Datensätze, die keinen Bezug zueinander haben, bei denen es aber lustig und faszinierend ist, einen Kausalzusammenhang zu implizieren!
Hier sind zwei sehr interessante Fakten:
- Länder, die essen mehr Pizza tendiert dazu höher Mathe-Ergebnisse.
- Je mehr Sonnenbrillen verkauft werden, desto mehr Es kommt zu Hai-Angriffen.
Wenn das nun alle Informationen wären, die Sie haben … was sollten Sie daraus schlussfolgern?
Macht Pizzaessen dich besser in Mathe? Wird der Kauf einer neuen Sonnenbrille zu einem Hai-Angriff führen?
Obwohl es lustig ist, darüber nachzudenken, ist die Antwort auf diese Fragen eine „wahrscheinlich nicht“.
Und doch sind dies Beispiele für etwas sehr Reales: Korrelation.
Die Frage, die es sich jetzt zu stellen lohnt, lautet: Wenn Korrelation nicht gleichbedeutend mit Kausalität ist, was bedeutet das dann?
Da wird es unscharf.
Da wir dazu neigen, Korrelation wie eine vage Idee zu behandeln, betrachten wir sie so, als bedeute sie „Sie sind irgendwie verwandt“ oder „Sie bewegen sich irgendwie zusammen.“ Aber Korrelation ist nicht nur ein Gefühl; es ist eine präzise mathematische Messung dafür, wie sich zwei Variablen zusammen bewegen.
Anstatt nur die Warnung zu wiederholen, wollen wir das Konzept tatsächlich verstehen. Sobald Sie dies tun, sind diese seltsamen Beispiele nicht mehr überraschend, sondern beginnen, einen Sinn zu ergeben.
Additionally, legen wir los!
Was ist Korrelation?
Wenn Leute sagen, zwei Dinge seien „korreliert„Sie bedeuten normalerweise eines von drei Dingen:
- „Diese beiden Dinge scheinen zusammenzuhängen.“
- „Diese beiden Dinge gehören zusammen.“
- „Es gibt eine Verbindung zwischen diesen beiden Dingen.“
Oberflächlich betrachtet sind alle drei davon nicht falsch, aber es fehlen einige Nuancen.
Korrelation ist keine Stimmung. Es ist eine Messung! Und wie jede Messung beantwortet sie eine ganz bestimmte Frage.
Gehen Sie einen Schritt zurück und stellen Sie sich vor, Sie sammeln Daten darüber, wie viele Stunden die Schüler gelernt haben und welche Prüfungsergebnisse sie erzielen.
Sie planen es und sehen etwa Folgendes:

Jeder Punkt repräsentiert einen Schüler. Die X-Achse zeigt an, wie lange sie gelernt haben, und die Y-Achse zeigt ihre Punktzahl.
Wenn Sie sich dieses Diagramm ansehen, stellen Sie fest, dass die Punkte dazu neigen, sich nach oben zu bewegen. Sie kommen additionally zu dem Schluss: „Mit zunehmender Lernzeit steigen tendenziell auch die Ergebnisse“, was wir als constructive Korrelation bezeichnen.
Aber ist das nur ein Pattern oder verraten Ihnen die Daten mehr?
In diesem Beispiel ist die Beziehung, die Sie gerade dargestellt haben, wie folgt: Wenn eine Variable über ihrem Durchschnitt liegt, liegt die andere tendenziell ebenfalls über ihrem Durchschnitt.
Das ist der Schlüsselgedanke, den die meisten Menschen übersehen: Bei der Korrelation geht es nicht um Rohwerte, sondern darum, wie sich Variablen relativ zu ihren Durchschnittswerten bewegen.
Die Antwort auf die Fragekorrelation lautet additionally:
Bewegen sich zwei Variablen auf konsistente Weise zusammen?
Auf diese Frage gibt es eine von drei Antworten:
- Hoch + hoch → constructive Korrelation
- Auf + Ab → detrimental Korrelation
- Kein konsistentes Muster → keine Korrelation
Die Mathematik hinter der Korrelation
Versuchen wir, das Nachdenken über Korrelation intuitiver zu gestalten. Wir werden das mit dem tun Pearson-Korrelationskoeffizientwas wir definieren können als:
Okay, ich weiß, dass niemand an eine Gleichung denkt, wenn ich „intuitiv“ sage … Aber bleiben Sie bei mir und packen wir es aus, ohne daraus eine Vorlesung zu machen.
Schritt 1: Kovarianz (auch bekannt als „Bewegen sie sich zusammen?“)
Bei der Kovarianz wird untersucht, wie sich zwei Variablen relativ zu ihren Durchschnittswerten bewegen. Wenn beispielsweise beide Variablen über ihren Durchschnittswerten liegen, erhalten wir eine constructive Kovarianz; Liegt einer darüber und der andere darunter, erhalten wir eine detrimental Kovarianz.
Grundsätzlich antwortet die Kovarianz: „Sind diese Variablen in ihrer Abweichung von ihren Durchschnittswerten übereinstimmend?“
Schritt 2: Normalisieren Sie es
Kovarianz allein ist schwer zu interpretieren, da sie von der Skala abhängt. Um dies zu umgehen, dividieren wir durch die Standardabweichungen: Und . Dadurch wird alles in einen sauberen Bereich neu skaliert: -1 bis 1. Das gibt uns eine gemeinsame Grundlage für den Vergleich von Variablenwerten.
Nach diesen beiden Schritten können wir nun den Pearson-Koeffizienten berechnen! Wenn wir bekommen:
- +1 → perfekte constructive Beziehung.
- 0 → kein linearer Zusammenhang.
- -1 → perfekte detrimental Beziehung.
Dieser Code misst einfach, wie konsistent sich diese beiden Variablen zusammen bewegen – nicht wie groß sie sind, sondern wie intestine sie aufeinander abgestimmt sind.
Wie unterschiedliche Zusammenhänge aussehen

- Hyperlinks: starke constructive Korrelation → klares Aufwärtsmuster
- Mitte: keine Korrelation → zufällige Streuung
- Rechts: starke detrimental Korrelation → Abwärtsmuster
Die Korrelation misst die Konsistenz der Bewegung und nicht nur, ob zwei Variablen zusammenhängen.
Was Ihnen die Korrelation tatsächlich sagt
Die Korrelation sagt Ihnen: Diese Variablen bewegen sich auf strukturierte Weise zusammen. Es zeigt uns, dass es hier ein Muster gibt, auf das wir achten müssen.
Aber es sagt Ihnen NICHT, warum oder wie sie wirken oder ob das eine das andere verursacht.
Das klassische Beispiel für Korrelation ist, dass Eisverkäufe und Ertrinkungsvorfälle miteinander korrelieren.
Tatsächlich können wir die Anzahl der Eisverkäufe und Ertrinkungsvorfälle grafisch darstellen, um Folgendes zu erhalten:

Wir können eine klare Aufwärtsbeziehung zwischen diesen beiden Variablen erkennen. Führen mehr Eisverkäufe zu mehr Ertrinkungen?
Aber das ist irreführend. Denn der eigentliche Treiber ist die Temperatur: Heißes Wetter bedeutet mehr Eisverkäufe, mehr Menschen, die an den Strand gehen, und mehr Schwimmen.
Obwohl wir additionally klar erkennen können, dass die Korrelation actual ist, bleibt die Erklärung verborgen.
Korrelation und Nichtlinearität
Betrachten Sie nun diese Beziehung:
y = x²

Dies ist eindeutig eine starke Beziehung, denn wenn x zunimmt oder abnimmt, nimmt y zu! Aber wenn Sie die Korrelation berechnen:
np.corrcoef(x, y)(0,1)
Sie erhalten einen Wert nahe 0.
Das liegt daran, dass die Korrelation nur misst: Wie intestine eine gerade Linie zur Beziehung passt. Dies ist eine entscheidende Einschränkung. Wenn die Beziehung gekrümmt ist, kann die Korrelation fehlschlagen, selbst wenn eine starke Beziehung besteht.
Anstatt additionally zu denken: „Korrelation = Beziehung“, ist es besser zu denken: „Korrelation = wie intestine eine gerade Linie die Beziehung erklärt.“
Das Missverständnis
Die Unbestimmtheit des Konzepts der Korrelation und der Artwork und Weise, wie es uns beigebracht wird, führt zu einigen Missverständnissen. Drei sehr häufige sind:
- Annahme einer Kausalität: Nur weil sich zwei Variablen gemeinsam bewegen, heißt das nicht, dass die eine die andere verursacht.
- Versteckte Variablen ignorieren: Möglicherweise gibt es einen dritten Faktor, der beides antreibt.
- Fehlende nichtlineare Beziehungen: Die Korrelation erkennt nur geradlinige Muster.
Sie fragen sich jetzt: Wenn Korrelation ein sehr einfacher Begriff ist, der uns nicht viel sagt, warum ist er dann trotzdem wichtig?
Weil es als erstes Sign unglaublich nützlich ist. Es sagt Ihnen:
„Hier könnte etwas Interessantes passieren.“
Von dort aus untersuchen Sie weiter. Korrelation misst die Ausrichtung; Weitere Untersuchungen liefern eine Erklärung.
Letzter Imbiss
„Korrelation bedeutet keine Kausalität.“ Das ist wahr. Aber hier liegt das Downside: Die Leute hören das und denken: „Korrelation ist bedeutungslos.“ Das stimmt nicht!
Korrelation misst, wie sich Variablen zusammen bewegen; Es reicht von -1 bis 1 und erfasst lineare Beziehungen, impliziert jedoch KEINE Kausalität.
Korrelation ist nicht irreführend. Wir erwarten einfach zu viel von ihm, wenn es nicht darum geht, die Welt zu erklären. Es ist nur ein Sign, das anzeigt:
„Hey… das sieht interessant aus.“
Jetzt beginnt die eigentliche Arbeit, indem wir untersuchen, warum das wirklich interessant ist.
