Um ein Regressionsmodell zu erstellen, das bedeutet, eine gerade Linie an die Daten anzupassen, um zukünftige Werte vorherzusagen, visualisieren wir zunächst unsere Daten, um eine Vorstellung davon zu bekommen, wie sie aussehen, und um die Muster und Beziehungen zu erkennen.

Die Daten scheinen eine constructive lineare Beziehung zu zeigen, aber wir bestätigen dies durch die Berechnung des Pearson-Korrelationskoeffizienten, der uns sagt, wie nah unsere Daten an der Linearität sind.

Betrachten wir ein einfaches Gehaltsdatensatz um den Pearson-Korrelationskoeffizienten zu verstehen.

Der Datensatz besteht aus zwei Spalten:

Jahre Erfahrung: die Anzahl der Jahre, in denen eine Particular person gearbeitet hat

Gehalt (Ziel): das entsprechende Jahresgehalt in US-Greenback

Jetzt müssen wir ein Modell erstellen, das das Gehalt auf der Grundlage jahrelanger Erfahrung vorhersagt.

Wir können verstehen, dass dies mit einem einfachen linearen Regressionsmodell möglich ist, da wir nur einen Prädiktor und eine kontinuierliche Zielvariable haben.

Aber können wir den einfachen linearen Regressionsalgorithmus einfach so direkt anwenden?

NEIN.

Wir haben mehrere Annahmen für die Anwendung der linearen Regression, und eine davon ist Linearität.

Wir müssen die Linearität überprüfen und dafür berechnen Korrelationskoeffizient.


Aber was ist Linearität?

Lassen Sie uns dies anhand eines Beispiels verstehen.

Bild vom Autor

Aus der obigen Tabelle können wir ersehen, dass für jede einjährige Steigerung der Berufserfahrung eine Gehaltserhöhung um 5.000 US-Greenback einhergeht.

Die Änderung ist konstant und wenn wir diese Werte grafisch darstellen, erhalten wir eine gerade Linie.

Diese Artwork von Beziehung wird als a bezeichnet lineare Beziehung.


Bei der einfachen linearen Regression wissen wir bereits, dass wir eine Regressionslinie an die Daten anpassen, um zukünftige Werte vorherzusagen, und dies kann nur dann effektiv sein, wenn die Daten eine lineare Beziehung aufweisen.

Daher müssen wir die Linearität unserer Daten überprüfen.

Berechnen wir dazu den Korrelationskoeffizienten.

Zuvor visualisieren wir die Daten zunächst mithilfe eines Streudiagramms, um eine Vorstellung von der Beziehung zwischen den beiden Variablen zu bekommen.

import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

# Load the dataset
df = pd.read_csv("C:/Salary_dataset.csv")

# Set plot fashion
sns.set(fashion="whitegrid")

# Create scatter plot
plt.determine(figsize=(8, 5))
sns.scatterplot(x='YearsExperience', y='Wage', information=df, colour='blue', s=60)

plt.title("Scatter Plot: Years of Expertise vs Wage")
plt.xlabel("Years of Expertise")
plt.ylabel("Wage (USD)")
plt.tight_layout()
plt.present()
Bild vom Autor

Aus dem Streudiagramm können wir Folgendes erkennen: jahrelange Erfahrung erhöht sich, Gehalt neigt auch dazu, zuzunehmen.

Obwohl die Punkte keine perfekte gerade Linie bilden, scheint die Beziehung so zu sein stark und linear.

Um dies zu bestätigen, berechnen wir nun die Pearson-Korrelationskoeffizient.

import pandas as pd

# Load the dataset
df = pd.read_csv("C:/Salary_dataset.csv")

# Calculate Pearson correlation
pearson_corr = df('YearsExperience').corr(df('Wage'), technique='pearson')

print(f"Pearson correlation coefficient: {pearson_corr:.4f}")

Der Pearson-Korrelationskoeffizient beträgt 0,9782.

Wir erhalten den Wert des Korrelationskoeffizienten zwischen -1 und +1.

Wenn es so ist…
nahe 1: starke constructive lineare Beziehung
nahe 0: keine lineare Beziehung
nahe -1: starke unfavorable lineare Beziehung

Hier haben wir einen Korrelationskoeffizientenwert von erhalten 0,9782was bedeutet, dass die Daten größtenteils a folgen geradliniges Musterund es gibt eine sehr starke constructive Beziehung zwischen den Variablen.

Daraus können wir das beobachten Eine einfache lineare Regression ist intestine geeignet zur Modellierung dieser Beziehung.


Aber wie berechnen wir diesen Pearson-Korrelationskoeffizienten?

Betrachten wir 10-Punkte-Beispieldaten aus unserem Datensatz.

Bild vom Autor

Berechnen wir nun den Pearson-Korrelationskoeffizienten.

Wenn sowohl X als auch Y gemeinsam zunehmen, spricht man von einer Korrelation positiv. Wenn andererseits einer zunimmt, während der andere abnimmt, besteht eine Korrelation Negativ.

Berechnen wir zunächst die Varianz für jede Variable.

Die Varianz hilft uns zu verstehen, wie weit die Werte vom Mittelwert abweichen.

Wir beginnen mit der Berechnung der Varianz für X (Jahre Erfahrung).
Dazu müssen wir zunächst die berechnen Mittelwert von X.

(
bar{X} = frac{1}{n} sum_{i=1}^{n} X_i
)

(
= frac{1,2 + 3,3 + 3,8 + 4,1 + 5,0 + 5,4 + 8,3 + 8,8 + 9,7 + 10,4}{10}
) (
= frac{70,0}{10}
) (
= 7,0
)

Als nächstes subtrahieren wir jeden Wert vom Mittelwert und quadrieren ihn dann, um die Detrimental auszugleichen.

Bild vom Autor

Wir haben die quadratischen Abweichungen jedes Werts vom Mittelwert berechnet.
Jetzt können wir die Varianz von ermitteln X indem der Durchschnitt dieser quadratischen Abweichungen gebildet wird.

(
textual content{Stichprobenvarianz von } X = frac{1}{n – 1} sum_{i=1}^{n} (X_i – bar{X})^2
)

(
= frac{33,64 + 13,69 + 10,24 + 8,41 + 4,00 + 2,56 + 1,69 + 3,24 + 7,29 + 11,56}{10 – 1}
) (
= frac{96,32}{9} ungefähr 10,70
)

Hier haben wir durch „n-1“ dividiert, da es sich um Stichprobendaten handelt und die Verwendung von „n-1“ uns die unverzerrte Schätzung der Varianz liefert.

Die Stichprobenvarianz von X beträgt 10.70was uns sagt, dass die Werte der Erfahrungsjahre im Durchschnitt bei 10,70 Quadrateinheiten weg vom Durchschnitt.

Da es sich bei der Varianz um einen quadrierten Wert handelt, ziehen wir die Quadratwurzel, um sie in derselben Einheit wie die Originaldaten zu interpretieren.

Das nennt man Standardabweichung.

(
s_X = sqrt{textual content{Stichprobenvarianz}} = sqrt{10,70} ungefähr 3,27
)

Die Standardabweichung von X beträgt 3.27was bedeutet, dass die Werte von „Jahre der Erfahrung“ etwa sinken 3,27 Jahre über oder unter dem Mittelwert.


Auf die gleiche Weise berechnen wir die Varianz und Standardabweichung von „Y“.

(
bar{Y} = frac{1}{n} sum_{i=1}^{n} Y_i
)

(
= frac{39344 + 64446 + 57190 + 56958 + 67939 + 83089 + 113813 + 109432 + 112636 + 122392}{10}
) (
= frac{827239}{10}
) (
= 82,!723,90
) (
textual content{Stichprobenvarianz von } Y = frac{1}{n – 1} sum (Y_i – bar{Y})^2
) (
= frac{7,!898,!632,!198,90}{9} = 877,!625,!799,88
) (
textual content{Standardabweichung von } Y textual content{ ist } s_Y = sqrt{877,!625,!799,88} approx 29,!624,75
)

Wir haben die Varianz und Standardabweichung von „X“ und „Y“ berechnet.

Der nächste Schritt besteht nun darin, die Kovarianz zwischen X und Y zu berechnen.

Wir haben bereits die Mittelwerte von X und Y sowie die Abweichungen der einzelnen Werte von ihren jeweiligen Mittelwerten.

Nun multiplizieren wir diese Abweichungen, um zu sehen, wie die beiden Variablen zusammen variieren.

Bild vom Autor

Indem wir diese Abweichungen multiplizieren, versuchen wir zu erfassen, wie sich X und Y gemeinsam bewegen.

Wenn sowohl X als auch Y über ihren Mittelwerten liegen, sind die Abweichungen positiv, was bedeutet, dass das Produkt positiv ist.

Wenn sowohl X als auch Y unter ihrem Mittelwert liegen, sind die Abweichungen negativ, aber da ein Negativ mal ein Negativ positiv ist, ist das Produkt positiv.

Liegt einer über dem Mittelwert und der andere darunter, ist das Produkt negativ.

Dieses Produkt sagt uns, ob sich die beiden Variablen tendenziell in der Richtung bewegen gleiche Richtung (beide steigend oder beide fallend) oder in entgegengesetzte Richtungen.

Aus der Summe des Produkts der Abweichungen berechnen wir nun die Stichprobenkovarianz.

(
textual content{Stichprobenkovarianz} = frac{1}{n – 1} sum_{i=1}^{n}(X_i – bar{X})(Y_i – bar{Y})
)

(
= frac{808771,5}{10 – 1}
) (
= frac{808771,5}{9} = 89,!863,5
)

Wir haben eine Stichprobenkovarianz von 89863,5 erhalten. Dies deutet darauf hin, dass mit zunehmender Erfahrung tendenziell auch das Gehalt steigt.

Die Größe der Kovarianz hängt jedoch von den Einheiten der Variablen (Jahre × Greenback) ab und ist daher nicht direkt interpretierbar.

Dieser Wert zeigt nur die Richtung an.

Nun dividieren wir die Kovarianz durch das Produkt der Standardabweichungen von X und Y.

Dies ergibt den Pearson-Korrelationskoeffizienten, der als normalisierte Model der Kovarianz bezeichnet werden kann.

Da die Standardabweichung von X die Einheit Jahre und Y die Einheit Greenback hat, ergibt ihre Multiplikation Jahre mal Greenback.

Diese Einheiten heben sich auf, wenn wir dividieren, was zum Pearson-Korrelationskoeffizienten führt, der keine Einheit hat.

Der Hauptgrund, warum wir die Kovarianz durch die Standardabweichungen dividieren, besteht jedoch darin, sie zu normalisieren, damit das Ergebnis einfacher zu interpretieren ist und über verschiedene Datensätze hinweg verglichen werden kann.

(
r = frac{textual content{Cov}(X, Y)}{s_X cdot s_Y}
= frac{89,!863,5}{3,27 instances 29,!624,75}
= frac{89,!863,5}{96,!992,13} ungefähr 0,9265
)

Der von uns berechnete Pearson-Korrelationskoeffizient (r) beträgt additionally 0,9265.

Das sagt uns, dass es eine gibt sehr starke constructive lineare Beziehung zwischen Berufserfahrung und Gehalt.

Auf diese Weise ermitteln wir den Pearson-Korrelationskoeffizienten.

Die Formel für den Pearson-Korrelationskoeffizienten lautet:

(
r = frac{textual content{Cov}(X, Y)}{s_X cdot s_Y}
= frac{frac{1}{n – 1} sum_{i=1}^{n} (X_i – bar{X})(Y_i – bar{Y})}
{sqrt{frac{1}{n – 1} sum_{i=1}^{n} (X_i – bar{X})^2} cdot sqrt{frac{1}{n – 1} sum_{i=1}^{n} (Y_i – bar{Y})^2}}
)

(
= frac{sum_{i=1}^{n} (X_i – bar{X})(Y_i – bar{Y})}
{sqrt{sum_{i=1}^{n} (X_i – bar{X})^2} cdot sqrt{sum_{i=1}^{n} (Y_i – bar{Y})^2}}
)


Wir müssen sicherstellen, dass bestimmte Bedingungen erfüllt sind, bevor wir den Pearson-Korrelationskoeffizienten berechnen:

  • Die Beziehung zwischen den Variablen sollte sein linear.
  • Beide Variablen sollten sein kontinuierlich Und numerisch.
  • Das sollte es geben keine starken Ausreißer.
  • Die Daten sollten sein normalverteilt.

Datensatz

Der in diesem Weblog verwendete Datensatz ist der Gehaltsdatensatz.

Es ist öffentlich auf Kaggle verfügbar und unterliegt der Lizenz Inventive Commons Zero (CC0 Public Area) Lizenz. Dies bedeutet, dass es für beide frei verwendet, geändert und geteilt werden kann nichtkommerzielle und kommerzielle Zwecke ohne Einschränkung.


Ich hoffe, dass Ihnen dies ein klares Verständnis davon vermittelt hat, wie der Pearson-Korrelationskoeffizient berechnet wird und wann er verwendet wird.

Danke fürs Lesen!

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert