Der „Adventskalender“ für maschinelles Lernen, Tag 12: Logistische Regression in Excel

Das heutige Modell ist die logistische Regression.

Wenn Sie dieses Modell bereits kennen, hier eine Frage an Sie:

Ist die logistische Regression a Regressor oder ein Klassifikator?

Nun, diese Frage ist genau so: Ist eine Tomate a? Obst oder ein Gemüse?

Aus botanischer Sicht ist eine Tomate eine Frucht, denn sie betrachtet die Struktur: Samen, Blüten, Pflanzenbiologie.

Aus der Sicht eines Kochs ist eine Tomate ein Gemüse, denn sie achten auf den Geschmack, darauf, wie sie in einem Rezept verwendet wird, ob sie in einen Salat oder ein Dessert passt.

Das gleiche Objekt, zwei gültige Antworten, weil das Standpunkt ist anders.

Die logistische Regression ist genau so.

Im Sstatistisch / GLM Perspektivisch handelt es sich um einen Rückschritt. Und das Konzept der „Klassifizierung“ gibt es in diesem Rahmen sowieso nicht. Es gibt Gamma-Regression, logistische Regression, Poisson-Regression …
Im maschinelles Lernen Perspektive dient es zur Klassifizierung. Es handelt sich additionally um einen Klassifikator.

Wir werden später darauf zurückkommen.

Im Second ist eines sicher:

Die logistische Regression ist sehr intestine geeignet, wenn die Zielvariable ist binärund normalerweise y ist codiert als 0 oder 1.

Aber…

Was ist ein Klassifikator für ein gewichtsbasiertes Modell?

Additionally kann y 0 oder 1 sein.

0 oder 1, das sind Zahlen, oder?

Wir können y additionally einfach als stetig betrachten!

Ja, y = ax + b, mit y = 0 oder 1.

Warum nicht?

Nun fragen Sie sich vielleicht: Warum gerade jetzt diese Frage? Warum wurde nicht vorher gefragt?

Nun, für distanzbasierte und baumbasierte Modelle ist ein kategorisches y wirklich kategorisch.

Wenn y kategorisch ist, z Rot, Blau, Grünoder einfach 0 Und 1:

In Ok-NNklassifizieren Sie durch Anschauen Nachbarn jeder Klasse.
In Schwerpunktmodellevergleichst du mit dem Schwerpunkt jeder Klasse.
In einem Entscheidungsbaumberechnen Sie Klassenverhältnisse an jedem Knoten.

Bei all diesen Modellen:

Klassenbezeichnungen sind keine Zahlen.
Es sind Kategorien.
Die Algorithmen behandeln sie niemals als Werte.

Die Klassifizierung ist additionally natürlich und unmittelbar.

Bei gewichtsbasierten Modellen sieht es jedoch anders aus.

In einem gewichtsbasierten Modell berechnen wir immer etwas wie:

y = Axt + B

oder später eine komplexere Funktion mit Koeffizienten.

Das heisst:

Das Modell funktioniert überall mit Zahlen.

Hier additionally die Schlüsselidee:

Wenn das Modell eine Regression durchführt, kann dasselbe Modell für die binäre Klassifizierung verwendet werden.

Ja, wir können die lineare Regression für die binäre Klassifizierung verwenden!

Da binäre Etiketten sind 0 Und 1sie sind bereits numerisch.

Und in diesem speziellen Fall: wir kann Peculiar Least Squares (OLS) direkt auf y = 0 und y = 1 anwenden.

Das Modell passt auf eine Linie und wir können dieselbe geschlossene Formel verwenden, wie wir unten sehen können.

Logistische Regression in Excel – alle Bilder nach Autor

Wir können den gleichen Gradientenabstieg durchführen und es wird perfekt funktionieren:

Und um dann die endgültige Klassenvorhersage zu erhalten, wählen wir einfach a Schwelle.
Normalerweise liegt er bei 0,5 (oder 50 Prozent), aber je nachdem, wie streng Sie sein möchten, können Sie einen anderen Wert wählen.

Wenn das vorhergesagte y≥0,5, sagen Sie Klasse 1 voraus
Ansonsten Klasse 0

Dies ist ein Klassifikator.

Und da das Modell eine numerische Ausgabe erzeugt, können wir sogar den Punkt identifizieren, an dem: y=0,5.

Dieser Wert von x definiert die Entscheidungsgrenze.

Im vorherigen Beispiel geschieht dies bei x=9.
An dieser Schwelle haben wir bereits gesehen eine Fehlklassifizierung.

Ein Drawback tritt jedoch auf, sobald wir einen Punkt mit a einführen groß Wert von x.

Angenommen, wir fügen einen Punkt hinzu mit: x= 50 und y = 1.

Weil die lineare Regression versucht, a anzupassen Gerade Durch alle Daten zieht dieser einzelne große Wert von x die Linie nach oben.
Die Entscheidungsgrenze verschiebt sich von x= auf ungefähr x=12.

Und jetzt, mit dieser neuen Grenze, haben wir es geschafft zwei Fehlklassifizierungen.

Dies verdeutlicht das Hauptproblem:

Eine als Klassifikator verwendete lineare Regression reagiert äußerst empfindlich auf Extremwerte von x. Die Entscheidungsgrenze verschiebt sich dramatisch und die Klassifizierung wird instabil.

Dies ist einer der Gründe, warum wir ein Modell brauchen, das sich nicht ewig linear verhält. Ein Modell, das zwischen 0 und 1 bleibt, auch wenn x sehr groß wird.

Und genau das wird uns die Logistikfunktion bieten.

So funktioniert die logistische Regression

Wir beginnen mit: ax + b, genau wie die lineare Regression.

Dann wenden wir eine Funktion namens Sigmoid oder Logistikfunktion an.

Wie wir im Screenshot unten sehen können, liegt der Wert von p dann zwischen 0 und 1, additionally ist das perfekt.

p(x) ist das vorhergesagte Wahrscheinlichkeit Das y = 1
1 − p(x) ist die vorhergesagte Wahrscheinlichkeit dafür y = 0

Zur Einordnung können wir einfach sagen:

Wenn p(x) ≥ 0.5Klasse vorhersagen 1
Andernfalls sagen Sie die Klasse voraus 0

Von der Wahrscheinlichkeit bis zum Protokollverlust

Nun versucht die lineare OLS-Regression, den MSE (Imply Squared Error) zu minimieren.

Die logistische Regression für ein binäres Ziel verwendet die Bernoulli-Wahrscheinlichkeit. Für jede Beobachtung i:

Wenn yᵢ = 1die Wahrscheinlichkeit des Datenpunkts ist pᵢ
Wenn yᵢ = 0die Wahrscheinlichkeit des Datenpunkts ist 1 − pᵢ

Für den gesamten Datensatz ist die Wahrscheinlichkeit das Produkt insgesamt i. In der Praxis verwenden wir den Logarithmus, der das Produkt in eine Summe umwandelt.

Im GLM-Perspektivewir versuchen es maximieren diese Log-Wahrscheinlichkeit.

Im Perspektive des maschinellen Lernenswir definieren die Verlust als die Negativ Log-Wahrscheinlichkeit und wir minimieren Es. Das ergibt das Übliche Protokollverlust.

Und es ist gleichwertig. Wir werden die Demonstration hier nicht durchführen

Gradientenabstieg für die logistische Regression

Prinzip

Genau wie bei der linearen Regression können wir auch verwenden Gefälleabstieg Hier. Die Idee ist immer die gleiche:

Beginnen Sie mit einigen Anfangswerten von a Und b.
Berechnen Sie den Verlust und seine Folgen Gradient (Derivate) in Bezug auf a Und b.
Bewegen a Und b ein bisschen in die Richtung reduziert der Verlust.
Wiederholen.

Nichts Geheimnisvolles.
Genau der gleiche mechanische Vorgang wie zuvor.

Schritt 1. Gradientenberechnung

Für die logistische Regression sind die Gradienten der durchschnittlicher Protokollverlust folgen einer sehr einfachen Struktur.

Das ist einfach das durchschnittlicher Relaxation.

Wir geben unten nur das Ergebnis für die Formel an, die wir in Excel implementieren können. Wie Sie sehen, ist es am Ende ganz einfach, auch wenn die Log-Loss-Formel auf den ersten Blick komplex sein kann.

Excel kann diese beiden Größen problemlos berechnen SUMPRODUCT Formeln.

Schritt 2. Parameteraktualisierung

Sobald die Steigungen bekannt sind, aktualisieren wir die Parameter.

Dieser Aktualisierungsschritt wird bei jeder Iteration wiederholt.
Und von Iteration zu Iteration nimmt der Verlust ab und die Parameter nähern sich den optimalen Werten an.

Jetzt haben wir das Gesamtbild.
Sie haben das Modell, den Verlust, die Verläufe und die Parameteraktualisierungen gesehen.
Und mit der detaillierten Ansicht jeder Iteration in Excel ist das tatsächlich möglich Spielen Sie mit dem Modell: Ändern Sie einen Wert, beobachten Sie die Bewegung der Kurve und sehen Sie, wie der Verlust Schritt für Schritt abnimmt.

Es ist überraschend befriedigend zu beobachten, wie alles so klar zusammenpasst.

Was ist mit der Klassifizierung mehrerer Klassen?

Für distanzbasierte und baumbasierte Modelle:

Überhaupt kein Drawback.
Sie verarbeiten natürlich mehrere Klassen, da sie die Beschriftungen niemals als Zahlen interpretieren.

Aber für gewichtsbasierte Modelle?

Hier sind wir auf ein Drawback gestoßen.

Wenn wir Zahlen für die Klasse schreiben: 1, 2, 3 usw.

Dann interpretiert das Modell diese Zahlen als reelle Zahlenwerte.
Was zu Problemen führt:

Das Modell geht davon aus, dass Klasse 3 „größer“ ist als Klasse 1
Der Mittelpunkt zwischen Klasse 1 und Klasse 3 ist Klasse 2
Abstände zwischen den Klassen werden sinnvoll

Aber nichts davon trifft auf die Klassifizierung zu.

Additionally:

Für gewichtsbasierte Modelle können wir nicht einfach y = 1, 2, 3 für die Klassifizierung mehrerer Klassen verwenden.

Diese Kodierung ist falsch.

Wir werden später sehen, wie wir das beheben können.

Abschluss

Ausgehend von einem einfachen binären Datensatz haben wir gesehen, wie ein gewichtsbasiertes Modell als Klassifikator fungieren kann, warum die lineare Regression schnell an ihre Grenzen stößt und wie die logistische Funktion diese Probleme löst, indem sie Vorhersagen zwischen 0 und 1 hält.

Indem wir das Modell dann durch Wahrscheinlichkeit und Log-Loss ausdrückten, erhielten wir eine Formulierung, die sowohl mathematisch fundiert als auch einfach zu implementieren ist.
Und sobald alles in Excel platziert ist, wird der gesamte Lernprozess sichtbar: die Wahrscheinlichkeiten, der Verlust, die Verläufe, die Aktualisierungen und schließlich die Konvergenz der Parameter.

Mit der detaillierten Iterationstabelle können Sie tatsächlich sehen wie sich das Modell Schritt für Schritt verbessert.
Sie können einen Wert ändern, die Lernrate anpassen oder einen Punkt hinzufügen und sofort beobachten, wie die Kurve und der Verlust reagieren.
Das ist der wahre Wert des maschinellen Lernens in einer Tabellenkalkulation: Nichts wird verborgen und jede Berechnung ist clear.

Indem Sie die logistische Regression auf diese Weise aufbauen, verstehen Sie nicht nur das Modell, Sie verstehen es Warum es ist trainiert.
Und diese Instinct wird Ihnen erhalten bleiben, wenn wir später im Adventskalender zu fortgeschritteneren Modellen übergehen.

Der „Adventskalender“ für maschinelles Lernen, Tag 12: Logistische Regression in Excel

Was ist ein Klassifikator für ein gewichtsbasiertes Modell?

So funktioniert die logistische Regression

Von der Wahrscheinlichkeit bis zum Protokollverlust