Der „Adventskalender“ für maschinelles Lernen, Tag 13: LASSO und Ridge-Regression in Excel

Eines Tages sagte ein Datenwissenschaftler, dass die Ridge-Regression ein kompliziertes Modell sei. Weil er sah, dass die Trainingsformel komplizierter ist.

Nun ja, genau das ist mein Ziel Maschinelles Lernen „Adventskalender“um diese Artwork von Komplexität zu verdeutlichen.

Wir werden additionally über bestrafte Versionen der linearen Regression sprechen.

Zuerst werden wir sehen, warum die Regularisierung oder Bestrafung notwendig ist, und wir werden sehen, wie das Modell modifiziert wird
Anschließend werden wir verschiedene Arten der Regularisierung und ihre Auswirkungen untersuchen.
Wir werden das Modell auch mit Regularisierung trainieren und verschiedene Hyperparameter testen.
Wir werden auch eine weitere Frage dazu stellen, wie die Gewichte im Strafzeitraum zu gewichten sind. (verwirrt? Du wirst sehen)

Lineare Regression und ihre „Bedingungen“

Wenn wir über lineare Regression sprechen, wird oft erwähnt, dass einige Bedingungen erfüllt sein sollten.

Vielleicht haben Sie schon einmal Aussagen gehört wie:

Die Residuen sollten Gauß-förmig sein (manchmal wird dies mit dem Ziel verwechselt, das Gauß-förmig ist, was falsch ist).
Die erklärenden Variablen sollten nicht kollinear sein

In der klassischen Statistik sind diese Bedingungen für die Schlussfolgerung erforderlich. Beim maschinellen Lernen liegt der Schwerpunkt auf der Vorhersage, sodass diese Annahmen weniger zentral sind, die zugrunde liegenden Probleme jedoch weiterhin bestehen.

Hier sehen wir ein Beispiel für die Kollinearität zweier Merkmale und machen sie völlig gleich.

Und wir haben die Beziehung: y = x1 + x2 und x1 = x2

Ich weiß, wenn sie völlig gleich sind, können wir einfach Folgendes tun: y=2*x1. Die Idee dahinter ist aber, dass sie sehr ähnlich sein können und wir daraus immer ein Modell erstellen können, oder?

Was ist dann das Drawback?

Wenn Merkmale perfekt kollinear sind, ist die Lösung nicht eindeutig. Hier ist ein Beispiel im Screenshot unten.

y = 10000*x1 – 9998*x2

Ridge und Lasso in Excel – alle Bilder vom Autor

Und wir können feststellen, dass die Norm der Koeffizienten riesig ist.

Die Idee besteht additionally darin, die Norm der Koeffizienten zu begrenzen.

Und nach Anwendung der Regularisierung ist das konzeptionelle Modell dasselbe!

Das ist richtig. Die Parameter der linearen Regression werden geändert. Aber das Modell ist das gleiche.

Verschiedene Versionen der Regularisierung

Die Idee besteht additionally darin, den MSE und die Norm der Koeffizienten zu kombinieren.

Anstatt nur den MSE zu minimieren, versuchen wir, die Summe der beiden Terme zu minimieren.

Welche Norm? Wir können mit den Normen L1 und L2 arbeiten oder sie sogar kombinieren.

Dafür gibt es drei klassische Möglichkeiten und die entsprechenden Modellnamen.

Ridge-Regression (L2-Strafe)

Die Ridge-Regression fügt eine Strafe hinzu quadrierte Werte der Koeffizienten.

Intuitiv:

Große Koeffizienten werden stark bestraft (aufgrund des Quadrats)
Koeffizienten werden gegen Null gedrückt
aber sie werden nie genau Null

Wirkung:

Alle Funktionen bleiben im Modell erhalten
Die Koeffizienten sind glatter und stabiler
sehr wirksam gegen Kollinearität

Grat schrumpftwählt aber nicht aus.

Ridge-Regression in Excel – Alle Bilder nach Autor

Lasso-Regression (L1-Strafe)

Lasso nutzt einen anderen Elfmeter: den absoluter Wert der Koeffizienten.

Diese kleine Änderung hat eine große Konsequenz.

Mit Lasso:

einige Koeffizienten können werden genau Null
Das Modell ignoriert automatisch einige Funktionen

Deshalb wird LASSO so genannt, denn es steht für Geringster absoluter Schrumpfungs- und Auswahloperator.

Operator: Es bezieht sich auf den zur Verlustfunktion hinzugefügten Regularisierungsoperator
Am wenigsten: Es wird aus einem Regressionsrahmen der kleinsten Quadrate abgeleitet
Absolute: Es wird der Absolutwert der Koeffizienten verwendet (L1-Norm)
Schwindung: Es schrumpft die Koeffizienten gegen Null
Auswahl: Es kann einige Koeffizienten genau auf Null setzen und so eine Merkmalsauswahl durchführen

Wichtige Nuance:

Wir können sagen, dass das Modell immer noch die gleiche Anzahl von Koeffizienten hat
aber einige von ihnen werden während des Trainings gezwungen, auf Null zu gehen

Die Modellform bleibt unverändert, aber Lasso entfernt Options effektiv, indem es die Koeffizienten auf Null setzt.

3. Elastisches Netz (L1 + L2)

Elastic Internet ist ein Kombination von Ridge und Lasso.

Es verwendet:

eine L1-Strafe (wie Lasso)
und eine L2-Strafe (wie Ridge)

Warum sie kombinieren?

Weil:

Lasso kann instabil sein, wenn Options stark korreliert sind
Ridge handhabt Kollinearität intestine, wählt jedoch keine Options aus

Elastic Internet bietet ein Gleichgewicht zwischen:

Stabilität
Schwindung
spärlich

In realen Datensätzen ist dies oft die praktischste Wahl.

Was sich wirklich ändert: Modell, Ausbildung, Tuning

Betrachten wir dies aus der Sicht des maschinellen Lernens.

Das Modell ändert sich nicht wirklich

Für die ModellFür alle regulierten Versionen schreiben wir immer noch:

y =ax + b.

Gleiche Anzahl von Koeffizienten
Gleiche Vorhersageformel
Die Koeffizienten werden jedoch unterschiedlich sein.

Aus einer bestimmten Perspektive sind Ridge, Lasso und Elastic Internet dies keine unterschiedlichen Modelle.

Der Ausbildung Das Prinzip ist auch das gleiche

Wir weiterhin:

Definieren Sie eine Verlustfunktion
minimieren Sie es
Berechnen Sie Farbverläufe
Koeffizienten aktualisieren

Der einzige Unterschied ist:

Die Verlustfunktion enthält jetzt einen Strafterm

Das ist es.

Die Hyperparameter werden hinzugefügt (das ist der eigentliche Unterschied)

Bei der linearen Regression haben wir keine Kontrolle über die „Komplexität“ des Modells.

Standardmäßige lineare Regression: kein Hyperparameter
Grat: ein Hyperparameter (Lambda)
Lasso: ein Hyperparameter (Lambda)
Elastisches Netz: zwei Hyperparameter
- eine für die Gesamtstärke der Regularisierung
- eine, um L1 vs. L2 auszubalancieren

Additionally:

Die standardmäßige lineare Regression muss nicht angepasst werden
Bestrafte Regressionen tun dies

Aus diesem Grund wird die standardmäßige lineare Regression oft als „nicht wirklich maschinelles Lernen“ angesehen, während dies bei regulierten Versionen eindeutig der Fall ist.

Implementierung regulierter Farbverläufe

Wir behalten den Gradientenabstieg der OLS-Regression als Referenz bei und müssen für die Ridge-Regression nur den Regularisierungsterm für den Koeffizienten hinzufügen.

Wir werden einen einfachen Datensatz verwenden, den ich generiert habe (derselbe, den wir bereits für die lineare Regression verwendet haben).

Wir können sehen, dass sich die drei „Modelle“ hinsichtlich der Koeffizienten unterscheiden. Und das Ziel in diesem Kapitel besteht darin, den Gradienten für alle Modelle zu implementieren und sie zu vergleichen.

Ridge-Lasso-Regression in Excel – Alle Bilder nach Autor

Grat mit bestraftem Gefälle

Erstens können wir dies für Ridge tun, und wir müssen nur den Gradienten von a ändern.

Dies bedeutet jedoch nicht, dass sich der Wert b nicht ändert, da der Gradient von b bei jedem Schritt auch von a abhängt.

LASSO mit bestraftem Gefälle

Dann können wir dasselbe für LASSO tun.

Und der einzige Unterschied ist auch die Steigung von a.

Für jedes Modell können wir auch den MSE und den regulierten MSE berechnen. Es ist sehr befriedigend zu sehen, wie sie im Laufe der Iterationen abnehmen.

Vergleich der Koeffizienten

Jetzt können wir den Koeffizienten a für alle drei Modelle visualisieren. Um die Unterschiede zu erkennen, geben wir sehr große Lambdas ein.

Einfluss von Lambda

Für einen großen Lambda-Wert werden wir sehen, dass der Koeffizient a klein wird.

Und wenn Lambda LASSO extrem groß wird, dann erhalten wir theoretisch den Wert 0 für a. Numerisch müssen wir den Gradientenabstieg verbessern.

Regularisierte logistische Regression?

Wir haben gestern die logistische Regression gesehen und eine Frage, die wir stellen können, ist, ob sie auch reguliert werden kann. Wenn ja, wie heißen sie?

Die Antwort lautet natürlich: Ja, die logistische Regression kann reguliert werden

Es gilt genau die gleiche Idee.

Logistische Regression kann auch sein:

L1 bestraft
L2 bestraft
Elastic Internet bestraft

Es gibt keine besonderen Namen wie „Ridge Logistic Regression“ im allgemeinen Sprachgebrauch.

Warum?

Denn das Konzept ist nicht mehr neu.

In der Praxis können Sie in Bibliotheken wie scikit-learn einfach Folgendes angeben:

die Verlustfunktion
die Artwork der Strafe
die Regularisierungsstärke

Die Benennung battle wichtig, als die Idee neu battle.
Heutzutage ist die Regularisierung nur noch eine Standardoption.

Weitere Fragen, die wir stellen können:

Ist eine Regularisierung immer sinnvoll?
Wie wirkt sich die Skalierung von Options auf die Leistung der regulierten linearen Regression aus?

Abschluss

Ridge und Lasso ändern nicht das lineare Modell selbst, sondern die Artwork und Weise, wie die Koeffizienten gelernt werden. Durch das Hinzufügen einer Strafe begünstigt die Regularisierung stabile und sinnvolle Lösungen, insbesondere wenn Merkmale korreliert sind. Wenn man diesen Prozess Schritt für Schritt in Excel betrachtet, wird deutlich, dass diese Methoden nicht komplexer, sondern nur kontrollierter sind.

Der „Adventskalender“ für maschinelles Lernen, Tag 13: LASSO und Ridge-Regression in Excel

Lineare Regression und ihre „Bedingungen“