Erklärt: Wie führt die L1 -Regularisierung die Funktionsauswahl durch?

ist der Prozess der Auswahl einer optimalen Untergruppe von Funktionen aus einem bestimmten Merkmalssatz; Eine optimale Merkmalsuntergruppe ist diejenige, die die Leistung des Modells für die angegebene Aufgabe maximiert.

Die Characteristic -Auswahl kann ein manueller oder eher expliziter Prozess sein, wenn er mit durchgeführt wird Filter- oder Wrapper -Methoden. In diesen Methoden werden die Merkmale iterativ hinzugefügt oder beseitigt, basierend auf dem Wert einer festen Maßnahme, die die Relevanz des Merkmals für die Vorhersage quantifiziert. Die Maßnahmen können Informationsgewinn, Varianz oder die Chi-Quadrat-Statistik sein, und der Algorithmus würde eine Entscheidung treffen, die Funktion unter Berücksichtigung eines festen Schwellenwerts für die Maßnahme zu akzeptieren/abzulehnen. Beachten Sie, dass diese Methoden nicht Teil der Modelltrainingsphase sind und zuvor durchgeführt werden.

Eingebettete Methoden Führen Sie die Characteristic-Auswahl implizit aus, ohne vordefinierte Auswahlkriterien zu verwenden und sie aus den Trainingsdaten selbst abzuleiten. Dieser Intrinsic -Characteristic -Auswahlprozess ist Teil der Modelltrainingsphase. Das Modell lernt, Merkmale auszuwählen und gleichzeitig relevante Vorhersagen zu treffen. In späteren Abschnitten werden wir die Rolle der Regularisierung bei der Durchführung dieser intrinsischen Merkmalsauswahl beschreiben.

Regularisierung und Modellkomplexität

Die Regularisierung ist der Prozess der Bestrafung der Komplexität des Modells, um eine Überanpassung zu vermeiden und eine Verallgemeinerung über die Aufgabe zu erreichen.

Hier ist die Komplexität des Modells analog zu seiner Kraft, sich an die Muster in den Trainingsdaten anzupassen. Angenommen ein einfaches Polynommodell in ‚X„Mit Grad“D„, Wenn wir den Abschluss erhöhen“D‚Aus dem Polynom erzielt das Modell eine größere Flexibilität, um Muster in den beobachteten Daten zu erfassen.

Überanpassung und Unteranpassung

Wenn wir versuchen, ein Polynommodell mit zu passen d = 2 Bei einer Reihe von Trainingsproben, die von einem kubischen Polynom mit etwas Rauschen abgeleitet wurden, kann das Modell die Verteilung der Proben nicht ausreichend erfassen. Dem Modell fehlt einfach das Flexibilität oder Komplexität modellieren die Daten aus einem Grad 3 (oder höherer Ordnung) Polynome. Ein solches Modell soll zu unter dem Match auf den Trainingsdaten.

Angenommen, wir haben jetzt ein Modell mit dem gleichen Beispiel D = 6. Mit einer erhöhten Komplexität sollte es für das Modell einfach sein, das ursprüngliche kubische Polynom zu schätzen, mit dem die Daten generiert wurden (z. B. das Festlegen der Koeffizienten aller Begriffe mit Exponenten> 3 bis 0). Wenn der Schulungsprozess nicht zum richtigen Zeitpunkt beendet wird, wird das Modell seine zusätzliche Flexibilität weiterhin nutzen, um den Fehler weiter zu reduzieren und auch in den verrückten Proben zu erfassen. Dies verringert den Trainingsfehler erheblich, aber das Modell jetzt Überfits Die Trainingsdaten. Das Rauschen ändert sich in der realen Einstellungen (oder in der Testphase) und jegliches auf der Vorhersage basierende Wissen stört, was zu einem hohen Testfehler führt.

Wie kann ich die optimale Modellkomplexität bestimmen?

In den praktischen Umgebungen haben wir wenig bis gar wenig Verständnis des Datengenerationsprozesses oder der tatsächlichen Verteilung der Daten. Es ist eine Herausforderung, das optimale Modell mit der richtigen Komplexität zu finden, so dass keine Unteranpassung oder Überanpassung auftritt.

Eine Technik könnte darin bestehen, mit einem ausreichend leistungsstarken Modell zu beginnen und dann die Komplexität durch die Auswahl der Merkmale zu verringern. Weniger die Merkmale, weniger ist die Komplexität des Modells.

Wie im vorherigen Abschnitt erläutert, kann die Characteristic -Auswahl explizit (Filter, Wrapper -Methoden) oder implizit sein. Redundante Merkmale, die unbedeutend related sind, sollten im Ermitteln des Werts der Antwortvariablen beseitigt werden, um das Modell zu vermeiden, das nicht korrelierte Muster in ihnen lernt. Die Regularisierung führt auch eine ähnliche Aufgabe durch. Wie sind die Regularisierungs- und Merkmalsauswahl verbunden, um ein gemeinsames Ziel der optimalen Modellkomplexität zu erreichen?

L1 -Regularisierung als Characteristic -Selector

Wenn wir mit unserem Polynommodell fortgesetzt werden, stellen wir es als Funktion F mit Eingängen dar XParameter θ und Grad DAnwesend

Für ein Polynommodell jede Leistung des Eingangs x_i kann als Merkmal angesehen werden, die einen Vektor der Kind bilden,

Wir definieren auch eine objektive Funktion, die zur Minimierung von uns zu den optimalen Parametern führt θ* und beinhaltet a Regularisierung Begriff bestraft die Komplexität des Modells.

Um die Minima dieser Funktion zu bestimmen, müssen wir alle kritischen Punkte analysieren, dh Punkte, an denen die Ableitung Null oder undefiniert ist.

Die partielle Ableitung der Parameter, die Parameter, θjkann geschrieben werden wie,

wo die Funktion sgn ist definiert als,

Notiz: Die Ableitung der absoluten Funktion unterscheidet sich von der oben definierten SGN -Funktion. Das ursprüngliche Derivat ist bei x = 0 undefiniert. Wir erweitern die Definition, um den Wendepunkt bei x = 0 zu entfernen und die Funktion über seine gesamte Domäne zu differenzieren. Darüber hinaus werden solche erweiterten Funktionen auch von ML -Frameworks verwendet, wenn die zugrunde liegende Berechnung die absolute Funktion beinhaltet. Überprüfen Sie das Faden Auf dem Pytorch Discussion board.

Durch Berechnen der partiellen Ableitung der objektiven Funktion einen einzelnen Parameter θj, und das Einstellen auf Null können wir eine Gleichung erstellen, die den optimalen Wert von bezieht θj mit den Vorhersagen, Zielen und Merkmalen.

Lassen Sie uns die obige Gleichung untersuchen. Wenn wir davon ausgehen, dass die Eingaben und Ziele um den Mittelwert zentriert waren (dh die Daten waren im Vorverarbeitungsschritt standardisiert), repräsentiert der Begriff auf dem LHS effektiv die Kovarianz zwischen dem jth Merkmal und der Unterschied zwischen den vorhergesagten und den Zielwerten.

Die statistische Kovarianz zwischen zwei Variablen quantifiziert, wie viel eine Variable den Wert der zweiten Variablen (und umgekehrt) beeinflusst

Die Vorzeichenfunktion auf der RHS erzwingt die Kovarianz auf dem LHS, nur drei Werte anzunehmen (da die Vorzeichenfunktion nur -1, 0 und 1 zurückgibt). Wenn der JTH Das Merkmal ist überflüssig und beeinflusst die Vorhersagen nicht. Die Kovarianz wird nahezu Null sein, was den entsprechenden Parameter bringt θj* zu Null. Dies führt dazu, dass die Funktion aus dem Modell beseitigt wird.

Stellen Sie sich die Schildfunktion als einen von einem Fluss geschnitzten Canyon vor. Sie können in den Canyon (dh das Flussbett) gehen, aber um herauszukommen, haben Sie diese riesigen Barrieren oder steilen Hänge. Die L1 -Regularisierung induziert einen ähnlichen „Schwellenwert“ -Effekt für den Gradienten der Verlustfunktion. Der Gradient muss stark genug sein, um die Barrieren zu brechen oder Null zu werden, was den Parameter schließlich auf Null bringt.

Betrachten Sie für ein geerdetes Beispiel einen Datensatz, der Stichproben enthält, die von einer geraden Linie abgeleitet wurden (parametrisiert durch zwei Koeffizienten) mit einigen zusätzlichen Rauschen. Das optimale Modell sollte nicht mehr als zwei Parameter haben, sonst passt es sich an das in den Daten vorhandene Rauschen (mit der zusätzlichen Freiheit/Leistung für das Polynom). Das Ändern der Parameter der höheren Leistungen im Polynommodell beeinflusst keinen Einfluss auf die Differenz zwischen den Zielen und den Vorhersagen des Modells, wodurch ihre Kovarianz mit dem Merkmal verringert wird.

Während des Schulungsprozesses wird ein konstanter Schritt vom Gradienten der Verlustfunktion hinzugefügt/subtrahiert. Wenn der Gradient der Verlustfunktion (MSE) kleiner als der konstante Schritt ist, reicht der Parameter schließlich zu einem Wert von 0. Beobachten Sie die folgende Gleichung und zeigt, wie Parameter mit Gradientenabstieg aktualisiert werden.

Wenn der blaue Teil oben kleiner als λαwas selbst eine sehr kleine Zahl ist, Δθj ist der quick konstante Schritt λα. Das Zeichen dieses Schritts (roter Teil) hängt davon ab SGN (θj)dessen Ausgabe davon abhängt θj. Wenn θj ist positiv, dh größer als εAnwesend SGN (θj) gleich 1, daher machen Δθj ca. gleich – –λα schieben es in Richtung Null.

Um den konstanten Schritt (roter Teil) zu unterdrücken, der den Parameter Null macht, muss der Gradient der Verlustfunktion (blauer Teil) größer sein als die Schrittgröße. Bei einem größeren Verlustfunktionsgradienten muss der Wert des Merkmals die Ausgabe des Modells erheblich beeinflussen.

Auf diese Weise wird ein Merkmal beseitigt oder genauer sein entsprechender Parameter, dessen Wert nicht mit der Ausgabe des Modells korreliert, durch L1-Regularisierung während des Trainings Null.

Weitere Lektüre und Schlussfolgerung

Um mehr Einblicke in das Thema zu erhalten, habe ich eine Frage zu R/Machinelearning Subreddit und dem resultierenden veröffentlicht Faden Enthält verschiedene Erklärungen, die Sie möglicherweise lesen möchten.

Madiyar Aitbayev hat auch eine Interessanter Weblog die gleiche Frage abdecken, aber mit einer geometrischen Erklärung.

Brian Kengs Weblog erklärt die Regularisierung aus probabilistischer Sicht.

Das Faden auf Crossvalidated erklärt, warum L1 -Norm spärliche Modelle fördert. Ein detailliert Weblog Von Mukul Ranjan erklärt, warum die L1 -Norm die Parameter zu Null und nicht zur L2 -Norm fördert.

„L1 -Regularisierung führt die Characteristic -Auswahl aus“ ist eine einfache Aussage, mit der die meisten ML -Lernenden zustimmen, ohne tief in die interne Funktionsweise zu tauchen. Dieser Weblog ist ein Versuch, den Lesern mein Verständnis und mein mentales Modell zu verleihen, um die Frage auf intuitive Weise zu beantworten. Für Vorschläge und Zweifel finden Sie meine E -Mail in meinem Webseite. Lernen Sie weiter und haben Sie einen schönen Tag voraus!