Vollständige Erklärung zur linearen Regression und wie sie lernt

Die Kranichhaltung. Public Area-Bild von Openverse

So wie Herr Miyagi dem jungen Daniel LaRusso Karate durch sich wiederholende einfache Aufgaben beibrachte, die ihn schließlich in das Karate Child verwandelten, legt die Beherrschung grundlegender Algorithmen wie der linearen Regression den Grundstein für das Verständnis der komplexesten KI-Architekturen wie Deep Neural Networks und LLMs.

Durch diesen tiefen Einblick in die einfache, aber leistungsstarke lineare Regression lernen Sie viele der grundlegenden Teile kennen, die die fortschrittlichsten Modelle ausmachen, die heute von Milliardenunternehmen entwickelt werden.

Die lineare Regression ist eine einfache mathematische Methode, mit der die Beziehung zwischen zwei Variablen verstanden und Vorhersagen getroffen werden können. Bei einigen Datenpunkten, wie dem folgenden, versucht die lineare Regression, die zu zeichnen Linie der besten Passform durch diese Punkte. Es ist das „Wachs an, Wachs weg“ der Datenwissenschaft.

Ein Bild, das viele Punkte in einem Diagramm zeigt, die durch lineare Regression modelliert werden, indem die Linie der besten Anpassung durch diese Punkte verfolgt wird
Beispiel eines linearen Regressionsmodells in einem Diagramm. Vom Autor aufgenommenes Bild

Sobald diese Linie gezogen ist, verfügen wir über ein Modell, mit dem wir neue Werte vorhersagen können. Im obigen Beispiel könnten wir bei einer gegebenen neuen Hausgröße versuchen, den Preis mit dem linearen Regressionsmodell vorherzusagen.

Die lineare Regressionsformel

Die Formel der linearen Regression
Beschriftete lineare Regressionsformel. Vom Autor aufgenommenes Bild

Y ist die abhängige Variable, additionally das, was Sie berechnen möchten – der Hauspreis im vorherigen Beispiel. Sein Wert hängt von anderen Variablen ab, daher der Title.

X sind die unabhängigen Variablen. Dies sind die Faktoren, die den Wert von beeinflussen Y. Bei der Modellierung sind die unabhängigen Variablen die Eingaben für das Modell, und das, was das Modell ausspuckt, ist die Vorhersage oder Ŷ.

β sind Parameter. Den Namen Parameter geben wir den Werten, die das Modell anpasst (oder lernt), um die Beziehung zwischen den unabhängigen Variablen zu erfassen X und die abhängige Variable Y. Während das Modell trainiert wird, bleibt die Eingabe des Modells dieselbe, die Parameter werden jedoch angepasst, um die gewünschte Ausgabe besser vorherzusagen.

Parameterlernen

Wir benötigen einige Dinge, um die Parameter anpassen und genaue Vorhersagen erzielen zu können.

  1. Trainingsdaten – diese Daten bestehen aus Eingabe- und Ausgabepaaren. Die Eingaben werden in das Modell eingespeist und während des Trainings werden die Parameter angepasst, um zu versuchen, den Zielwert auszugeben.
  2. Die Kostenfunktion – auch Verlustfunktion genannt – ist eine mathematische Funktion, die misst, wie intestine die Vorhersage eines Modells mit dem Zielwert übereinstimmt.
  3. Trainingsalgorithmus – ist eine Methode, mit der die Parameter des Modells angepasst werden, um den durch die Kostenfunktion gemessenen Fehler zu minimieren.

Sehen wir uns eine Kostenfunktion und einen Trainingsalgorithmus an, die in der linearen Regression verwendet werden können.

MSE ist eine häufig verwendete Kostenfunktion bei Regressionsproblemen, bei denen das Ziel darin besteht, einen kontinuierlichen Wert vorherzusagen. Dies unterscheidet sich von Klassifizierungsaufgaben, beispielsweise der Vorhersage des nächsten Tokens in einem Vokabular, wie in großen Sprachmodellen. MSE konzentriert sich auf numerische Unterschiede und wird bei einer Vielzahl von Regressions- und neuronalen Netzwerkproblemen verwendet. So berechnen Sie es:

Die Formel des mittleren quadratischen Fehlers (mse)
Formel für den mittleren quadratischen Fehler (MSE). Vom Autor aufgenommenes Bild
  1. Berechnen Sie die Differenz zwischen dem vorhergesagten Wert, Ŷund der Zielwert, Y.
  2. Quadrieren Sie diesen Unterschied – stellen Sie sicher, dass alle Fehler positiv sind, und bestrafen Sie große Fehler stärker.
  3. Summieren Sie die quadrierten Differenzen für alle Datenproben
  4. Teilen Sie die Summe durch die Anzahl der Proben, Num den durchschnittlichen quadratischen Fehler zu erhalten

Sie werden feststellen, dass der MSE kleiner wird, je näher unsere Vorhersage dem Zielwert kommt, und dass er umso größer wird, je weiter er davon entfernt ist. Beide Wege verlaufen quadratisch, da die Differenz quadriert wird.

Das Konzept des Gradientenabstiegs besteht darin, dass wir uns in kleinen Schritten durch den „Kostenraum“ bewegen können, mit dem Ziel, das globale Minimal zu erreichen – den niedrigsten Wert im Raum. Die Kostenfunktion bewertet, wie intestine die aktuellen Modellparameter das Ziel vorhersagen, indem sie uns den Verlustwert liefert. Eine zufällige Änderung der Parameter garantiert keine Verbesserungen. Wenn wir jedoch den Gradienten der Verlustfunktion in Bezug auf jeden Parameter untersuchen, d. h. die Richtung des Verlusts nach einer Aktualisierung des Parameters, können wir die Parameter so anpassen, dass sie sich in Richtung eines geringeren Verlusts bewegen, was darauf hindeutet, dass sich unsere Vorhersagen annähern die Zielwerte.

Beschriftetes Diagramm, das die Schlüsselkonzepte des Gradientenabstiegsalgorithmus zeigt. Das lokale und globale Minimum, die Lernrate und wie sie die Position in Richtung niedrigerer Kosten vorantreibt
Beschriftetes Diagramm, das die Schlüsselkonzepte des Gradientenabstiegsalgorithmus zeigt. Vom Autor aufgenommenes Bild

Die Stufen beim Gefälleabstieg müssen sorgfältig dimensioniert werden, um Fortschritt und Präzision in Einklang zu bringen. Bei zu großen Schritten besteht die Gefahr, dass wir über das globale Minimal hinausschießen und es ganz verfehlen. Sind die Schritte hingegen zu klein, werden die Aktualisierungen ineffizient und zeitaufwändig, wodurch die Wahrscheinlichkeit steigt, dass man in einem lokalen Minimal stecken bleibt, anstatt das gewünschte globale Minimal zu erreichen.

Gradientenabstiegsformel

Beschriftete Gradientenabstiegsformel
Beschriftete Gradientenabstiegsformel. Vom Autor aufgenommenes Bild

Im Kontext der linearen Regression könnte θ sein β0 oder β1. Der Gradient ist die partielle Ableitung der Kostenfunktion nach θ, oder einfacher ausgedrückt, er ist ein Maß dafür, wie stark sich die Kostenfunktion ändert, wenn der Parameter θ leicht angepasst wird.

Ein großer Gradient zeigt an, dass der Parameter einen signifikanten Einfluss auf die Kostenfunktion hat, während ein kleiner Gradient auf einen geringen Effekt hindeutet. Das Vorzeichen des Gradienten gibt die Richtung der Änderung der Kostenfunktion an. Ein negativer Gradient bedeutet, dass die Kostenfunktion mit zunehmendem Parameter abnimmt, während ein positiver Gradient bedeutet, dass sie zunimmt.

Was passiert additionally mit dem Parameter, wenn ein großer negativer Gradient vorliegt? Nun, das adverse Vorzeichen vor der Lernrate wird mit dem negativen Vorzeichen des Gradienten aufgehoben, was zu einer Addition des Parameters führt. Und da der Farbverlauf groß ist, werden wir eine große Zahl hinzufügen. Daher wird der Parameter erheblich angepasst, um seinen größeren Einfluss auf die Reduzierung der Kostenfunktion widerzuspiegeln.

Werfen wir einen Blick auf die Preise der Schwämme, mit denen Karate Child Mr. Miyagis Auto gewaschen hat. Wenn wir ihren Preis (abhängige Variable) basierend auf ihrer Höhe und Breite (unabhängige Variablen) vorhersagen wollten, könnten wir ihn mithilfe einer linearen Regression modellieren.

Wir können mit diesen drei Trainingsdatenbeispielen beginnen.

Trainingsdaten für das Beispiel der linearen Regression zur Modellierung der Preise von Schwämmen
Trainingsdaten für das Beispiel der linearen Regression zur Modellierung der Preise von Schwämmen. Vom Autor aufgenommenes Bild

Lassen Sie uns nun den mittleren quadratischen Fehler (MSE) als Kostenfunktion verwenden Jund lineare Regression als unser Modell.

Formel für die aus MSE und linearer Regression abgeleitete Kostenfunktion
Formel für die aus MSE und linearer Regression abgeleitete Kostenfunktion. Vom Autor aufgenommenes Bild

Die lineare Regressionsformel verwendet X1 und X2 für die Breite bzw. Höhe. Beachten Sie, dass es keine unabhängigen Variablen mehr gibt, da unsere Trainingsdaten keine weiteren enthalten. In diesem Beispiel gehen wir davon aus, dass Breite und Höhe des Schwamms ausreichen, um seinen Preis vorherzusagen.

Der erste Schritt besteht nun darin, die Parameter zu initialisieren, in diesem Fall auf 0. Anschließend können wir die unabhängigen Variablen in das Modell einspeisen, um unsere Vorhersagen zu erhalten. Ŷund prüfen Sie, wie weit diese von unserem Ziel entfernt sind Y.

Schritt 0 im Gradientenabstiegsalgorithmus und die Berechnung des mittleren quadratischen Fehlers
Schritt 0 im Gradientenabstiegsalgorithmus und die Berechnung des mittleren quadratischen Fehlers. Vom Autor aufgenommenes Bild

Wie Sie sich vorstellen können, sind die Parameter im Second nicht sehr hilfreich. Aber wir sind jetzt bereit, den Gradient Descent-Algorithmus zu verwenden, um die Parameter in nützlichere zu aktualisieren. Zuerst müssen wir die partiellen Ableitungen jedes Parameters berechnen, was einige Berechnungen erfordert, aber glücklicherweise müssen wir dies im gesamten Prozess nur einmal tun.

Berechnung der partiellen Ableitungen der linearen Regressionsparameter.
Berechnung der partiellen Ableitungen der linearen Regressionsparameter. Vom Autor aufgenommenes Bild

Mit den partiellen Ableitungen können wir die Werte unserer Fehler einsetzen, um den Gradienten jedes Parameters zu berechnen.

Berechnung von Parametergradienten
Berechnung von Parametergradienten. Vom Autor aufgenommenes Bild

Beachten Sie, dass die MSE nicht berechnet werden musste, da sie nicht direkt bei der Parameteraktualisierung verwendet wird, sondern nur ihre Ableitung. Es ist auch sofort ersichtlich, dass alle Steigungen negativ sind, was bedeutet, dass alle erhöht werden können, um die Kostenfunktion zu verringern. Der nächste Schritt besteht darin, die Parameter mit einer Lernrate zu aktualisieren, bei der es sich um einen Hyperparameter handelt, additionally um eine Konfigurationseinstellung in einem maschinellen Lernmodell, die vor Beginn des Trainingsprozesses angegeben wird. Im Gegensatz zu Modellparametern, die während des Trainings erlernt werden, werden Hyperparameter manuell eingestellt und steuern Aspekte des Lernprozesses. Hier verwenden wir willkürlich 0,01.

Parameteraktualisierung in der ersten Iteration des Gradientenabstiegs
Parameteraktualisierung in der ersten Iteration des Gradientenabstiegs. Vom Autor aufgenommenes Bild

Dies struggle der letzte Schritt unserer ersten Iteration im Prozess des Gradientenabstiegs. Wir können diese neuen Parameterwerte verwenden, um neue Vorhersagen zu treffen und den MSE unseres Modells neu zu berechnen.

Letzter Schritt in der ersten Iteration des Gradientenabstiegs und Neuberechnung von MSE nach Parameteraktualisierungen
Letzter Schritt in der ersten Iteration des Gradientenabstiegs und Neuberechnung von MSE nach Parameteraktualisierungen. Vom Autor aufgenommenes Bild

Die neuen Parameter nähern sich den tatsächlichen Schwammpreisen an und haben zu einem viel niedrigeren MSE geführt, aber es gibt noch viel zu trainieren. Wenn wir den Gradientenabstiegsalgorithmus 50 Mal durchlaufen, dieses Mal mit Python statt von Hand – da Herr Miyagi nie etwas über Codierung gesagt hat – erreichen wir die folgenden Werte.

Ergebnisse einiger Iterationen des Gradientenabstiegsalgorithmus und ein Diagramm, das die MSE über die Gradientenabstiegsschritte zeigt
Ergebnisse einiger Iterationen des Gradientenabstiegsalgorithmus und ein Diagramm, das die MSE über die Gradientenabstiegsschritte zeigt. Vom Autor aufgenommenes Bild

Schließlich kamen wir zu einem ziemlich guten Modell. Die wahren Werte, die ich zum Generieren dieser Zahlen verwendet habe, waren (1, 2, 3) und nach nur 50 Iterationen kamen die Parameter des Modells beeindruckend nahe. Durch die Erweiterung des Trainings auf 200 Schritte, was einen weiteren Hyperparameter darstellt, konnte das lineare Regressionsmodell bei gleicher Lernrate nahezu perfekt an die wahren Parameter konvergieren, was die Leistungsfähigkeit des Gradientenabstiegs demonstrierte.

Viele der grundlegenden Konzepte, die die komplizierte Kampfkunst der künstlichen Intelligenz ausmachen, wie Kostenfunktionen und Gradientenabstieg, können vollständig verstanden werden, wenn man einfach das einfache „Wachs an, Wachs weg“-Werkzeug der linearen Regression studiert.

Künstliche Intelligenz ist ein weites und komplexes Gebiet, das auf vielen Ideen und Methoden aufbaut. Obwohl es noch viel mehr zu entdecken gibt, ist die Beherrschung dieser Grundlagen ein wichtiger erster Schritt. Hoffentlich hat Sie dieser Artikel diesem Ziel näher gebracht, ein „Wachs auf, Wachs ab“ nach dem anderen.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert