Von einem Punkt nach L∞ | Auf Information Science

Sie sollten dies lesen

Als jemand, der eine getan hat Junggesellen in Mathematik Ich wurde zum ersten Mal als Maß von L¹ und L² vorgestellt Distanz… Jetzt scheint es ein Maß für Fehler zu sein – wo sind wir falsch gelaufen? Abgesehen von Witzen scheint es dieses Missverständnis zu geben, das L₁ Und L₂ Servieren Sie dieselbe Funktion – und obwohl dies manchmal wahr ist -, prägt jede Norm ihre Modelle drastisch unterschiedlich.

In diesem Artikel reisen wir von einfachen alten Punkten auf einer Linie bis hin zu einer Linie L∞anhalten, um zu sehen, warum L¹ Und L² Materie, wie sie sich unterscheiden und wo die L∞ Norm zeigt sich in AI.

Unsere Agenda:

Wann zu verwenden L¹ gegen L² Verlust
Wie L¹ und L² Regularisierung ein Modell in Richtung Sparsity oder reibungsloser Schrumpfung ziehen
Warum der kleinste algebraische Unterschied Gan-Bilder verwischt-oder lässt sie rasiermesserscharfen
Wie man die Entfernung auf den Raum verallgemeinert und was die L∞ -Norm repräsentiert

Ein kurzer Hinweis zur mathematischen Abstraktion

Sie haben vielleicht ein Gespräch (vielleicht ein verwirrend) geführt, bei dem der Begriff Mathematische Abstraktion tauchte auf, und Sie haben dieses Gespräch vielleicht ein bisschen verwirrter über das, was Mathematiker wirklich tun. Abstraktion bezieht sich auf die Extraktion der zugrunde liegenden Muster und Eigenschaften aus einem Konzept, um es zu verallgemeinern, damit sie eine breitere Anwendung hat. Dies magazine wirklich kompliziert erscheinen, aber schauen Sie sich dieses triviale Beispiel an:

Ein Punkt in 1-d Ist x = x₁; In 2-d: x = (x₁, x₂); In three-D: x = (x₁, x₂, x₃). Jetzt weiß ich nichts über dich, aber ich kann keine 42 Dimensionen visualisieren, aber das gleiche Muster sagt mir einen Punkt in 42 Dimensionen, wäre x = (x₁,…, x₄₂).

Dies magazine trivial erscheinen, aber dieses Konzept der Abstraktion ist der Schlüssel, um zu L∞ zu gelangen, wobei wir anstelle eines Punktes abstrahieren. Von nun an lass uns mit arbeiten mit x = (x₁, x₂, x₃,…, xₙ), ansonsten unter seinem formalen Titel bekannt: X∈ℝⁿ. Und jeder Vektor ist v = x – y = (x₁ – y₁, x₂ – y₂,…, xₙ – yₙ).

Die „normalen“ Normen: L1 und L2

Der Schlüssel zum Mitnehmen ist einfach, aber mächtig: Da sich die Normen von L¹ und L² in einigen wichtigen Weise unterschiedlich verhalten, können Sie sie in einem Ziel kombinieren, zwei konkurrierende Ziele zu jonglieren. In RegularisierungDie l²- und l²-Begriffe in der Verlustfunktion tragen dazu bei Und verallgemeinerbar. In GansDie L¹ Pixelverlust ist gepaart mit Konversser Verlust Der Generator macht additionally Bilder, die (i) realistisch aussehen und (ii) der beabsichtigten Ausgabe übereinstimmen. Winzige Unterschiede zwischen den beiden Verlusten erklären, warum Lasso eine Funktionsauswahl durchführt und warum das Austausch von L— gegen L² in einem GaN häufig verschwommene Bilder erzeugt.

L¹ gegen L² Verlust – Ähnlichkeiten und Unterschiede

Wenn Ihre Daten viele Ausreißer oder schwerwedelige Geräusche enthaltenSie greifen normalerweise nach nach L¹.
Wenn Sie sich am meisten um den quadratischen Fehler kümmern und vernünftigerweise saubere Daten habenAnwesend L² ist in Ordnung – und einfacher zu optimieren, da es glatt ist.

Da Mae jeden Fehler proportional behandelt, sitzen Modelle mit L¹ näher an der mittlere Beobachtung, weshalb der Verlust von L¹ genau das Texturdetail in Gans hält, während die quadratische Strafe von MSE das Modell in Richtung a annimmt bedeuten Wert, der verschmiert aussieht.

L¹ Regularisierung (Lasso)

Optimierung und Regularisierung In entgegengesetzte Richtungen ziehen: Optimierung versucht, den Trainingssatz perfekt zu passen, während die Regularisierung absichtlich eine kleine Trainingsgenauigkeit zum Gewinn opfert Verallgemeinerung. Hinzufügen einer l¹ Strafe 𝛼∥W∥₁ fördert Spärlichkeit – Viele Koeffizienten kollabieren bis auf Null. Ein größeres α bedeutet härteres Merkmal, einfachere Modelle und weniger Rauschen durch irrelevante Eingaben. Mit Lasso bekommst du Integrierte Characteristic-AuswahlWeil der ∥w∥₁ -Begriff buchstäblich kleine Gewichte ausschaltet, während L² sie lediglich schrumpft.

L2 Regularisierung (Ridge)

Ändern Sie den Regularisierungsbegriff auf

Und du hast Ridge Regression . Grat schrumpftGewichte in Richtung Null, ohne normalerweise genau Null zu treffen. Dies entmutigt jede einzelne Funktion von der Dominanz und hält trotzdem jede Funktion im Spiel – praktisch, wenn Sie glauben alle Inputs sind wichtig, aber Sie möchten Überanpassung eindämmen.

Sowohl Lasso als auch Ridge verbessern sich Verallgemeinerung ; Mit Lasso, sobald ein Gewicht Null trifft, ist der Optimierer keinen starken Grund zu gehen – es ist, als würde man noch auf flachem Boden stehen -, additionally nullte Nullen natürlich „kleben“. Oder in mehr technischen Begriffen formen sie einfach das Koeffizientenraum Anders-Lassos diamantförmige Einschränkungen-Set-Nullen-Koordinaten, drückt sie einfach von Ridges sphärische Set. Machen Sie sich keine Sorgen, wenn Sie das nicht verstanden haben, es gibt eine Menge Theorie, die über den Rahmen dieses Artikels hinausgeht, aber wenn es Sie diese Lesung interessiert Lₚ Raum sollte helfen.

Aber zurück zu Punkt. Beachten Sie, dass das Lasso, wenn wir beide Modelle auf denselben Daten trainieren, einige Eingabefunktionen durch Einstellen ihrer Koeffizienten auf Null entfernt.

from sklearn.datasets import make_regression
from sklearn.linear_model import Lasso, Ridge

X, y = make_regression(n_samples=100, n_features=30, n_informative=5, noise=10)

mannequin = Lasso(alpha=0.1).match(X, y)
print("Lasso nonzero coeffs:", (mannequin.coef_ != 0).sum())

mannequin = Ridge(alpha=0.1).match(X, y)
print("Ridge nonzero coeffs:", (mannequin.coef_ != 0).sum())

Beachten Sie, wie, wenn wir erhöhen α bis 10 werden viel mehr Funktionen gelöscht. Dies kann ziemlich gefährlich sein, da wir informative Daten loswerden könnten.

mannequin = Lasso(alpha=10).match(X, y)
print("Lasso nonzero coeffs:", (mannequin.coef_ != 0).sum())

mannequin = Ridge(alpha=10).match(X, y)
print("Ridge nonzero coeffs:", (mannequin.coef_ != 0).sum())

L¹ Verlust in generativen kontroversen Netzwerken (GANS)

Gans Pit 2 -Netzwerke gegeneinander, a Generator G (der „Fälscher“) gegen a Diskriminator D (der „Detektiv“). Zu machen G überzeugend produzieren Und treue Bilder, viele Bild-zu-Picture-Gans verwenden a Hybridverlust

X– Eingabebild (z. B. eine Skizze)
y– Reales Zielbild (z. B. ein Foto)
λ– Stability -Knopf zwischen Realismus und Treue

Tauschen Sie den Pixelverlust gegen L² und Sie quadratische Pixelfehler; Große Residuen dominieren das Ziel additionally Gspielt sich sicher, indem es die vorhersagt bedeuten Von allen plausiblen Texturen – Ergebnis: Glättere, verschwenderische Ausgänge. Mit L¹ jeder Pixelfehler zählt dasselbe, additionally GSchwere auf die mittlere Textur Patch und hält scharfe Grenzen.

Warum winzige Unterschiede wichtig sind

In der Regression der Knick in L¹ ’s Derivat lässt Lasso Zero Out Schwache Prädiktoren, während Grat NURDE sie nur.
In Imaginative and prescient die lineare Strafe von L¹ hält Hochfrequenzdetails, das L² verwischt.
In beiden Fällen können Sie mischen L¹ Und L²Handel RobustheitAnwesend Spärlichkeitund reibungslose Optimierung-genau der Ausgleichsakt im Herzen moderner maschineller Lernziele.

Verallgemeinerung der Entfernung zu Lᵖ

Bevor wir erreichen L∞Wir müssen alle die vier Regeln über die vier Regeln sprechen Norm muss befriedigen:

Nicht-Negativität– Eine Entfernung kann nicht negativ sein; Niemand sagt: „Ich bin –10 m vom Pool entfernt.“
Optimistic Bestimmungszügigkeit– Die Entfernung ist Null nur am Zero -Vektor, wo keine Verschiebung passiert ist
Absolute Homogenität (Skalierbarkeit) – Skalierung eines Vektors mit α skaliert seine Länge nach | α |: Wenn Sie Ihre Geschwindigkeit verdoppeln, verdoppeln Sie Ihre Entfernung
Dreieck -Ungleichheit – Ein Umweg durch y ist nie kürzer als von Anfang bis Ende direkt zu gehen (x + y)

Zu Beginn dieses Artikels struggle die mathematische Abstraktion, die wir durchgeführt haben, recht einfach. Aber jetzt, wenn wir uns die folgenden Normen ansehen, können Sie sehen, dass wir auf einer tieferen Ebene etwas Ähnliches tun. Es gibt ein klares Muster: Der Exponent innerhalb der Summe nimmt jedes Mal um eins um und der Exponent außerhalb der Summe tut es ebenfalls. Wir überprüfen auch, ob dieser abstraktere Begriff der Entfernung immer noch die oben erwähnten Kerneigenschaften erfüllt. Es tut. Wir haben additionally das Konzept der Entfernung in den Lᵖ -Raum erfolgreich abstrahiert.

als Single Familie von Entfernungen – die Lᵖ Raum . Die Grenze als p → ∞ an diese Familie bis zur Familie einnehmen L∞ Norm .

Die L∞ -Norm

Die L∞ -Norm lautet viele Namen Supremum -Norm, maximale Norm, gleichmäßige Norm, Chebyshev -Norm aber sie sind alle durch die folgende Grenze gekennzeichnet:

Durch die Verallgemeinerung unserer Norm auf P – Raum in zwei Codezeilen können wir eine Funktion schreiben, die die Entfernung in jeder normierbaren Norm berechnet. Sehr nützlich.

def Lp_norm(v, p):
    return sum(abs(x)**p for x in v) ** (1/p)

Wir können uns jetzt vorstellen, wie sich unser Maß für die Entfernung ändert P erhöht. Wenn wir uns die Grafiken brüllen, sehen wir, dass unser Maß für die Entfernung monoton nimmt und einem ganz spezifischen Punkt nähert: den größten absoluten Wert im Vektor, der durch die dargestellt wird gestrichelte Linie in Schwarz.

Konvergenz der LP -Norm zur größten absoluten Koordinate.

Tatsächlich nähert es sich nicht nur der größten absoluten Koordinate unseres Vektors, sondern auch

Das Max-Norm taucht jederzeit auf, wenn Sie eine benötigen einheitliche Garantie oder Schlimmste Case Management. In weniger technischer Begriffe, wenn keine individuelle Koordinate über einen bestimmten Schwellenwert hinausgehen kann, sollte die Norm verwendet werden. Wenn Sie jede Koordinate Ihres Vektors eine harte Kappe festlegen möchten, ist dies auch Ihr Gehen zur Norm.

Dies ist nicht nur eine Eigenart der Theorie, sondern etwas sehr Nützliches und in Fülle verschiedener Kontexte intestine angewendet:

Maximaler absoluter Fehler– Jede Vorhersage gebunden, sodass keiner zu weit driftet.
Max-ABS verfügt über Skalierung-Quetscht jedes Merkmal in (–1,1) (-1,1) (-1,1), ohne die Sparsität zu verzerren.
Max-Norm-Gewichtsbeschränkungen-Halten Sie alle Parameter in einer Achsen-ausgerichteten Field.
Gegentliche Robustheit-Beschränken Sie jede Pixelstörung auf ein ε-Kube (ein L∞-Ball).
Chebyshev DistanzIn Ok-NN- und Grid-Suchvorgängen-schnellste Artwork, „King’s-Transfer“ -schritte zu messen.
Robuste Regression / Chebyshev-Heart-Portfolioprobleme– Lineare Programme, die den schlimmsten Relaxation minimieren.
Equity Caps-Begrenzen Sie den größten Verstoß gegen die Gruppe, nicht nur den Durchschnitt.
Begrenzungskollisionstests-Wickeln Sie Objekte in Achsen-ausgerichtete Kästchen für schnelle Überlappungsüberprüfungen.

Mit unserem abstrakteren Begriff für die Entfernung kommen alle möglichen interessanten Fragen an die Spitze. Wir können berücksichtigen PWert, der keine Ganzzahlen sind, sagen wir p = π(Wie Sie in den oben genannten Grafiken sehen werden). Wir können auch berücksichtigen P∈ (0,1), sagen wir P= 0,3, würde das immer noch in die 4 Regeln passen, von denen wir sagten, jede Norm muss gehorchen?

Abschluss

Das Abstellen der Idee der Entfernung kann sich unhandlich und sogar unnötig theoretisch anfühlen, aber sie befreit uns auf die Kerneigenschaften, um Fragen zu stellen, die sonst unmöglich zu rahmen wären. Dies zeigt neue Normen mit konkreten, realen Verwendungen. Es ist verlockend, alle Abstandsmaße als austauschbare, aber kleine algebraische Unterschiede zu behandeln, die jeder Norm unterschiedliche Eigenschaften geben, die die aufgebauten Modelle formen. Von der Vorspannungsvarianz-Kompression in der Regression bis zur Wahl zwischen knackigen oder verschwommenen Bildern in Gans ist es wichtig, wie Sie die Entfernung messen.

Lassen Sie uns eine Verbindung herstellen LinkedIn!

Folgen Sie mir weiter X = Twitter

Code auf Github

Von einem Punkt nach L∞ | Auf Information Science

Sie sollten dies lesen

Unsere Agenda:

Ein kurzer Hinweis zur mathematischen Abstraktion

Die „normalen“ Normen: L1 und L2

L¹ gegen L² Verlust – Ähnlichkeiten und Unterschiede

L¹ Regularisierung (Lasso)

L2 Regularisierung (Ridge)

L¹ Verlust in generativen kontroversen Netzwerken (GANS)

Warum winzige Unterschiede wichtig sind

Verallgemeinerung der Entfernung zu Lᵖ

Die L∞ -Norm

Abschluss

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

Der Schwellenwert ist ein Preis, kein Prozentsatz

Kontextfensterverwaltung für Agenten mit langer Laufzeit: Strategien und Kompromisse

Warum die Partnerschaft zwischen HPE und Trustwise den neuen Plan für die KI-Governance von Unternehmen vorgibt

Liquid AI Open-Sources Antidoom: Eine Methode zur endgültigen Token-Präferenzoptimierung (FTPO), die Doom-Schleifen in Argumentationsmodellen reduziert

About

Categories

Tags

Recent Post

Der Schwellenwert ist ein Preis, kein Prozentsatz

Kontextfensterverwaltung für Agenten mit langer Laufzeit: Strategien und Kompromisse

Von einem Punkt nach L∞ | Auf Information Science

Sie sollten dies lesen

Unsere Agenda:

Ein kurzer Hinweis zur mathematischen Abstraktion

Die „normalen“ Normen: L1 und L2

L¹ gegen L² Verlust – Ähnlichkeiten und Unterschiede

L¹ Regularisierung (Lasso)

L2 Regularisierung (Ridge)

L¹ Verlust in generativen kontroversen Netzwerken (GANS)

Warum winzige Unterschiede wichtig sind

Verallgemeinerung der Entfernung zu Lᵖ

Die L∞ -Norm

Abschluss

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt