Für eine alte Herausforderung
Sie trainieren Ihr Modell für die SPAM -Erkennung. Ihr Datensatz hat viel mehr constructive als Detrimental, sodass Sie unzählige Arbeitszeiten investieren, um sie auf ein Verhältnis von 50/50 wieder auszutauschen. Jetzt sind Sie zufrieden, weil Sie das Ungleichgewicht der Klassen angehen konnten. Was wäre, wenn ich Ihnen sagen würde, dass 60/40 nicht nur genug gewesen sein könnte, sondern noch besser?
In den meisten Klassifizierungsanwendungen für maschinelles Lernen ist die Anzahl der Fälle einer Klasse die anderer Klassen übertroffen. Dies verlangsamt das Lernen (1) und kann möglicherweise Verzerrungen in den trainierten Modellen (2) induzieren. Die am weitesten verbreiteten Methoden, um dies zu beheben, stützen sich auf ein einfaches Rezept: Finden Sie einen Weg, um allen Klassen das gleiche Gewicht zu geben. In den meisten Fällen erfolgt dies durch einfache Methoden wie Beispiele für Minderheitenklassen (Wiederbelebung), die Entfernung von Beispielen der Mehrheitsklassen aus dem Datensatz (Unterabtastung) oder einschließlich Instanzen der Minderheitenklasse mehr als einmal (Überabstellung).
Die Gültigkeit dieser Methoden wird häufig diskutiert, wobei sowohl theoretische als auch empirische Arbeiten darauf hinweisen, dass die Lösung am besten von Ihrer spezifischen Anwendung abhängt (3). Es gibt jedoch eine versteckte Hypothese, die selten diskutiert und zu oft als selbstverständlich angesehen wird: Ist das Neubau sogar eine gute Idee? Bis zu einem gewissen Grad funktionieren diese Methoden, additionally lautet die Antwort ja. Aber sollten wir voll Unsere Datensätze wieder ausführen? Um es einfach zu machen, nehmen wir ein binäres Klassifizierungsproblem. Sollten wir unsere Trainingsdaten wieder ausführen, um 50% jeder Klasse zu haben? Die Instinct sagt Ja und die Instinct geführt bis jetzt. In diesem Fall ist die Instinct falsch. Aus intuitiven Gründen.
Was meinen wir mit einem „Trainingsinstrument“?
Bevor wir uns darüber befassen, wie und warum 50% nicht das optimale Trainingsungleichgewicht in der binären Klassifizierung sind, definieren wir einige relevante Mengen. Wir rufen an N₀ die Anzahl der Fälle einer Klasse (normalerweise der Minderheitenklasse) und N₁ die der anderen Klasse. Auf diese Weise ist die Gesamtzahl der Dateninstanzen im Trainingssatz N=N₀+N₁. Die Menge, die wir heute analysieren, ist das Trainingsungleichgewicht.
ρ⁽ᵗʳᵃⁱⁿ⁾ = N₀/N .
Beweis, dass 50% suboptimal sind
Erste Beweise stammen aus empirischen Arbeiten an zufälligen Wäldern. Kamalov und Mitarbeiter haben das optimale Trainingsungleichgewicht gemessen, ρ⁽ᵒᵖᵗ⁾ auf 20 Datensätzen (4). Sie finden, dass ihr Wert von Downside zu Downside variiert, aber zu dem Schluss, dass er mehr oder weniger ist ρ⁽ᵒᵖᵗ⁾ = 43%. Dies bedeutet, dass Sie nach ihren Experimenten etwas mehr Mehrheit als Beispiele für Minderheitenklassen wünschen. Dies ist jedoch nicht die ganze Geschichte. Wenn Sie auf optimale Modelle abzielen möchten, halten Sie nicht hier an und setzen ρ⁽ᵗʳᵃⁱⁿ⁾ bis 43%.
Tatsächlich in diesem Jahr theoretische Arbeit von Pezicoli et al. (5) zeigten, dass das optimale Trainingsungleichgewicht kein universeller Wert ist, der für alle Anwendungen gültig ist. Es sind nicht 50% und nicht 43%. Es stellt sich heraus, dass das optimale Ungleichgewicht variiert. Es kann manchmal kleiner als 50% sein (wie Kamalov und Mitarbeiter gemessen) und andere über 50%. Der spezifische Wert von ρ⁽ᵒᵖᵗ⁾ hängt von den Particulars jedes spezifischen Klassifizierungsproblems ab. Eine Möglichkeit zu finden ρ⁽ᵒᵖᵗ⁾ ist, das Modell für mehrere Werte von zu trainieren ρ⁽ᵗʳᵃⁱⁿ⁾ und messen Sie die damit verbundene Leistung. Dies könnte zum Beispiel so aussehen:

Obwohl die genauen Muster bestimmen ρ⁽ᵒᵖᵗ⁾ sind noch unklar, es scheint, dass das optimale Ungleichgewicht, wenn Daten im Vergleich zur Modellgröße reichlich vorhanden sind, kleiner als 50percentwie in den Experimenten von Kamalov ist. Viele andere Faktoren – von der Artwork und Weise, wie seltene Minderheiteninstanzen sind, bis hin zu der Lautstärke der Trainingsdynamik -, um den optimalen Wert des Trainingsungleichgewichts festzulegen und zu bestimmen, wie viel Leistung verloren geht, wenn man weg ist ρ⁽ᵒᵖᵗ⁾.
Warum perfekte Steadiness ist nicht immer am besten
Wie gesagt, die Antwort ist tatsächlich intuitiv: Da verschiedene Klassen unterschiedliche Eigenschaften haben, gibt es keinen Grund, warum beide Klassen die gleichen Informationen enthalten würden. Tatsächlich hat Pezicolis Workforce bewiesen, dass es dies normalerweise nicht tut. Um die beste Entscheidungsgrenze zu schließen, brauchen wir daher möglicherweise mehr Fälle einer Klasse als der anderen. Pezcolis Arbeit, das im Kontext der Anomalie -Erkennung steht, gibt uns ein einfaches und aufschlussreiches Beispiel.
Nehmen wir an, dass die Daten aus einer multivariaten Gaußschen Verteilung stammen und dass wir alle Punkte auf das Recht einer Entscheidungsgrenze als Anomalien kennzeichnen. In 2D würde es so aussehen:

Die gestrichelte Linie ist unsere Entscheidungsgrenze, und die Punkte nach dem Recht der Entscheidungsgrenze sind die N₀ Anomalien. Lassen Sie uns jetzt unseren Datensatz wieder ausführen ρ⁽ᵗʳᵃⁱⁿ⁾ = 0,5. Dazu müssen wir mehr Anomalien finden. Da die Anomalien selten sind, sind diejenigen, die wir am wahrscheinlichsten finden, nahe der Entscheidungsgrenze. Bereits nach dem Auge ist das Szenario auffallend klar:

Anomalien gelb sind entlang der Entscheidungsgrenze gestapelt und sind daher informativer über seine Place als die blauen Punkte. Dies könnte dazu führen, dass es besser ist, Minderheitenklassenpunkte zu privilegieren. Auf der anderen Seite decken Anomalien nur eine Seite der Entscheidungsgrenze ab. Sobald man genügend Minderheitenklassenpunkte hat, kann es bequem werden, in mehr Mehrheitsklassenpunkte zu investieren, um die andere Seite der Entscheidungsgrenze besser abzudecken. Infolge dieser beiden konkurrierenden Effekte,, ρ⁽ᵒᵖᵗ⁾ ist im Allgemeinen nicht 50percentund sein genauer Wert ist problemabhängig.
Die Grundursache ist Klassenasymmetrie
Die Theorie von Pezcoli zeigt, dass sich das optimale Ungleichgewicht im Allgemeinen von 50percentunterscheidet, da verschiedene Klassen unterschiedliche Eigenschaften aufweisen. Sie analysieren jedoch nur eine Quelle der Vielfalt zwischen den Klassen, dh ausreißiger Verhalten. Wie beispielsweise Sarao-Mannelli und Coauthors (6) gezeigt wird, gibt es viele Effekte, wie das Vorhandensein von Untergruppen innerhalb der Klassen, die einen ähnlichen Effekt haben können. Es ist das Übereinstimmung mit einer sehr großen Anzahl von Effekten, die die Vielfalt zwischen Klassen bestimmen, was uns zeigt, was das optimale Ungleichgewicht für unser spezifisches Downside ist. Bis wir eine Theorie haben, die alle Asymmetriequellen in den Daten zusammen behandelt (einschließlich derer, die durch die Modellarchitektur sie verarbeitet), können wir das optimale Trainingsungleichgewicht eines Datensatzes vorher nicht kennen.
Wichtige Imbissbuden und was Sie anders machen können
Wenn Sie bis jetzt Ihren binären Datensatz auf 50percentneu ausgerichtet haben, haben Sie es intestine gemacht, aber Sie haben es höchstwahrscheinlich nicht das Beste gemacht. Obwohl wir immer noch keine Theorie haben, die uns sagen kann, wie das optimale Trainingsungleichgewicht sein sollte, wissen Sie jetzt, dass es wahrscheinlich nicht 50percentist. Die gute Nachricht ist, dass es auf dem Weg ist: Theoretiker des maschinellen Lernens sprechen sich aktiv an dieses Thema. In der Zwischenzeit können Sie sich vorstellen ρ⁽ᵗʳᵃⁱⁿ⁾ Als Hyperparameter, den Sie im Voraus einstellen können, genau wie jeder andere Hyperparameter, um Ihre Daten auf die effizienteste Weise neu auszusetzen. Fragen Sie sich vor Ihrem nächsten Modelltraining: Ist 50/50 wirklich optimum? Versuchen Sie, Ihr Klassenungleichgewicht zu stimmen – die Leistung Ihres Modells könnte Sie überraschen.
Referenzen
(1) E. Francazi, M. Baity-Jesi und A. Lucchi. Eine theoretische Analyse der Lerndynamik unter Klassenstörungen (2023), ICML 2023
(2) Okay. Ghosh, C. Bellinger, R. Corizzo, P. Branco, geb. Krawczyk und N. japkowicz, Das Downside des Klassenungleichgewichts im tiefen Lernen (2024), Maschinelles LernenAnwesend 113(7), 4845–4901
(3) E. Loffredo, M. Pastore, S. Cocco und R. Monasson, Wiederherstellung des Gleichgewichts: Prinzipielle Daten für die optimale Klassifizierung/Überabtastung von Daten (2024), ICML 2024
(4) F. Kamalov, Af Atiya und D. Elreedy, Teilweise Resampling von unausgeglichenen Daten (2022), Arxiv Preprint Arxiv: 2207.04631
(5) FS Pezicoli, V. Ros, FP Landes und M. Baity-Jesi, Klassenungleichgewicht bei der Erkennung von Anomalie: Lernen aus einem genau lösbaren Modell (2025). Aistats 2025
(6) S. Sarao-Mannelli, F. Gerace, N. Rostamzadeh und L. Saglietti, Vorspannungsgeometrien: Ein genau lösbares Datenmodell mit Equity-Implikationen (2022), Arxiv Preprint Arxiv: 2205.15935
