DATENVORVERARBEITUNG
⛳️ Extra DATA PREPROCESSING, defined:
· Lacking Worth Imputation
· Categorical Encoding
· Information Scaling
· Discretization
▶ Oversampling & Undersampling
Das Sammeln eines Datensatzes, bei dem jede Klasse genau die gleiche Anzahl vorherzusagender Klassen hat, kann eine Herausforderung sein. In der Realität sind die Dinge selten perfekt ausbalanciert, und wenn Sie ein Klassifizierungsmodell erstellen, kann dies ein Drawback sein. Wenn ein Modell auf einem solchen Datensatz trainiert wird, bei dem eine Klasse mehr Beispiele hat als die andere, ist es in der Regel besser bei der Vorhersage der größeren Gruppen und schlechter bei der Vorhersage der kleineren. Um dieses Drawback zu lösen, können wir Taktiken wie Oversampling und Undersampling anwenden – indem wir mehr Beispiele der kleineren Gruppe erstellen oder einige Beispiele aus der größeren Gruppe entfernen.
Es gibt viele verschiedene Oversampling- und Undersampling-Methoden (mit einschüchternden Namen wie SMOTE, ADASYN und Tomek Hyperlinks), aber es scheint nicht viele Ressourcen zu geben, die ihre Funktionsweise visuell vergleichen. Hier verwenden wir additionally einen einfachen 2D-Datensatz, um die Änderungen zu zeigen, die in den Daten nach der Anwendung dieser Methoden auftreten, damit wir sehen können, wie unterschiedlich die Ausgabe der einzelnen Methoden ist. Sie werden in den Bildern sehen, dass diese verschiedenen Ansätze unterschiedliche Lösungen liefern, und wer weiß, vielleicht ist einer für Ihre spezifische Herausforderung des maschinellen Lernens geeignet!
Überabtastung
Durch Überabtastung wird ein Datensatz ausgewogener, wenn eine Gruppe viel weniger Beispiele hat als die andere. Die Funktionsweise besteht darin, mehr Kopien der Beispiele aus der kleineren Gruppe anzufertigen. Dies trägt dazu bei, dass der Datensatz beide Gruppen gleichmäßiger darstellt.
Unterabtastung
Andererseits funktioniert die Unterabtastung dadurch, dass einige Beispiele aus der größeren Gruppe gelöscht werden, bis sie quick die gleiche Größe wie die kleinere Gruppe haben. Am Ende ist der Datensatz zwar kleiner, aber beide Gruppen werden eine ähnlichere Anzahl an Beispielen haben.
Hybride Probenahme
Die Kombination von Oversampling und Undersampling kann als „hybrides Sampling“ bezeichnet werden. Es vergrößert die kleinere Gruppe, indem es mehr Kopien seiner Beispiele erstellt, und entfernt außerdem einige Beispiele der größeren Gruppe, indem es einige seiner Beispiele entfernt. Es wird versucht, einen ausgewogeneren Datensatz zu erstellen – nicht zu groß und nicht zu klein.
Lassen Sie uns einen einfachen künstlichen Golfdatensatz verwenden, um sowohl Überabtastung als auch Unterabtastung zu zeigen. Dieser Datensatz zeigt, welche Artwork von Golfaktivität eine Particular person bei einer bestimmten Wetterbedingung ausübt.
⚠️ Beachten Sie, dass dieser kleine Datensatz zwar intestine für das Verständnis der Konzepte ist, Sie in realen Anwendungen jedoch viel größere Datensätze benötigen, bevor Sie diese Techniken anwenden, da die Stichprobenentnahme mit zu wenigen Daten zu unzuverlässigen Ergebnissen führen kann.
Zufälliges Oversampling
Zufälliges Oversampling ist eine einfache Möglichkeit, die kleinere Gruppe zu vergrößern. Es funktioniert, indem Duplikate der Beispiele aus der kleineren Gruppe erstellt werden, bis alle Klassen ausgeglichen sind.
👍 Am besten für sehr kleine Datensätze geeignet, die schnell ausgeglichen werden müssen
👎 Nicht empfohlen für komplizierte Datensätze
SMOTE
SMOTE (Artificial Minority Oversampling Method) ist eine Oversampling-Technik, die durch Interpolation der kleineren Gruppe neue Beispiele erstellt. Im Gegensatz zur zufälligen Überabtastung wird nicht einfach kopiert, was vorhanden ist, sondern es werden die Beispiele der kleineren Gruppe verwendet, um einige Beispiele dazwischen zu generieren.
👍 Am besten, wenn Sie über eine angemessene Menge an Beispielen verfügen, mit denen Sie arbeiten können, und Abwechslung in Ihren Daten benötigen
👎 Nicht empfohlen, wenn Sie nur sehr wenige Beispiele haben
👎 Nicht empfohlen, wenn Datenpunkte zu verstreut oder verrauscht sind
ADASYN
ADASYN (Adaptive Artificial) ähnelt SMOTE, konzentriert sich jedoch darauf, neue Beispiele in den schwieriger zu erlernenden Teilen der kleineren Gruppe zu erstellen. Es werden die Beispiele gefunden, die am schwierigsten zu klassifizieren sind, und weitere neue Punkte rund um diese hervorgebracht. Dies hilft dem Modell, die herausfordernden Bereiche besser zu verstehen.
👍 Am besten, wenn einige Teile Ihrer Daten schwerer zu klassifizieren sind als andere
👍 Am besten für komplexe Datensätze mit anspruchsvollen Bereichen geeignet
👎 Nicht empfohlen, wenn Ihre Daten recht einfach und unkompliziert sind
Durch Unterabtastung wird die größere Gruppe verkleinert, um sie in ihrer Größe der kleineren Gruppe anzunähern. Es gibt verschiedene Möglichkeiten, dies zu tun:
Zufällige Unterabtastung
Zufällige Unterabtastung Entfernt Beispiele aus der größeren Gruppe nach dem Zufallsprinzip, bis sie die gleiche Größe wie die kleinere Gruppe haben. Genau wie die zufällige Überabtastung ist die Methode ziemlich einfach, aber sie kann wichtige Informationen vernichten, die wirklich zeigen, wie unterschiedlich die Gruppen sind.
👍 Am besten für sehr große Datensätze mit vielen sich wiederholenden Beispielen geeignet
👍 Am besten, wenn Sie eine schnelle, einfache Lösung benötigen
👎 Nicht empfohlen, wenn jedes Beispiel in Ihrer größeren Gruppe wichtig ist
👎 Nicht empfohlen, wenn Sie es sich nicht leisten können, Informationen zu verlieren
Tomek-Hyperlinks
Tomek-Hyperlinks ist eine Unterabtastungsmethode, die die „Linien“ zwischen Gruppen klarer macht. Es wird nach Paaren von Beispielen aus verschiedenen Gruppen gesucht, die wirklich ähnlich sind. Wenn ein Paar gefunden wird, bei dem die Beispiele die nächsten Nachbarn des anderen sind, aber zu unterschiedlichen Gruppen gehören, wird das Beispiel aus der größeren Gruppe entfernt.
👍 Am besten, wenn sich Ihre Gruppen zu sehr überschneiden
👍 Am besten zum Bereinigen unordentlicher oder verrauschter Daten geeignet
👍 Am besten, wenn Sie klare Grenzen zwischen Gruppen benötigen
👎 Nicht empfohlen, wenn Ihre Gruppen bereits intestine getrennt sind
Beinahe verfehlt
Beinahe verfehlt ist eine Reihe von Unterabtastungstechniken, die nach unterschiedlichen Regeln arbeiten:
- Quick Miss-1: Behält Beispiele aus der größeren Gruppe bei, die den Beispielen in der kleineren Gruppe am nächsten kommen.
- Quick Miss-2: Behält Beispiele aus der größeren Gruppe bei, die den geringsten durchschnittlichen Abstand zu ihren drei nächsten Nachbarn in der kleineren Gruppe haben.
- Quick Miss-3: Behält Beispiele aus der größeren Gruppe bei, die am weitesten von anderen Beispielen in ihrer eigenen Gruppe entfernt sind.
Die Hauptidee besteht darin, die informativsten Beispiele aus der größeren Gruppe zu behalten und diejenigen zu entfernen, die nicht so wichtig sind.
👍 Am besten, wenn Sie die Kontrolle darüber haben möchten, welche Beispiele Sie behalten möchten
👎 Nicht empfohlen, wenn Sie eine einfache, schnelle Lösung benötigen
ENN
Nächste Nachbarn bearbeitet (ENN)-Methode entfernt Beispiele, bei denen es sich wahrscheinlich um Rauschen oder Ausreißer handelt. Für jedes Beispiel in der größeren Gruppe prüft es, ob die meisten seiner nächsten Nachbarn derselben Gruppe angehören. Ist dies nicht der Fall, wird das Beispiel entfernt. Dies trägt dazu bei, klarere Grenzen zwischen den Gruppen zu schaffen.
👍 Am besten zum Bereinigen unordentlicher Daten geeignet
👍 Am besten, wenn Sie Ausreißer entfernen müssen
👍 Am besten geeignet, um klarere Gruppengrenzen zu schaffen
👎 Nicht empfohlen, wenn Ihre Daten bereits sauber und intestine organisiert sind
SMOTETomek
SMOTETomek funktioniert, indem zunächst mit SMOTE neue Beispiele für die kleinere Gruppe erstellt werden und dann unordentliche Grenzen aufgeräumt werden, indem „verwirrende“ Beispiele mithilfe von Tomek Hyperlinks entfernt werden. Dies trägt dazu bei, einen ausgewogeneren Datensatz mit klareren Grenzen und weniger Rauschen zu erstellen.
👍 Am besten für unausgeglichene Daten geeignet, die wirklich schwerwiegend sind
👍 Am besten, wenn Sie sowohl mehr Beispiele als auch klarere Grenzen benötigen
👍 Am besten geeignet, wenn es um laute, sich überschneidende Gruppen geht
👎 Nicht empfohlen, wenn Ihre Daten bereits sauber und intestine organisiert sind
👎 Nicht für kleine Datensätze empfohlen
SMOTEENN
SMOTEENN funktioniert, indem zunächst mit SMOTE neue Beispiele für die kleinere Gruppe erstellt werden und dann mit ENN beide Gruppen bereinigt werden, indem Beispiele entfernt werden, die nicht intestine zu ihren Nachbarn passen. Genau wie SMOTETomek trägt dies dazu bei, einen saubereren Datensatz mit klareren Grenzen zwischen den Gruppen zu erstellen.
👍 Am besten zum gleichzeitigen Aufräumen beider Gruppen
👍 Am besten, wenn Sie mehr Beispiele, aber sauberere Daten benötigen
👍 Am besten, wenn es um viele Ausreißer geht
👎 Nicht empfohlen, wenn Ihre Daten bereits sauber und intestine organisiert sind
👎 Nicht für kleine Datensätze empfohlen