DATENVORVERARBEITUNG

Künstliches Generieren und Löschen von Daten zum Wohle der Allgemeinheit

⛳️ Extra DATA PREPROCESSING, defined:
· Lacking Worth Imputation
· Categorical Encoding
· Information Scaling
· Discretization
Oversampling & Undersampling

Das Sammeln eines Datensatzes, bei dem jede Klasse genau die gleiche Anzahl vorherzusagender Klassen hat, kann eine Herausforderung sein. In der Realität sind die Dinge selten perfekt ausbalanciert, und wenn Sie ein Klassifizierungsmodell erstellen, kann dies ein Drawback sein. Wenn ein Modell auf einem solchen Datensatz trainiert wird, bei dem eine Klasse mehr Beispiele hat als die andere, ist es in der Regel besser bei der Vorhersage der größeren Gruppen und schlechter bei der Vorhersage der kleineren. Um dieses Drawback zu lösen, können wir Taktiken wie Oversampling und Undersampling anwenden – indem wir mehr Beispiele der kleineren Gruppe erstellen oder einige Beispiele aus der größeren Gruppe entfernen.

Es gibt viele verschiedene Oversampling- und Undersampling-Methoden (mit einschüchternden Namen wie SMOTE, ADASYN und Tomek Hyperlinks), aber es scheint nicht viele Ressourcen zu geben, die ihre Funktionsweise visuell vergleichen. Hier verwenden wir additionally einen einfachen 2D-Datensatz, um die Änderungen zu zeigen, die in den Daten nach der Anwendung dieser Methoden auftreten, damit wir sehen können, wie unterschiedlich die Ausgabe der einzelnen Methoden ist. Sie werden in den Bildern sehen, dass diese verschiedenen Ansätze unterschiedliche Lösungen liefern, und wer weiß, vielleicht ist einer für Ihre spezifische Herausforderung des maschinellen Lernens geeignet!

Alle Grafiken: Vom Autor mit Canva Professional erstellt. Optimiert für Mobilgeräte; kann auf dem Desktop übergroß erscheinen.

Überabtastung

Durch Überabtastung wird ein Datensatz ausgewogener, wenn eine Gruppe viel weniger Beispiele hat als die andere. Die Funktionsweise besteht darin, mehr Kopien der Beispiele aus der kleineren Gruppe anzufertigen. Dies trägt dazu bei, dass der Datensatz beide Gruppen gleichmäßiger darstellt.

Unterabtastung

Andererseits funktioniert die Unterabtastung dadurch, dass einige Beispiele aus der größeren Gruppe gelöscht werden, bis sie quick die gleiche Größe wie die kleinere Gruppe haben. Am Ende ist der Datensatz zwar kleiner, aber beide Gruppen werden eine ähnlichere Anzahl an Beispielen haben.

Hybride Probenahme

Die Kombination von Oversampling und Undersampling kann als „hybrides Sampling“ bezeichnet werden. Es vergrößert die kleinere Gruppe, indem es mehr Kopien seiner Beispiele erstellt, und entfernt außerdem einige Beispiele der größeren Gruppe, indem es einige seiner Beispiele entfernt. Es wird versucht, einen ausgewogeneren Datensatz zu erstellen – nicht zu groß und nicht zu klein.

Lassen Sie uns einen einfachen künstlichen Golfdatensatz verwenden, um sowohl Überabtastung als auch Unterabtastung zu zeigen. Dieser Datensatz zeigt, welche Artwork von Golfaktivität eine Particular person bei einer bestimmten Wetterbedingung ausübt.

Spalten: Temperatur (0–3), Luftfeuchtigkeit (0–3), Golfaktivität (A=Normaler Platz, B=Drive Vary oder C=Indoor-Golf). Der Trainingsdatensatz hat 2 Dimensionen und 9 Stichproben.

⚠️ Beachten Sie, dass dieser kleine Datensatz zwar intestine für das Verständnis der Konzepte ist, Sie in realen Anwendungen jedoch viel größere Datensätze benötigen, bevor Sie diese Techniken anwenden, da die Stichprobenentnahme mit zu wenigen Daten zu unzuverlässigen Ergebnissen führen kann.

Zufälliges Oversampling

Zufälliges Oversampling ist eine einfache Möglichkeit, die kleinere Gruppe zu vergrößern. Es funktioniert, indem Duplikate der Beispiele aus der kleineren Gruppe erstellt werden, bis alle Klassen ausgeglichen sind.

👍 Am besten für sehr kleine Datensätze geeignet, die schnell ausgeglichen werden müssen
👎 Nicht empfohlen für komplizierte Datensätze

Beim zufälligen Oversampling werden lediglich ausgewählte Stichproben aus der kleineren Gruppe (A) dupliziert, während alle Stichproben aus den größeren Gruppen (B und C) unverändert bleiben, wie durch die A×2-Markierungen im rechten Diagramm dargestellt.

SMOTE

SMOTE (Artificial Minority Oversampling Method) ist eine Oversampling-Technik, die durch Interpolation der kleineren Gruppe neue Beispiele erstellt. Im Gegensatz zur zufälligen Überabtastung wird nicht einfach kopiert, was vorhanden ist, sondern es werden die Beispiele der kleineren Gruppe verwendet, um einige Beispiele dazwischen zu generieren.

👍 Am besten, wenn Sie über eine angemessene Menge an Beispielen verfügen, mit denen Sie arbeiten können, und Abwechslung in Ihren Daten benötigen
👎 Nicht empfohlen, wenn Sie nur sehr wenige Beispiele haben
👎 Nicht empfohlen, wenn Datenpunkte zu verstreut oder verrauscht sind

SMOTE erstellt neue A-Samples, indem es Paare von A-Punkten auswählt und neue Punkte irgendwo entlang der Linie zwischen ihnen platziert. Ebenso wird ein neuer B-Punkt zwischen Paaren zufällig ausgewählter B-Punkte platziert

ADASYN

ADASYN (Adaptive Artificial) ähnelt SMOTE, konzentriert sich jedoch darauf, neue Beispiele in den schwieriger zu erlernenden Teilen der kleineren Gruppe zu erstellen. Es werden die Beispiele gefunden, die am schwierigsten zu klassifizieren sind, und weitere neue Punkte rund um diese hervorgebracht. Dies hilft dem Modell, die herausfordernden Bereiche besser zu verstehen.

👍 Am besten, wenn einige Teile Ihrer Daten schwerer zu klassifizieren sind als andere
👍 Am besten für komplexe Datensätze mit anspruchsvollen Bereichen geeignet
👎 Nicht empfohlen, wenn Ihre Daten recht einfach und unkompliziert sind

ADASYN erstellt mehr synthetische Punkte aus der kleineren Gruppe (A) in „schwierigen Bereichen“, in denen A-Punkte nahe an anderen Gruppen (B und C) liegen. Es generiert auch neue B-Punkte in ähnlichen Bereichen.

Durch Unterabtastung wird die größere Gruppe verkleinert, um sie in ihrer Größe der kleineren Gruppe anzunähern. Es gibt verschiedene Möglichkeiten, dies zu tun:

Zufällige Unterabtastung

Zufällige Unterabtastung Entfernt Beispiele aus der größeren Gruppe nach dem Zufallsprinzip, bis sie die gleiche Größe wie die kleinere Gruppe haben. Genau wie die zufällige Überabtastung ist die Methode ziemlich einfach, aber sie kann wichtige Informationen vernichten, die wirklich zeigen, wie unterschiedlich die Gruppen sind.

👍 Am besten für sehr große Datensätze mit vielen sich wiederholenden Beispielen geeignet
👍 Am besten, wenn Sie eine schnelle, einfache Lösung benötigen
👎 Nicht empfohlen, wenn jedes Beispiel in Ihrer größeren Gruppe wichtig ist
👎 Nicht empfohlen, wenn Sie es sich nicht leisten können, Informationen zu verlieren

Bei der zufälligen Unterabtastung werden zufällig ausgewählte Punkte aus den größeren Gruppen (B und C) entfernt, während alle Punkte aus der kleineren Gruppe (A) unverändert bleiben.

Tomek-Hyperlinks

Tomek-Hyperlinks ist eine Unterabtastungsmethode, die die „Linien“ zwischen Gruppen klarer macht. Es wird nach Paaren von Beispielen aus verschiedenen Gruppen gesucht, die wirklich ähnlich sind. Wenn ein Paar gefunden wird, bei dem die Beispiele die nächsten Nachbarn des anderen sind, aber zu unterschiedlichen Gruppen gehören, wird das Beispiel aus der größeren Gruppe entfernt.

👍 Am besten, wenn sich Ihre Gruppen zu sehr überschneiden
👍 Am besten zum Bereinigen unordentlicher oder verrauschter Daten geeignet
👍 Am besten, wenn Sie klare Grenzen zwischen Gruppen benötigen
👎 Nicht empfohlen, wenn Ihre Gruppen bereits intestine getrennt sind

Tomek Hyperlinks identifiziert Punktepaare aus verschiedenen Gruppen (AB, BC), die einander am nächsten liegen. Punkte aus den größeren Gruppen (B und C), die diese Paare bilden, werden dann entfernt, während alle Punkte aus der kleineren Gruppe (A) behalten werden.“

Beinahe verfehlt

Beinahe verfehlt ist eine Reihe von Unterabtastungstechniken, die nach unterschiedlichen Regeln arbeiten:

  • Quick Miss-1: Behält Beispiele aus der größeren Gruppe bei, die den Beispielen in der kleineren Gruppe am nächsten kommen.
  • Quick Miss-2: Behält Beispiele aus der größeren Gruppe bei, die den geringsten durchschnittlichen Abstand zu ihren drei nächsten Nachbarn in der kleineren Gruppe haben.
  • Quick Miss-3: Behält Beispiele aus der größeren Gruppe bei, die am weitesten von anderen Beispielen in ihrer eigenen Gruppe entfernt sind.

Die Hauptidee besteht darin, die informativsten Beispiele aus der größeren Gruppe zu behalten und diejenigen zu entfernen, die nicht so wichtig sind.

👍 Am besten, wenn Sie die Kontrolle darüber haben möchten, welche Beispiele Sie behalten möchten
👎 Nicht empfohlen, wenn Sie eine einfache, schnelle Lösung benötigen

NearMiss-1 behält Punkte von den größeren Gruppen (B und C), die der kleineren Gruppe (A) am nächsten liegen, während der Relaxation entfernt wird. Hier werden nur die B- und C-Punkte beibehalten, die den A-Punkten am nächsten liegen.

ENN

Nächste Nachbarn bearbeitet (ENN)-Methode entfernt Beispiele, bei denen es sich wahrscheinlich um Rauschen oder Ausreißer handelt. Für jedes Beispiel in der größeren Gruppe prüft es, ob die meisten seiner nächsten Nachbarn derselben Gruppe angehören. Ist dies nicht der Fall, wird das Beispiel entfernt. Dies trägt dazu bei, klarere Grenzen zwischen den Gruppen zu schaffen.

👍 Am besten zum Bereinigen unordentlicher Daten geeignet
👍 Am besten, wenn Sie Ausreißer entfernen müssen
👍 Am besten geeignet, um klarere Gruppengrenzen zu schaffen
👎 Nicht empfohlen, wenn Ihre Daten bereits sauber und intestine organisiert sind

ENN entfernt Punkte aus größeren Gruppen (B und C), deren nächste Nachbarn mehrheitlich zu einer anderen Gruppe gehören. Im rechten Diagramm werden durchgestrichene Punkte entfernt, da die meisten ihrer nächsten Nachbarn aus anderen Gruppen stammen.

SMOTETomek

SMOTETomek funktioniert, indem zunächst mit SMOTE neue Beispiele für die kleinere Gruppe erstellt werden und dann unordentliche Grenzen aufgeräumt werden, indem „verwirrende“ Beispiele mithilfe von Tomek Hyperlinks entfernt werden. Dies trägt dazu bei, einen ausgewogeneren Datensatz mit klareren Grenzen und weniger Rauschen zu erstellen.

👍 Am besten für unausgeglichene Daten geeignet, die wirklich schwerwiegend sind
👍 Am besten, wenn Sie sowohl mehr Beispiele als auch klarere Grenzen benötigen
👍 Am besten geeignet, wenn es um laute, sich überschneidende Gruppen geht
👎 Nicht empfohlen, wenn Ihre Daten bereits sauber und intestine organisiert sind
👎 Nicht für kleine Datensätze empfohlen

SMOTETomek kombiniert zwei Schritte: Zuerst wird SMOTE angewendet, um neue A-Punkte entlang von Linien zwischen vorhandenen A-Punkten zu erstellen (dargestellt im mittleren Diagramm), und dann werden Tomek-Hyperlinks aus größeren Gruppen (B und C) entfernt. Das Endergebnis weist ausgeglichenere Gruppen mit klareren Grenzen zwischen ihnen auf.

SMOTEENN

SMOTEENN funktioniert, indem zunächst mit SMOTE neue Beispiele für die kleinere Gruppe erstellt werden und dann mit ENN beide Gruppen bereinigt werden, indem Beispiele entfernt werden, die nicht intestine zu ihren Nachbarn passen. Genau wie SMOTETomek trägt dies dazu bei, einen saubereren Datensatz mit klareren Grenzen zwischen den Gruppen zu erstellen.

👍 Am besten zum gleichzeitigen Aufräumen beider Gruppen
👍 Am besten, wenn Sie mehr Beispiele, aber sauberere Daten benötigen
👍 Am besten, wenn es um viele Ausreißer geht
👎 Nicht empfohlen, wenn Ihre Daten bereits sauber und intestine organisiert sind
👎 Nicht für kleine Datensätze empfohlen

SMOTEENN kombiniert zwei Schritte: Zuerst wird SMOTE verwendet, um neue A-Punkte entlang von Linien zwischen vorhandenen A-Punkten zu erstellen (mittleres Diagramm), dann wird ENN angewendet, um Punkte aus größeren Gruppen (B und C) zu entfernen, deren nächste Nachbarn größtenteils aus unterschiedlichen Gruppen stammen. Das endgültige Diagramm zeigt den bereinigten, ausgeglichenen Datensatz.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert