Ein Anfängerleitfaden zum überwachten maschinellen Lernen

Maschinelles Lernen (ML) ermöglicht es Computern, Muster aus Daten zu lernen und selbst Entscheidungen zu treffen. Betrachten Sie es als Lehrmaschinen, wie man „aus Erfahrung lernt“. Wir ermöglichen der Maschine, die Regeln aus Beispielen zu lernen, anstatt sie zu färben. Es ist das Konzept im Zentrum der KI -Revolution. In diesem Artikel werden wir über das überwachte Lernen, seine unterschiedlichen Typen und einige der gemeinsamen Algorithmen, die unter den überwachten Lernschirm fallen, übergehen.

Was ist maschinelles Lernen?

Grundsätzlich ist maschinelles Lernen der Prozess der Ermittlung von Mustern in Daten. Das Hauptkonzept besteht darin, Modelle zu erstellen, die sich bei frischen, ungetesteten Daten intestine abfinden. ML kann weitgehend in drei Bereiche eingeteilt werden:

Überwachendes Lernen
Unbeaufsichtigtes Lernen
Verstärkungslernen

Einfaches Beispiel: Schüler in einem Klassenzimmer

In Überwachendes Lernenein Lehrer gibt den Schülern Fragen und Antworten (z. B. „2 + 2 = 4“) und befragt sie später, um zu überprüfen, ob er sich an das Muster erinnert.
In unbeaufsichtigtes LernenSchüler erhalten einen Haufen Daten oder Artikel und gruppieren sie nach Thema. Sie lernen ohne Etiketten, indem sie Ähnlichkeiten identifizieren.

Lassen Sie uns nun versuchen, überwacht zu verstehen Maschinelles Lernen technisch.

Was ist beaufsichtigtes maschinelles Lernen?

Beim überwachten Lernen lernt das Modell aus beschrifteten Daten, indem sie Pairs-Output-Paare aus einem Datensatz verwenden. Die Zuordnung zwischen den Eingängen (auch als Merkmale oder unabhängige Variablen bezeichnet) und Ausgänge (auch als Bezeichnungen oder abhängige Variablen bezeichnet) wird vom Modell gelernt. Vorhersagen für unbekannte Daten mithilfe dieser gelernten Beziehung ist das Ziel. Ziel ist es, Vorhersagen über unsichtbare Daten auf der Grundlage dieser erlernten Beziehung zu treffen. Überwachende Lernaufgaben fallen in zwei Hauptkategorien:

1. Klassifizierung

Die Ausgangsvariable in der Klassifizierung ist kategorisch, was bedeutet, dass sie in eine bestimmte Gruppe von Klassen fällt.

Beispiele:

E -Mail -Spam -Erkennung
- Eingang: E -Mail -Textual content
- Ausgabe: Spam oder nicht Spam
Handgeschriebene Ziffernerkennung (MNIST)
- Eingang: Bild einer Ziffer
- Ausgabe: Ziffer von 0 bis 9

2. Regression

Die Ausgangsvariable in der Regression ist kontinuierlich, dh sie kann eine beliebige Anzahl von Werten haben, die in einen bestimmten Bereich fallen.

Beispiele:

Hauspreisvorhersage
- Eingang: Größe, Lage, Anzahl der Zimmer
- Ausgabe: Hauspreis (in Greenback)
Aktienkursprognose
- Eingang: Vorherige Preise, Volumen gehandelt
- Ausgabe: Schließungspreis am nächsten Tag

Überwachter Lernworkflow

Ein typischer Algorithmus für maschinelles Lernen folgt dem folgenden Workflow:

Datenerfassung: Das Sammeln markierter Daten ist der erste Schritt, bei dem sowohl die richtigen Ausgänge (Beschriftungen) als auch die Eingänge (unabhängige Variablen oder Merkmale) erfasst werden.
Datenvorverarbeitung: Vor dem Coaching müssen unsere Daten gereinigt und vorbereitet werden, da reale Daten häufig unorganisiert und unstrukturiert werden. Dies beinhaltet den Umgang mit fehlenden Werten, Normalisierung von Skalen, Codierung von Textual content in Zahlen und Formatierung von Daten angemessen.
Zugtest geteilt: Um zu testen, wie intestine Ihr Modell auf neue Daten verallgemeinert wird, müssen Sie den Datensatz in zwei Teile aufteilen: eines für das Coaching des Modells und eines zum Testen. In der Regel verwenden Datenwissenschaftler rund 70–80% der Daten für das Coaching und reservieren den Relaxation für Assessments oder Validierung. Die meisten Menschen verwenden 80-20 oder 70-30 Splits.
Modellauswahl: Abhängig von der Artwork des Issues (Klassifizierung oder Regression) und der Artwork Ihrer Daten wählen Sie einen geeigneten Algorithmus für maschinelles Lernen, wie lineare Regression zur Vorhersage von Zahlen oder Entscheidungsbäume für Klassifizierungsaufgaben.
Ausbildung: Die Trainingsdaten werden dann verwendet, um das ausgewählte Modell zu trainieren. Das Modell erlangt Kenntnisse über die grundlegenden Tendencies und Verbindungen zwischen den Eingangsmerkmalen und den Ausgangsbezeichnungen in diesem Schritt.
Auswertung: Die unsichtbaren Testdaten werden verwendet, um das Modell nach dem Coaching zu bewerten. Abhängig davon, ob es sich um eine Klassifizierungs- oder Regressionsaufgabe handelt, bewerten Sie ihre Leistung anhand von Metriken wie Genauigkeit, Präzision, Rückruf, RMSE oder F1-Rating.
Vorhersage: Zuletzt prognostiziert das geschulte Modell Ausgaben für neue reale Daten mit unbekannten Ergebnissen. Wenn es intestine funktioniert, können Groups es für Anwendungen wie Preisprognose, Betrugserkennung und Empfehlungssysteme verwenden.

Gemeinsame Algorithmen für maschinelles Lernen

Schauen wir uns nun einige der am häufigsten verwendeten ML -Algorithmen an. Hier halten wir die Dinge einfach und geben Ihnen einen Überblick darüber, was jeder Algorithmus tut.

1. Lineare Regression

Im Grunde genommen, lineare Regression Bestimmt die optimale geradlinige Beziehung (y = ax + b) zwischen einem kontinuierlichen Ziel (y) und Eingangsmerkmalen (x). Durch die Minimierung der Summe der quadratischen Fehler zwischen den erwarteten und den tatsächlichen Werten bestimmt sie die optimalen Koeffizienten (a, b). Es ist rechnerisch effizient für die Modellierung linearer Tendencies, z. B. die Vorhersage von Immobilienpreisen auf der Grundlage von Standort oder Quadratmeter, dank dieser mathematischen Lösung geschlossene Type. Wenn die Beziehungen ungefähr linear sind und die Interpretierbarkeit wichtig ist, scheint ihre Einfachheit.

2. Logistische Regression

Trotz seines Namens,, Logistische Regression Umgewandelt lineare Ausgänge in Wahrscheinlichkeiten, um die Binärklassifizierung anzugehen. Es drückt die Werte zwischen 0 und 1, die die Klassenwahrscheinlichkeit darstellen, unter Verwendung der Sigmoid -Funktion (1 / (1 + e⁻ᶻ)) (z. B. „Krebsrisiko: 87%“). Bei Wahrscheinlichkeitsschwellen (normalerweise 0,5) erscheinen Entscheidungsgrenzen. Aufgrund seiner probabilistischen Grundlage ist es perfekt für die medizinische Diagnose, wo das Verständnis von Unsicherheit genauso wichtig ist wie genaue Vorhersagen.

3. Entscheidungsbäume

Entscheidungsbäume sind ein einfaches Werkzeug für maschinelles Lernen für Klassifizierungs- und Regressionsaufgaben. Diese benutzerfreundlichen „If-ELSE“ -Circulate-Diagramme verwenden Function-Schwellenwerte (z. B. „Einkommen> $ 50.000?“), Um Datenarchisch hierarchisch zu teilen. Algorithmen wie Cart optimieren den Informationsgewinn (Senkung der Entropie/Varianz) an jedem Knoten, um Klassen oder Prognosewerte zu unterscheiden. Die endgültigen Vorhersagen werden durch terminale Blätter erzeugt. Obwohl sie das Risiko eingehen, laute Daten zu übertreffen, erklären ihre White-Field Nature AIDS-Banker bei der Erläuterung von Kreditverweigerungen („aufgrund der Kreditwürdigkeit <600 und der Schuldenquote> 40%“ verweigert).

4. Zufallswald

Eine Ensemble -Methode, bei der zufällige Merkmalsproben und Datenuntergruppen verwendet werden, um mehrere dekorrelierte zu konstruieren Entscheidungsbäume. Es verwendet die Mehrheitswahl, um Vorhersagen für die Klassifizierung und Durchschnittswerte für die Regression zu aggregieren. Bei der Modellierung von Kreditrisiken, bei denen einzelne Bäume das Geräusch für Muster verwirren können, ist sie strong, da sie die Varianz und die Überanpassung durch die Kombination einer Vielzahl von „schwachen Lernenden“ verringern.

5. Assist Vector Machines (SVM)

Im hochdimensionalen Raum bestimmen SVMs die beste Hyperebene, um Klassen maximal zu teilen. Um mit nichtlinearen Grenzen umzugehen, kartieren sie Daten implizit auf höhere Dimensionen mit Kernel-Tips (wie RBF). In Textual content-/Genomdaten, bei denen die Klassifizierung ausschließlich durch Schlüsselmerkmale definiert wird, bietet der Schwerpunkt auf „Unterstützungsvektoren“ (kritische Grenzfälle) Effizienz.

6. Ok-Nearest Nachbarn (KNN)

Ein fauler, instanzbasierter Algorithmus, bei dem die Mehrheit der Ok-Nachbarn im Merkmalsraum die Mehrheit verwendet, um Punkte zu klassifizieren. Die Ähnlichkeit wird durch Entfernungsmetriken (euklidisch/Manhattan) gemessen und die Glättung durch ok gesteuert. Es verfügt über keine Trainingsphase und passt sofort an neue Daten an, wodurch es preferrred für Empfehlungssysteme ist, die Filmempfehlungen auf der Grundlage ähnlicher Benutzerpräferenzen abgeben.

7. Naive Bayes

Dieser probabilistische Klassifizierer geht aus der mutigen Annahme, dass Merkmale bedingt unabhängig sind, da die Klasse Bayes ‚Theorem angewendet wird. Es verwendet die Frequenzzahlen, um die posterioren Wahrscheinlichkeiten trotz dieser „Naivität“ schnell zu berechnen. Millionen von E-Mails werden von Spam-Filtern in Echtzeit aufgrund ihrer o (N) -Komplexität und spärlichen Datentoleranz gescannt.

8. Gradienten -Boosting (Xgboost, LightGBM)

Ein sequentielles Ensemble, in dem jeder neue schwache Lernende (Baum) die Fehler seines Vorgängers behebt. Durch die Verwendung von Gradientenabsenken zur Optimierung der Verlustfunktionen (z. B. Quadratfehler) passt es zu Residuen. Durch Hinzufügen von Regularisierungs- und Parallelverarbeitung dominieren erweiterte Implementierungen wie XGBOOST Kaggle -Wettbewerbe, indem sie die Genauigkeit für tabellarische Daten mit komplizierten Interaktionen erreicht.

Anwendungen in der Praxis

Einige der Anwendungen des überwachten Lernens sind:

Gesundheitspflege: Überwachtes Lernen revolutioniert Diagnostik. Faltungsfischnetzwerke (CNNs) klassifizieren Tumoren in MRT -Scans mit einer Genauigkeit von über 95%, während Regressionsmodelle die Lebensdauer der Patienten oder die Wirksamkeit von Arzneimitteln vorhersagen. Beispielsweise erkennt LYNA von Google Brustkrebsmetastasen schneller als menschliche Pathologen und ermöglicht frühere Interventionen.
Finanzen: Klassifizierer werden von Banken zur Erkennung von Krediten und Betrugsbetrug verwendet, um Transaktionsmuster zu analysieren, um Unregelmäßigkeiten zu identifizieren. Regressionsmodelle verwenden historische Marktdaten, um Kreditausfälle oder Aktientrends vorherzusagen. Durch die Automatisierung der Dokumentenanalyse spart die Coin -Plattform von JPMorgan 360.000 Arbeitsstunden professional Jahr.
Einzelhandel und Advertising: Eine Kombination von Techniken, die als kollaborative Filterung bezeichnet werden, wird von den Empfehlungsmotoren von Amazon verwendet, um Produktempfehlungen abzugeben und den Umsatz um 35percentzu steigern. Regression prognostiziert Spikes für die Bestandsoptimierung, während Klassifikatoren den Kaufhistorie verwenden, um den Verlust von Kunden vorherzusagen.
Autonome Systeme: Selbstfahrende Autos verlassen sich auf Echtzeit-Objektklassifizierer wie Yolo („Sie schauen nur einmal“), um Fußgänger und Verkehrszeichen zu identifizieren. Regressionsmodelle berechnen Kollisionsrisiken und Lenkwinkel und ermöglichen eine sichere Navigation in dynamischen Umgebungen.

Kritische Herausforderungen und Minderungen

Herausforderung 1: Überanpassung im Vergleich zu Unteranpassung

Überanpassung tritt auf, wenn Modelle das Coaching -Rauschen auswendig merken und neue Daten fehlschlagen. Lösungen umfassen die Regularisierung (Bestrafung der Komplexität), Kreuzvalidierung und Ensemble-Methoden. Unteranpassungen ergibt sich aus der Vereinfachung; Bei den Fixes beinhaltet Function Engineering oder Superior Algorithmen. Die Balancing beides optimiert die Verallgemeinerung.

Herausforderung 2: Datenqualität & Voreingenommenheit

Vorgespannte Daten erzeugen diskriminierende Modelle, insbesondere im Stichprobenprozess (z. B. geschlechtsspezifische Einstellungswerkzeuge). Zu den Minderungen gehören die Erzeugung der synthetischen Daten (SMOTE), fairnessbewusste Algorithmen und verschiedene Datenbeschaffungen. Rigorose Audits und „Modellkarten“, die Einschränkungen dokumentieren, verbessern die Transparenz und Rechenschaftspflicht.

Herausforderung 3: Der „Fluch der Dimensionalität“

Hochdimensionale Daten (10K-Funktionen) erfordert eine exponentiell größere Anzahl von Proben, um Sparsamkeit zu vermeiden. Dimensionalitätsreduktionstechniken wie PCA (Hauptkomponentenanalyse), LDA (Lineare Discriminant Evaluation) nehmen diese spärlichen Merkmale auf und reduzieren diese gleichzeitig die informativen Informationen, sodass Analysten bessere Entscheidungen auf der Grundlage kleinerer Gruppen treffen können, was die Effizienz und Genauigkeit verbessert.

Abschluss

Überwachtes maschinelles Lernen (SML) überbrückt die Lücke zwischen Rohdaten und intelligenten Aktionen. Durch das Lernen aus beschrifteten Beispielen können Systeme genaue Vorhersagen und fundierte Entscheidungen treffen, von der Filterung von Spam und Erkennung von Betrug bis hin zur Vorhersage von Märkten und Unterstützung des Gesundheitswesens. In diesem Leitfaden haben wir den grundlegenden Workflow, die Schlüsseltypen (Klassifizierung und Regression) und wesentliche Algorithmen behandelt, die reale Anwendungen betreiben. SML prägt weiterhin das Rückgrat vieler Technologien, auf die wir uns jeden Tag verlassen, oft ohne es zu merken.

Genai Praktikant @ Analytics Vidhya | Letzte Jahr @ Vit Chennai
Leidenschaftlich für KI und maschinelles Lernen, ich bin bestrebt, als KI/ML -Ingenieur oder Datenwissenschaftler in Rollen einzutauchen, wo ich einen echten Einfluss haben kann. Ich freue mich sehr, revolutionary Lösungen und hochmoderne Fortschritte auf den Tisch zu bringen. Meine Neugier treibt mich an, KI über verschiedene Bereiche hinweg zu erkunden und die Initiative zu ergreifen, um sich mit Information Engineering zu befassen, um sicherzustellen, dass ich vorne bleibe und wirksame Projekte liefere.

Ein Anfängerleitfaden zum überwachten maschinellen Lernen

Was ist maschinelles Lernen?

Einfaches Beispiel: Schüler in einem Klassenzimmer