Es ist sehr einfach, jedes Modell zu trainieren. Und der Trainingsprozess erfolgt immer mit der scheinbar gleichen Passform. Daher gewöhnen wir uns an die Vorstellung, dass das Coaching jedes Modells ähnlich und einfach ist.

Mit AutoML, Grid Search und Gen AI können Modelle für maschinelles Lernen mit einer einfachen „Eingabeaufforderung“ „trainiert“ werden.

Die Realität ist jedoch, dass der Prozess, wenn wir mannequin.match durchführen, hinter jedem Modell sehr unterschiedlich sein kann. Und jedes Modell selbst arbeitet ganz anders mit den Daten.

Wir können zwei sehr unterschiedliche Developments beobachten, die quick in zwei entgegengesetzte Richtungen gehen:

  • Einerseits trainieren, verwenden, manipulieren und prognostizieren wir Modelle (z. B. generative Modelle), die immer komplexer werden.
  • Andererseits sind wir nicht immer in der Lage, einfache Modelle (wie lineare Regression, linearer Diskriminanzklassifikator) zu erklären und Ergebnisse manuell neu zu berechnen.

Es ist wichtig, die von uns verwendeten Modelle zu verstehen. Und der beste Weg, sie zu verstehen, besteht darin, sie selbst umzusetzen. Manche Leute machen es mit Python, R oder anderen Programmiersprachen. Aber es gibt immer noch eine Hürde für diejenigen, die nicht programmieren. Und heutzutage ist es für jeden von entscheidender Bedeutung, KI zu verstehen. Darüber hinaus kann die Verwendung einer Programmiersprache auch dazu führen, dass einige Operationen hinter bereits vorhandenen Funktionen verborgen bleiben. Und es wird nicht visuell erklärt, was bedeutet, dass jede Operation nicht klar dargestellt wird, da die Funktion so codiert ist, dass sie dann ausgeführt wird, um nur die Ergebnisse anzuzeigen.

Meiner Meinung nach ist Excel das beste Device zum Erkunden. Mit den Formeln, die jeden Schritt der Berechnungen klar darstellen.

Wenn wir einen Datensatz erhalten, öffnen ihn die meisten Nicht-Programmierer tatsächlich in Excel, um zu verstehen, was darin enthalten ist. Dies kommt in der Geschäftswelt sehr häufig vor.

Sogar viele Datenwissenschaftler, mich eingeschlossen, nutzen Excel, um einen kurzen Blick darauf zu werfen. Und wenn es darum geht, die Ergebnisse zu erklären, ist die direkte Darstellung in Excel oft die effektivste Möglichkeit, insbesondere vor Führungskräften.

In Excel ist alles so sichtbar. Es gibt keine „Blackbox“. Sie können jede Formel, jede Zahl, jede Berechnung sehen.

Dies hilft sehr, ohne Abkürzungen zu verstehen, wie die Modelle wirklich funktionieren.

Außerdem müssen Sie nichts installieren. Nur eine Tabellenkalkulation.

Ich werde eine Reihe von Artikeln darüber veröffentlichen, wie das geht verstehen Und implementieren Modelle für maschinelles Lernen und Deep Studying in Excel.

Für den „Adventskalender“ werde ich jeden Tag einen Artikel veröffentlichen.

Erstellt von Gemini: „Adventskalender“ der KI

Für wen ist diese Serie?

Ich denke, dass diese Artikel für Studenten, die gerade studieren, eine praktische Sichtweise bieten. Es geht darum, komplexe Formeln zu verstehen.

Für ML- oder KI-Entwickler, die manchmal keine Theorie studiert haben – aber jetzt ohne komplizierte Algebra, Wahrscheinlichkeit oder Statistik können Sie die Blackbox hinter mannequin.match öffnen. Denn für alle Modelle machen Sie mannequin.match. Doch in Wirklichkeit können die Modelle sehr unterschiedlich sein.

Dies gilt auch für Supervisor, die möglicherweise nicht über den gesamten technischen Hintergrund verfügen, denen Excel jedoch alle intuitiven Ideen hinter den Modellen vermittelt. In Kombination mit Ihrem Fachwissen können Sie daher besser beurteilen, ob maschinelles Lernen wirklich notwendig ist und welches Modell möglicherweise besser geeignet ist.

Zusammenfassend geht es darum, die Modelle, das Coaching der Modelle, die Interpretierbarkeit der Modelle und die Verbindungen zwischen verschiedenen Modellen besser zu verstehen.

Aufbau der Artikel

Aus der Sicht eines Praktikers kategorisieren wir die Modelle normalerweise in die folgenden zwei Kategorien: überwachtes Lernen und unüberwachtes Lernen.

Für überwachtes Lernen gibt es dann Regression und Klassifizierung. Und für unbeaufsichtigtes Lernen gibt es Clustering und Dimensionsreduktion.

Überblick über Modelle des maschinellen Lernens aus Sicht eines Praktikers – Bild vom Autor

Aber Sie bemerken sicherlich bereits, dass einige Algorithmen möglicherweise den gleichen oder einen ähnlichen Ansatz verfolgen, wie z. B. KNN-Klassifikator vs. KNN-Regressor, Entscheidungsbaum-Klassifikator vs. Entscheidungsbaum-Regressor, lineare Regression vs. „linearer Klassifikator“.

Ein Regressionsbaum und eine lineare Regression haben das gleiche Ziel, nämlich die Durchführung einer Regressionsaufgabe. Wenn Sie jedoch versuchen, sie in Excel zu implementieren, werden Sie feststellen, dass der Regressionsbaum dem Klassifizierungsbaum sehr nahe kommt. Und die lineare Regression ähnelt eher einem neuronalen Netzwerk.

Und manchmal verwechseln Leute Okay-NN mit Okay-Mitteln. Manche mögen argumentieren, dass ihre Ziele völlig unterschiedlich seien und dass es ein Anfängerfehler sei, sie zu verwechseln. ABER wir müssen auch zugeben, dass sie den gleichen Ansatz zur Berechnung der Abstände zwischen den Datenpunkten verfolgen. Es besteht additionally eine Beziehung zwischen ihnen.

Das Gleiche gilt für den Isolationswald, da wir sehen können, dass es im Zufallswald auch einen „Wald“ gibt.

Deshalb werde ich alle Modelle aus theoretischer Sicht organisieren. Es gibt drei Hauptansätze, und wir werden deutlich sehen, wie diese Ansätze in Excel auf ganz unterschiedliche Weise implementiert werden.

Diese Übersicht wird uns helfen, durch die verschiedenen Modelle zu navigieren und die Zusammenhänge zwischen vielen von ihnen zu erkennen.

Übersicht über Modelle des maschinellen Lernens, geordnet nach theoretischen Ansätzen – Bild des Autors
  • Bei distanzbasierten Modellen berechnen wir lokale oder globale Distanzen zwischen einer neuen Beobachtung und dem Trainingsdatensatz.
  • Für baumbasierte Modelle müssen wir die Aufteilungen oder Regeln definieren, die zum Erstellen von Kategorien der Options verwendet werden.
  • Bei mathematischen Funktionen besteht die Idee darin, Gewichtungen auf Options anzuwenden. Und zum Trainieren des Modells wird hauptsächlich der Gradientenabstieg verwendet.
  • Bei Deep-Studying-Modellen gehen wir davon aus, dass es vor allem um das Characteristic-Engineering geht, um eine angemessene Darstellung der Daten zu erstellen.

Für jedes Modell werden wir versuchen, diese Fragen zu beantworten.

Allgemeine Fragen zum Modell:

  • Was ist die Natur des Modells?
  • Wie wird das Modell trainiert?
  • Was sind die Hyperparameter des Modells?
  • Wie kann derselbe Modellansatz für Regression, Klassifizierung oder sogar Clustering verwendet werden?

Wie Funktionen Sind modelliert:

  • Wie werden kategoriale Merkmale gehandhabt?
  • Wie werden fehlende Werte verwaltet?
  • Macht die Skalierung bei kontinuierlichen Options einen Unterschied?
  • Wie messen wir die Wichtigkeit einer Funktion?

Wie können wir uns qualifizieren? die Bedeutung der Funktionen? Auch diese Frage wird diskutiert. Sie wissen vielleicht, dass Pakete wie LIME und SHAP sehr beliebt sind und modellunabhängig sind. Die Wahrheit ist jedoch, dass sich jedes Modell ganz anders verhält, und es ist auch interessant und wichtig, es direkt mit dem Modell zu interpretieren.

Beziehungen zwischen verschiedenen Modellen

Jedes Modell wird in einem separaten Artikel behandelt, wir werden jedoch die Verbindungen zu anderen Modellen besprechen.

Wir werden auch die Beziehungen zwischen verschiedenen Modellen diskutieren. Da wir wirklich jede „Black Field“ öffnen, wissen wir auch, wie wir einige Modelle theoretisch verbessern können.

  • KNN und LDA (Lineare Diskriminanzanalyse) liegen sehr nahe beieinander. Der erste verwendet eine lokale Distanz und der zweite eine globale Distanz.
  • Die Gradientenverstärkung ist dasselbe wie der Gradientenabfall, nur der Vektorraum ist unterschiedlich.
  • Die lineare Regression ist ebenfalls ein Klassifikator.
  • Die Beschriftungskodierung kann gewissermaßen für kategoriale Funktionen verwendet werden und kann sehr nützlich und sehr leistungsfähig sein, aber Sie müssen die „Beschriftungen“ mit Bedacht auswählen.
  • SVM kommt der linearen Regression sehr nahe, sogar noch näher an der Ridge-Regression.
  • LASSO und SVM verwenden ein ähnliches Prinzip, um Options oder Datenpunkte auszuwählen. Wussten Sie, dass das zweite S in LASSO zur Auswahl steht?

Für jedes Modell werden wir auch einen bestimmten Punkt besprechen, der in den meisten herkömmlichen Kursen übersehen wird. Ich nenne es die ungelehrte Lektion des maschinellen Lernmodells.

Modelltraining vs. Hyperparameter-Tuning

In diesen Artikeln konzentrieren wir uns nur auf die Funktionsweise der Modelle und wie sie trainiert werden. Wir werden nicht auf die Optimierung von Hyperparametern eingehen, da der Prozess im Wesentlichen für jedes Modell derselbe ist. Normalerweise verwenden wir die Rastersuche.

Liste der Artikel

Nachfolgend finden Sie eine Liste, die ich ab dem 1. Dezember aktualisieren werde, indem ich jeden Tag einen Artikel veröffentliche!

Bis bald!

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert