Browser-basierter XGBOOST: Zugmodelle problemlos on-line

Heutzutage ist maschinelles Lernen ein wesentlicher Bestandteil verschiedener Branchen wie Finanzen, Gesundheitswesen, Software program und Datenwissenschaft geworden. Um ein gutes und funktionierendes ML -Modell zu entwickeln, ist es wichtig, die erforderlichen Umgebungen und Instruments einzurichten, und manchmal kann es auch viele Probleme verursachen. Stellen Sie sich jetzt Trainingsmodelle wie Xgboost direkt in Ihrem Browser ohne komplexe Setups und Installationen vor. Dies vereinfacht nicht nur den Prozess, sondern macht maschinelles Lernen auch für alle zugänglicher. In diesem Artikel werden wir uns mit dem Browser-basierten Xgboost befassen und wie Sie es verwenden, um Modelle in unseren Browsern zu trainieren.

Was ist Xgboost?

Excessive Gradientenverstärkung oder Xgboost Kurz gesagt, ist eine skalierbare und effiziente Implementierung der Gradienten -Boosting -Technik für Geschwindigkeit, Leistung und Skalierbarkeit. Es ist eine Artwork Ensemble -Technik, die mehrere schwache Lernende kombiniert, um Vorhersagen zu treffen, wobei jeder Lernende auf dem vorherigen aufbaut, um Fehler zu korrigieren.

Wie funktioniert es?

Xgboost ist eine Ensemble -Technik, die verwendet EntscheidungsbäumeFoundation oder schwache Lernende und verwenden Regularisierungstechniken zur Verbesserung der Modellverallgemeinerung. Dies hilft auch bei der Reduzierung der Chancen des Modells übertreffen. Die Bäume (Grundlerner) verwenden einen sequentiellen Ansatz, damit jeder nachfolgende Baum versucht, die Fehler des vorherigen Baumes zu minimieren. So lernt jeder Baum aus den Fehlern des vorherigen Baumes, und der nächste wird auf den aktualisierten Residuen aus dem vorherigen geschult.

Dies versucht, die Fehler der vorherigen zu korrigieren, indem die Verlustfunktion optimiert wird. So wird sich die Leistung des Modells mit jeder Iteration zunehmend verbessern. Die wichtigsten Merkmale von Xgboost sind:

Regularisierung
Baumbeschneiden
Parallele Verarbeitung

Wie trainiere ich im Browser?

Wir werden verwenden Trainxgb Um unser Xgboost -Modell vollständig auf dem Browser zu trainieren. Dafür werden wir die verwenden HAUSPREISPREISPRÜFUNGSDATASET von Kaggle. In diesem Abschnitt werde ich Sie durch jeden Schritt des Browser -Modelltrainings führen, die entsprechenden Hyperparameter auswählen und die Schlussfolgerung des geschulten Modells bewerten, die alle mit dem Datensatz für die Preisvorhersage verwendet werden.

Die Daten verstehen

Beginnen wir nun mit dem Hochladen des Datensatzes. Klicken Sie additionally auf Datei wählen und wählen Sie Ihren Datensatz aus, auf dem Sie Ihr Modell trainieren möchten. Mit der Anwendung können Sie ein CSV -Separator auswählen, um Fehler zu vermeiden. Öffnen Sie Ihre CSV -Datei, überprüfen Sie, wie die Funktionen oder Spalten getrennt sind, und wählen Sie die aus. Andernfalls wird ein Fehler angezeigt, wenn Sie einige andere auswählen.

Nachdem Sie überprüft haben, wie sich die Funktionen Ihres Datensatzes miteinander beziehen, klicken Sie einfach auf die Beschreibung „Datensatz anzeigen“. Es gibt uns eine kurze Zusammenfassung der wichtigen Statistiken aus den numerischen Spalten des Datensatzes. Es gibt Werte wie Mittelwert, Standardabweichung (die die Verbreitung von Daten zeigt), die minimalen und maximalen Werte sowie die 25., 50. und 75. Perzentile. Wenn Sie darauf klicken, wird die Beschreibungsmethode ausgeführt.

Auswählen der Funktionen für den Zugtest aufgeteilt

Sobald Sie die Daten erfolgreich hochgeladen haben, klicken Sie auf die Konfiguration Button, und es führt zum nächsten Schritt, in dem wir die wichtigen Funktionen für das Coaching und die Zielfunktion auswählen (das, was unser Modell vorhersagen wird). Für diesen Datensatz ist es „Preis“, additionally wählen wir das aus.

Einrichten der Hyperparameter

Danach ist es als nächstes, den Modelltyp auszuwählen, unabhängig davon, ob es sich um einen Klassifikator oder ein Regressor handelt. Dies hängt vollständig von dem von Ihnen gewählten Datensatz ab. Überprüfen Sie, ob Ihre Zielspalte kontinuierliche oder diskrete Werte aufweist. Wenn es diskrete Werte hat, handelt es sich um ein Klassifizierungsproblem, und wenn die Spalte kontinuierliche Werte enthält, dann handelt es sich um ein Regressionsproblem.

Basierend auf dem ausgewählten Modelltyp wählen wir auch die Bewertungsmetrik aus, die dazu beiträgt, den Verlust zu minimieren. In meinem Fall muss ich die Preise der Häuser vorhersagen, additionally ist es ein kontinuierliches Drawback, und daher habe ich den Regressor für die niedrigste RMSE ausgewählt.

Außerdem können wir steuern, wie unsere Xgboost -Bäume wachsen, indem wir die Hyperparameter auswählen. Diese Hyperparameter umfassen:

Baummethode: In der Baummethode können wir HIST, Auto, Exakt, Ca. und GPU_HIST auswählen. Ich habe Hist verwendet, da es schneller und effizienter ist, wenn wir große Datensätze haben.
Maximale Tiefe: Dies setzt die maximale Tiefe jedes Entscheidungsbaums. Eine hohe Zahl bedeutet, dass der Baum komplexere Muster lernen kann, aber keine sehr hohe Zahl festlegen kann, da er zu Überanpassung führen kann.
Anzahl der Bäume: Standardmäßig wird es auf 100 eingestellt. Es bedeutet die Anzahl der Bäume, die zum Coaching unseres Modells verwendet werden. Mehr Bäume verbessern idealerweise die Leistung des Modells, machen aber auch das Coaching langsamer.
Unterprobe: Es ist der Anteil der Trainingsdaten, die jedem Baum gefüttert werden. Wenn es 1 ist, bedeutet dies alle Zeilen, um einen niedrigeren Wert zu behalten, um die Wahrscheinlichkeit einer Überanpassung zu verringern.
ETA: Für die Lernrate stellt es kontrolliert, wie viel das Modell in jedem Schritt lernt. Ein niedrigerer Wert bedeutet langsamer und genau.
ColSample_Bytree/bylevel/bynode: Diese Parameter helfen bei der zufälligen Auswahl von Spalten beim Anbau des Baumes. Ein niedrigerer Wert führt zu Zufälligkeit und hilft bei der Verhinderung von Überanpassung.

Trainieren Sie das Modell

Nach dem Einrichten der Hyperparameter besteht der nächste Schritt darin, das Modell zu trainieren und dazu zu tun Coaching & Ergebnisse und klicken Sie auf Zug xgboostund das Coaching wird beginnen.

Es zeigt auch eine Echtzeit-Grafik, damit Sie den Fortschritt des Modelltrainings in Echtzeit überwachen können.

Sobald das Coaching abgeschlossen ist, können Sie die geschulten Gewichte herunterladen und später vor Ort verwenden. Es zeigt auch die Funktionen, die im Trainingsprozess in einem Balkendiagramm am meisten geholfen haben.

Überprüfen Sie die Leistung des Modells in den Testdaten

Jetzt haben wir unser Modell trainiert und auf den Daten abgestimmt. Versuchen wir additionally die Testdaten, um die Leistung des Modells anzuzeigen. Laden Sie dazu die Testdaten hoch und wählen Sie die Zielspalte aus.

Klicken Sie nun auf Inferenz laufen Um die Leistung des Modells über die Testdaten zu sehen.

Abschluss

In der Vergangenheit mussten das Erstellen von Modellen für maschinelles Lernen um Umgebungen eingerichtet und den Code manuell geschrieben. Aber jetzt verändern Instruments wie TrainxGB das komplett. Hier müssen wir nicht einmal eine einzige Codezeile schreiben, da alles im Browser ausgeführt wird. Plattformen wie TrainxGB machen es so einfach, wie wir echte Datensätze hochladen, die Hyperparameter festlegen und die Leistung des Modells bewerten können. Diese Verschiebung in Richtung Browser-basierter maschinelles Lernen ermöglicht es mehr Menschen, zu lernen und zu testen, ohne sich um das Setup zu sorgen. Es beschränkt sich jedoch nur auf einige Modelle, aber in Zukunft können neue Plattformen mit leistungsstärkeren Algorithmen und Funktionen ausgestattet sein.

Hallo! Ich bin Vipin, ein leidenschaftlicher Information Science und maschinelles Lernen, der eine starke Grundlage für die Datenanalyse, Algorithmen und Programmierung maschinelles Lernens und Programmierung hat. Ich habe praktische Erfahrungen beim Aufbau von Modellen, beim Verwalten unordentlicher Daten und die Lösung realer Probleme. Mein Ziel ist es, datengesteuerte Erkenntnisse anzuwenden, um praktische Lösungen zu erstellen, die Ergebnisse erzielen. Ich bin bestrebt, meine Fähigkeiten in einer kollaborativen Umgebung beizutragen und gleichzeitig in den Bereichen Datenwissenschaft, maschinelles Lernen und NLP zu lernen und zu wachsen.

Browser-basierter XGBOOST: Zugmodelle problemlos on-line