Einrichten einer Pipeline für maschinelles Lernen auf der Google Cloud -Plattform

Bild von Editor | Chatgpt

# Einführung

Das maschinelle Lernen ist ein wesentlicher Bestandteil vieler Unternehmen geworden, und Unternehmen, die es nicht nutzen, wird das Risiko zurückgelassen. Angesichts der Tatsache, dass kritische Modelle einen Wettbewerbsvorteil bieten, ist es natürlich, dass viele Unternehmen sie in ihre Systeme integrieren möchten.

Es gibt viele Möglichkeiten, ein Pipeline -System für maschinelles Lernen einzurichten, um ein Unternehmen zu unterstützen, und eine Choice besteht darin, es mit einem Cloud -Anbieter zu hosten. Die Entwicklung und Bereitstellung maschineller Lernmodelle in der Cloud haben viele Vorteile, einschließlich Skalierbarkeit, Kosteneffizienz und vereinfachter Prozesse im Vergleich zum Aufbau der gesamten Pipeline im Haus.

Die Auswahl der Cloud -Anbieter liegt beim Unternehmen. In diesem Artikel werden wir jedoch untersuchen, wie eine Pipeline für maschinelles Lernen auf der Google Cloud -Plattform (GCP) eingerichtet wird.

Fangen wir an.

# Vorbereitung

Sie müssen ein Google -Konto haben, bevor Sie fortfahren, da wir die GCP verwenden werden. Wenn Sie ein Konto erstellt haben, greifen Sie auf die zu Google Cloud Console.

Erstellen Sie in der Konsole ein neues Projekt.

Einrichten einer Pipeline für maschinelles Lernen auf der Google Cloud -Plattform

Dann müssen Sie vor allem Ihre Abrechnungskonfiguration einrichten. Auf der GCP -Plattform müssen Sie Ihre Zahlungsinformationen registrieren, bevor Sie die meisten Dinge auf der Plattform tun können, auch mit einem kostenlosen Testkonto. Sie müssen sich jedoch keine Sorgen machen, da das Beispiel, das wir verwenden, nicht viel von Ihrem kostenlosen Kredit verbraucht.

Einrichten einer Pipeline für maschinelles Lernen auf der Google Cloud -Plattform

Bitte geben Sie alle für den Begin des Projekts erforderlichen Abrechnungsinformationen an. Möglicherweise benötigen Sie auch Ihre Steuerinformationen und eine Kreditkarte, um sicherzustellen, dass sie fertig sind.

Lassen Sie uns bei allem mit GCP unsere Pipeline für maschinelles Lernen aufbauen.

# Pipeline für maschinelles Lernen mit Google Cloud -Plattform

Um unsere Pipeline für maschinelles Lernen aufzubauen, benötigen wir einen Beispiel -Datensatz. Wir werden die verwenden Herzinfarktvorhersage Datensatz von Kaggle für dieses Tutorial. Laden Sie die Daten herunter und speichern Sie sie für den Second irgendwo.

Als nächstes müssen wir den Datenspeicher für unseren Datensatz einrichten, den die Pipeline für maschinelles Lernen verwendet. Dazu müssen wir einen Speicherbucker für unseren Datensatz erstellen. Suchen Sie nach „Cloud -Speicher“, um einen Eimer zu erstellen. Es muss einen eindeutigen globalen Namen haben. Im Second müssen Sie keine der Standardeinstellungen ändern. Klicken Sie einfach auf die Schaltfläche Erstellen.

Einrichten einer Pipeline für maschinelles Lernen auf der Google Cloud -Plattform

Wenn der Eimer erstellt wurde, laden Sie Ihre CSV -Datei darauf hoch. Wenn Sie dies richtig gemacht haben, sehen Sie den Datensatz im Eimer.

Einrichten einer Pipeline für maschinelles Lernen auf der Google Cloud -Plattform

Als nächstes erstellen wir eine neue Tabelle, die wir mit dem BigQuery -Service abfragen können. Suchen Sie nach „BigQuery“ und klicken Sie auf „Daten hinzufügen“. Wählen Sie ‚Google Cloud Storage‘ und wählen Sie die CSV -Datei aus dem zuvor erstellten Bucket aus.

Einrichten einer Pipeline für maschinelles Lernen auf der Google Cloud -Plattform

Füllen Sie die Informationen, insbesondere das Projektziel, das Datensatzformular aus (erstellen Sie einen neuen Datensatz oder wählen Sie einen vorhandenen) und den Tabellennamen. Wählen Sie für das Schema „automatische Erkennung“ und erstellen Sie dann die Tabelle.

Einrichten einer Pipeline für maschinelles Lernen auf der Google Cloud -Plattform

Wenn Sie es erfolgreich erstellt haben, können Sie die Tabelle abfragen, um festzustellen, ob Sie auf den Datensatz zugreifen können.

Suchen Sie als Nächstes nach Scheitelpunkt AI und aktivieren Sie alle empfohlenen APIs. Sobald dies fertig ist, wählen Sie ‚Colab Enterprise‘.

Einrichten einer Pipeline für maschinelles Lernen auf der Google Cloud -Plattform

Wählen Sie ‚Pocket book erstellen‘, um das Notizbuch zu erstellen, das wir für unsere einfache Pipeline für maschinelles Lernen verwenden.

Einrichten einer Pipeline für maschinelles Lernen auf der Google Cloud -Plattform

Wenn Sie mit Google Colab vertraut sind, sieht die Schnittstelle sehr ähnlich aus. Sie können ein Notizbuch aus einer externen Quelle importieren, wenn Sie möchten.

Stellen Sie mit dem Pocket book eine Laufzeit her. Derzeit reicht der Standardmaschinenart aus, da wir nicht viele Ressourcen benötigen.

Beginnen wir unsere Entwicklung von maschinellem Lernen, indem wir Daten aus unserer BigQuery -Tabelle abfragen. Zunächst müssen wir den BigQuery -Consumer mit dem folgenden Code initialisieren.

from google.cloud import bigquery

shopper = bigquery.Consumer()

Fragen wir dann unseren Datensatz in der BigQuery -Tabelle mit dem folgenden Code ab. Ändern Sie die Projekt -ID, den Datensatz und den Tabellennamen so, dass sie dem, was Sie zuvor erstellt haben, übereinstimmen.

# TODO: Change along with your venture ID, dataset, and desk identify
question = """
SELECT *
FROM `your-project-id.your_dataset.heart_attack`
LIMIT 1000
"""
query_job = shopper.question(question)

df = query_job.to_dataframe()

Die Daten befinden sich jetzt in einem Pandas -Datenframe in unserem Pocket book. Lassen Sie uns unsere Zielvariable (‚Ergebnis‘) in ein numerisches Etikett verwandeln.

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

df('Final result') = df('Final result').apply(lambda x: 1 if x == 'Coronary heart Assault' else 0)

Als nächstes bereiten wir unser Trainings- und Testen von Datensätzen vor.

df = df.select_dtypes('quantity')

X = df.drop('Final result', axis=1)
y = df('Final result')

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

⚠️ Notiz: df = df.select_dtypes('quantity') wird verwendet, um das Beispiel zu vereinfachen, indem alle nicht numerischen Spalten fallen gelassen werden. In einem realen Szenario ist dies ein aggressiver Schritt, der nützliche kategorische Merkmale verwerfen könnte. Dies geschieht hier zum Einfachheit halber und normalerweise wird in der Regel technische oder codierende Codierung berücksichtigt.

Sobald die Daten fertig sind, schulen wir ein Modell und bewerten Sie seine Leistung.

mannequin = LogisticRegression()
mannequin.match(X_train, y_train)

y_pred = mannequin.predict(X_test)
print(f"Mannequin Accuracy: {accuracy_score(y_test, y_pred)}")

Die Modellgenauigkeit beträgt nur etwa 0,5. Dies könnte sicherlich verbessert werden, aber für dieses Beispiel werden wir mit diesem einfachen Modell fortfahren.

Verwenden wir nun unser Modell, um Vorhersagen zu treffen und die Ergebnisse vorzubereiten.

result_df = X_test.copy()
result_df('precise') = y_test.values
result_df('predicted') = y_pred
result_df.reset_index(inplace=True)

Schließlich werden wir die Vorhersagen unseres Modells in einer neuen BigQuery -Tabelle speichern. Beachten Sie, dass der folgende Code die Zieltabelle überschreibt, wenn sie bereits vorhanden ist, anstatt sich daran anzuschließen.

# TODO: Change along with your venture ID and vacation spot dataset/desk
destination_table = "your-project-id.your_dataset.heart_attack_predictions"
job_config = bigquery.LoadJobConfig(write_disposition=bigquery.WriteDisposition.WRITE_TRUNCATE)
load_job = shopper.load_table_from_dataframe(result_df, destination_table, job_config=job_config)
load_job.outcome()

Damit haben Sie in einem Scheitelpunkt -AI -Pocket book eine einfache Pipeline für maschinelles Lernen erstellt.

Um diesen Vorgang zu optimieren, können Sie das Pocket book so planen, dass sie automatisch ausgeführt werden. Gehen Sie zu den Aktionen Ihres Notebooks und wählen Sie „Zeitplan“.

Einrichten einer Pipeline für maschinelles Lernen auf der Google Cloud -Plattform

Wählen Sie die Frequenz aus, die das Notizbuch benötigt, um beispielsweise jeden Dienstag oder am ersten Tag des Monats auszuführen. Dies ist eine einfache Möglichkeit, um sicherzustellen, dass die Pipeline für maschinelles Lernen nach Bedarf ausgeführt wird.

Das ist es, eine einfache Pipeline für maschinelles Lernen auf GCP einzurichten. Es gibt viele andere, produktionsbereitere Möglichkeiten, eine Pipeline einzurichten, z.

# Abschluss

Die Google Cloud -Plattform bietet den Benutzern eine einfache Möglichkeit, eine Pipeline für maschinelles Lernen einzurichten. In diesem Artikel haben wir gelernt, wie man eine Pipeline mit verschiedenen Cloud -Diensten wie Cloud -Speicher, BigQuery und Vertex AI einrichtet. Durch das Erstellen der Pipeline in Pocket book -Type und das Planen, um sie automatisch auszuführen, können wir eine einfache funktionale Pipeline erstellen.

Ich hoffe das hat geholfen!

Cornellius Yudha Wijaya ist ein Information Science Assistant Supervisor und Datenautor. Während er in Vollzeit bei Allianz Indonesien arbeitet, liebt er es, Python- und Datentipps über soziale Medien und das Schreiben von Medien zu teilen. Cornellius schreibt über eine Vielzahl von KI- und maschinellen Lernthemen.

Einrichten einer Pipeline für maschinelles Lernen auf der Google Cloud -Plattform

# Einführung

# Vorbereitung

# Pipeline für maschinelles Lernen mit Google Cloud -Plattform

# Abschluss

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

Spektrales Clustering erklärt: Wie Eigenvektoren komplexe Clusterstrukturen aufdecken

Über die Genauigkeit hinaus: 5 Kennzahlen, die für KI-Agenten wirklich wichtig sind

So verbessern Sie die Effizienz Ihrer Produktionslinie durch kontinuierliche Optimierung

Daten installieren, verbinden und verwalten

About

Categories

Tags

Recent Post

Spektrales Clustering erklärt: Wie Eigenvektoren komplexe Clusterstrukturen aufdecken

Über die Genauigkeit hinaus: 5 Kennzahlen, die für KI-Agenten wirklich wichtig sind

# Einführung

# Vorbereitung

# Pipeline für maschinelles Lernen mit Google Cloud -Plattform

# Abschluss

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt