Google Cloud-Plattform mit Datenflüssen

Ihre erste Machine Learning Pipeline auf Google Cloud einrichten

Unternehmen, die maschinelles Lernen (ML) nicht nutzen, riskieren, ins Hintertreffen zu geraten. Die Integration von ML-Modellen in Geschäftssysteme bietet einen entscheidenden Wettbewerbsvorteil. Eine Möglichkeit, dies zu erreichen, ist die Einrichtung einer ML-Pipeline in der Cloud, die Skalierbarkeit, Kosteneffizienz und vereinfachte Prozesse bietet. Dieser Artikel führt durch die Einrichtung einer solchen Pipeline auf der Google Cloud Platform (GCP).

Vorbereitung

Bevor Sie beginnen, benötigen Sie ein Google-Konto. Melden Sie sich in der Google Cloud Console an und erstellen Sie ein neues Projekt. Anschließend ist die Einrichtung der Abrechnungskonfiguration unerlässlich, da die GCP die Angabe von Zahlungsinformationen verlangt, selbst für kostenlose Testkonten. Die hier beschriebenen Schritte verbrauchen jedoch nur geringe Mengen Ihres kostenlosen Kontingents.

Aufbau der Machine Learning Pipeline auf GCP

Für dieses Beispiel wird der "Heart Attack Prediction" Datensatz von Kaggle verwendet. Laden Sie die Daten herunter und speichern Sie sie. Erstellen Sie anschließend einen Cloud Storage Bucket, um Ihren Datensatz zu speichern. Laden Sie die CSV-Datei in diesen Bucket hoch.

Als Nächstes wird eine BigQuery-Tabelle erstellt, um die Daten abzufragen. Suchen Sie nach "BigQuery", klicken Sie auf "Daten hinzufügen", wählen Sie "Google Cloud Storage" und wählen Sie die zuvor hochgeladene CSV-Datei aus. Konfigurieren Sie das Zielprojekt, den Datensatz und den Tabellennamen. Wählen Sie "Automatische Erkennung" für das Schema und erstellen Sie die Tabelle.

Nachdem Sie Vertex AI aktiviert und die empfohlenen APIs aktiviert haben, wählen Sie "Colab Enterprise" und erstellen Sie ein neues Notebook. Dieses Notebook dient als Arbeitsumgebung für die ML-Pipeline. Verbinden Sie sich mit einer Laufzeitumgebung; der Standard-Maschinentyp ist für dieses Beispiel ausreichend.

Datenabfrage und Modelltraining

Beginnen Sie mit der Abfrage der Daten aus der BigQuery-Tabelle mithilfe des BigQuery-Clients. Die abgerufenen Daten werden in einem Pandas DataFrame gespeichert.

Der Zielvariable (‚Outcome‘) wird eine numerische Kennzeichnung zugewiesen. Anschließend werden die Daten in Trainings- und Testsets aufgeteilt. Für dieses Beispiel werden nur numerische Spalten verwendet, was in realen Szenarien eine Vereinfachung darstellt, bei der Feature Engineering und Kodierung üblicherweise erforderlich wären.

Ein Logistische Regressionsmodell wird trainiert und seine Genauigkeit bewertet. Die Genauigkeit liegt in diesem Beispiel bei etwa 0,5, was für die Demonstration ausreicht.

Speicherung der Ergebnisse und Automatisierung

Die Vorhersagen des Modells werden zusammen mit den tatsächlichen Werten in einem neuen DataFrame vorbereitet. Dieser DataFrame wird dann in eine neue BigQuery-Tabelle gespeichert. Beachten Sie, dass die Zieltabelle überschrieben wird, falls sie bereits existiert.

Um den Prozess zu automatisieren, können Sie das Notebook planen. Gehen Sie zu den Aktionen des Notebooks und wählen Sie "Planen", um eine Ausführungshäufigkeit festzulegen, z. B. wöchentlich oder monatlich.

Fazit

Die Google Cloud Platform bietet eine unkomplizierte Möglichkeit, eine Machine-Learning-Pipeline einzurichten. Durch die Nutzung von Diensten wie Cloud Storage, BigQuery und Vertex AI sowie die Planung des Notebooks kann eine einfache, funktionale Pipeline erstellt werden. Für produktionsreife Setups werden fortgeschrittenere Optionen wie Kubeflow Pipelines (KFP) oder Vertex AI Pipelines empfohlen.

  • Einrichtung einer ML-Pipeline auf GCP mit Cloud Storage, BigQuery und Vertex AI.
  • Datenvorbereitung und Modelltraining in einem Colab Enterprise Notebook.
  • Automatisierung der Pipeline durch Notebook-Planung.
  • Möglichkeit zur Nutzung fortgeschrittenerer GCP-ML-Dienste für Produktionsumgebungen.
Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

You May Also Like