Training custom models on Vertex AI

Google Cloud Tech
18 Aug 202208:51

Summary

TLDRIn dieser Episode von "Prototype to Production" lernen wir, wie man benutzerdefinierte Trainingsjobs auf Vertex AI durchführt. Nikita erklärt die Vorteile eines verwalteten Trainingsdienstes gegenüber dem Training in einem Notebook, insbesondere für langwierige Modelltrainings und die Notwendigkeit von automatisierten, skalierbaren Experimenten. Wir erfahren, wie man mit Docker Container erstellt, um Trainingscode und Abhängigkeiten zu verwalten, und wie man Trainingsjobs in der Google Cloud startet. Die Episode endet mit einem Ausblick auf die nächste Folge, die sich mit Vorhersagen über den Vertex AI-Vorhersagedienst beschäftigen wird.

Takeaways

  • 😀 In dieser Episode lernen wir, wie man benutzerdefinierte Trainingsjobs auf Vertex AI ausführt.
  • 🤔 Ein Trainingsdienst ist nützlich, da lange Trainingszeiten in Notebooks unpraktisch sein können.
  • 🔄 Modelle müssen im Laufe der Zeit oft neu trainiert werden, um relevant zu bleiben.
  • 📦 Container ermöglichen es, Anwendungscode und Abhängigkeiten einfach zu verwalten und überall auszuführen.
  • 🐳 Docker wird verwendet, um Container zu erstellen und die Trainingsanwendung zu verpacken.
  • ☁️ Vertex AI bietet vorgefertigte Container, die für viele Anwendungsfälle geeignet sind.
  • 📂 Um auf Daten in Google Cloud Storage zuzugreifen, nutzen wir den Cloud Storage FUSE.
  • 🔧 Die Struktur der Anwendung umfasst ein Trainer-Verzeichnis, in dem unser Trainingscode gespeichert wird.
  • 📝 Der Dockerfile legt die Schritte fest, die zum Erstellen und Ausführen des Containers erforderlich sind.
  • 🚀 Nachdem der Container gebaut und in das Artifact Registry hochgeladen wurde, können wir den Trainingsjob starten.

Q & A

  • Warum ist ein Trainingsdienst notwendig, wenn ich mein Modell auch direkt im Notebook trainieren kann?

    -Ein Trainingsdienst ist notwendig, da Modelle oft lange zum Trainieren brauchen und Notebooks nicht die bequemste Option dafür sind. Außerdem müssen Modelle im Laufe der Zeit häufig neu trainiert werden, was mit einem verwalteten Training einfacher automatisiert werden kann.

  • Welche Vorteile bietet das Training auf Vertex AI?

    -Vertex AI bietet Funktionen wie Hyperparameter-Tuning, Unterstützung für verteiltes Training und Integration mit anderen Teilen von Vertex AI, was das Experimentieren und Trainieren von Modellen effizienter gestaltet.

  • Was sind Container und warum sind sie wichtig für das Training von Modellen?

    -Container sind Pakete, die Anwendungscode und benötigte Abhängigkeiten zusammenfassen. Sie ermöglichen eine bessere Verwaltung von Abhängigkeiten und erhöhen die Portabilität des Codes, sodass er nahezu überall ausgeführt werden kann.

  • Wie kann ich meinen Notebook-Code in eine Python-Datei konvertieren?

    -Sie können den nbconvert-Befehl im Terminal verwenden: 'jupyter nbconvert <Notizbuchname> --to python', um das Notebook in eine Python-Datei zu konvertieren.

  • Wie greife ich auf Daten in Google Cloud Storage zu, wenn ich einen Trainingsjob starte?

    -Training-Jobs auf Vertex AI können auf Daten in Google Cloud Storage zugreifen, indem sie die Dateien im lokalen Dateisystem unter dem Verzeichnis '/gcs' sehen, das alle Cloud Storage Buckets als Unterverzeichnisse enthält.

  • Warum ist es wichtig, das trainierte Modell in Cloud Storage zu speichern?

    -Das Speichern des Modells in Cloud Storage ermöglicht den späteren Zugriff auf das Modell für Bereitstellung und Vorhersagen, insbesondere da der Trainingsjob auf einer Maschine läuft, auf die nach Abschluss des Jobs kein Zugriff mehr besteht.

  • Was sind die grundlegenden Schritte zur Containerisierung des Trainingscodes?

    -Die Schritte umfassen das Erstellen eines Verzeichnisses für den Code, das Schreiben einer Docker-Datei, das Kopieren des Codes in das Container-Image und das Festlegen eines Einstiegspunkts für die Ausführung des Codes während des Trainings.

  • Wie wird ein Docker-Image erstellt und in das Artifact Registry hochgeladen?

    -Nachdem die Docker-Datei geschrieben wurde, können Sie den Befehl 'docker build' verwenden, um das Image zu erstellen, und dann 'docker push', um es in das Artifact Registry hochzuladen.

  • Wie starte ich einen benutzerdefinierten Trainingsjob auf Vertex AI?

    -Wählen Sie im Trainingsbereich der Konsole 'Erstellen' und dann 'Benutzerdefiniertes Training – Erweitert' aus, geben Sie einen Namen für Ihr Modell ein, wählen Sie den benutzerdefinierten Container aus und fügen Sie den Pfad zum Container im Artifact Registry hinzu, bevor Sie auf 'Training starten' klicken.

  • Wo kann ich den Status meines Trainingsjobs verfolgen?

    -Unter dem Tab 'Benutzerdefinierte Jobs' in der Konsole können Sie den Status Ihres Trainingsjobs verfolgen und auf den Namen klicken, um die Details zur Konfiguration und die Protokolle einzusehen.

Outlines

plate

This section is available to paid users only. Please upgrade to access this part.

Upgrade Now

Mindmap

plate

This section is available to paid users only. Please upgrade to access this part.

Upgrade Now

Keywords

plate

This section is available to paid users only. Please upgrade to access this part.

Upgrade Now

Highlights

plate

This section is available to paid users only. Please upgrade to access this part.

Upgrade Now

Transcripts

plate

This section is available to paid users only. Please upgrade to access this part.

Upgrade Now
Rate This

5.0 / 5 (0 votes)

Related Tags
Machine LearningVertex AICloud ComputingTraining JobsDatenmanagementDocker ContainerKünstliche IntelligenzAutomatisierungModellbereitstellungTechnische Anleitung
Do you need a summary in English?