Secrets to Self-Hosting Ollama on a Remote Server

Mervin Praison

11 May 202409:28

Summary

TLDRIn diesem Video erfahren Sie, wie Sie das Llama 3-Modell mithilfe von Olama auf einer Google Cloud-VM selbst hosten können. Der Leitfaden führt Sie durch die Erstellung einer virtuellen Maschine in Google Cloud, die Installation von Olama und Llama 3 sowie die Aktivierung des Remotezugriffs. Abschließend wird gezeigt, wie Sie eine Chatbot-Oberfläche mit Chainlit erstellen und diese mit Ihrem Olama-Server verbinden, sodass Nutzer direkt mit Llama 3 interagieren können. Perfekt für Entwickler, die eine private, skalierbare KI-Anwendung aufbauen möchten.

Takeaways

😀 Melde dich bei Google Cloud an, um eine virtuelle Maschine zu erstellen, auf der du Olama für Llama 3 selbst hosten kannst.
😀 Wähle eine virtuelle Maschine mit GPU-Unterstützung aus (z.B. Nvidia T4) und wähle das Ubuntu 22.04-Betriebssystem für einfache Nvidia-Treiber-Installation.
😀 Stelle sicher, dass du genügend Festplattenspeicher (mindestens 100 GB) wählst, da 10 GB nicht ausreichen.
😀 Installiere die Nvidia-GPU-Treiber und stelle sicher, dass die GPU korrekt funktioniert, indem du den Befehl 'nvidia-smi' ausführst.
😀 Installiere Olama auf deinem Ubuntu-Server, indem du den dafür vorgesehenen Installationsbefehl verwendest.
😀 Stelle sicher, dass der Olama-Server läuft, indem du mit einem einfachen Curl-Befehl überprüfst, ob er antwortet.
😀 Konfiguriere die Firewall-Einstellungen auf Google Cloud, um externen Zugriff auf den Olama-Server über den TCP-Port 11434 zu ermöglichen.
😀 Setze die richtigen Systemd-Dienste, um sicherzustellen, dass Olama beim Start des Servers automatisch gestartet wird.
😀 Erstelle eine einfache Benutzeroberfläche (UI) für den Chatbot, indem du Chainlit installierst und eine Python-Datei zum Kommunizieren mit Olama erstellst.
😀 Teste die Chatbot-Oberfläche, indem du Nachrichten an den Olama-Server sendest und Antworten vom Llama 3-Modell erhältst.
😀 Du kannst das System weiter anpassen, indem du den Chatbot für mobile Apps, Desktop-Anwendungen oder interne Tools verwendest und die Firewall richtig konfigurierst.

Q & A

Was ist das Ziel dieses Tutorials?
-Das Ziel des Tutorials ist es, zu zeigen, wie man das Llama 3 Modell selbst hosten kann, ohne auf Drittanbieter angewiesen zu sein. Der gesamte Prozess wird in einer Google Cloud-Umgebung durchgeführt, einschließlich der Erstellung einer virtuellen Maschine, der Installation von OLLama, der Aktivierung des Remotezugriffs und der Erstellung einer Benutzeroberfläche für die Interaktion mit dem Modell.
Welche Cloud-Dienste können für das Hosting von Llama 3 verwendet werden?
-Obwohl in diesem Tutorial Google Cloud verwendet wird, können auch andere Cloud-Dienste wie AWS oder Azure genutzt werden. Die grundlegenden Konzepte zur Einrichtung der virtuellen Maschine und der Installation bleiben jedoch gleich.
Warum wird Ubuntu als Betriebssystem gewählt?
-Ubuntu wird aufgrund seiner einfachen Handhabung und der Unterstützung für NVIDIA-Treiber gewählt. Es bietet eine gute Kompatibilität für die Installation der erforderlichen GPU-Treiber und für die Nutzung von OLLama.
Was sind die Kosten der virtuellen Maschine in Google Cloud?
-Die monatlichen Kosten für die virtuelle Maschine mit einem Nvidia T4 GPU betragen etwa 204 USD. Dies hängt von der gewählten Maschine und der Nutzungsdauer ab.
Wie installiere ich die NVIDIA-Treiber auf der virtuellen Maschine?
-Die NVIDIA-Treiber können durch Aktualisieren der Paketliste und Installieren der benötigten Module mit den folgenden Befehlen installiert werden: 'sudo apt-get update' und weitere Befehle, die die spezifischen Treiber für das Tesla T4-Modell herunterladen und installieren.
Was ist OLLama und wie wird es installiert?
-OLLama ist eine Software, die es ermöglicht, das Llama 3 Modell auf einem Server auszuführen. Um OLLama zu installieren, wird ein einfacher Befehl im Terminal verwendet: 'curl -sSL https://ollama.com/install.sh | bash'. Dieser Befehl lädt die Installationsskripte herunter und richtet OLLama auf der virtuellen Maschine ein.
Warum muss der Remotezugriff auf den Server aktiviert werden?
-Der Remotezugriff auf den Server wird benötigt, damit du über das Internet auf die OLLama-Instanz zugreifen und mit dem Llama 3 Modell interagieren kannst. Dies wird durch die Aktivierung des Remotezugriffs und das Erstellen entsprechender Firewall-Regeln auf Google Cloud ermöglicht.
Welche Firewall-Regeln müssen eingerichtet werden?
-Es muss eine Firewall-Regel erstellt werden, die den Zugriff auf den OLLama-Server auf Port 11434 ermöglicht. Dies ist der Standardport, den OLLama verwendet, um mit externen Anwendungen zu kommunizieren.
Wie erstelle ich eine Benutzeroberfläche, um mit Llama 3 zu interagieren?
-Um eine Benutzeroberfläche zu erstellen, wird die Python-Bibliothek Chainlit verwendet. Du kannst eine Datei erstellen, die eine einfache Chat-Oberfläche zur Verfügung stellt, um Nachrichten an das Llama 3 Modell zu senden und Antworten zu erhalten. Die Installation erfolgt mit 'pip install chainlit', und die Benutzeroberfläche kann durch Ausführen von 'chainlit run ui.py' gestartet werden.
Welche Fragen kann ich an die Benutzeroberfläche stellen?
-Die Benutzeroberfläche kann mit verschiedenen Fragen und Aufgaben konfrontiert werden, wie zum Beispiel: 'Gib mir einen Mahlzeitenplan für heute' oder 'Schreibe eine E-Mail an meinen Manager über einen Urlaub'. Das Modell wird auf Basis der Eingabe eine Antwort generieren.