Die beste Art, GPT-OSS vor Ort zu führenDie beste Art, GPT-OSS vor Ort zu führen
Bild des Autors

Haben Sie sich jemals gefragt, ob es eine bessere Möglichkeit gibt, zu installieren und zu laufen lama.cpp lokal? Quick jedes lokale Großsprachmodell (LLM) anwendet heute auf llama.cpp als Backend für laufende Modelle. Aber hier ist der Haken: Die meisten Setups sind entweder zu komplex, benötigen mehrere Instruments oder geben Ihnen keine leistungsstarke Benutzeroberfläche (UI).

Wäre es nicht toll, wenn Sie könnten:

  • Führen Sie ein mächtiges Modell aus wie GPT-OSS 20B mit nur wenigen Befehlen
  • Holen Sie sich a Moderne Internet -Benutzeroberfläche Sofort ohne zusätzlichen Ärger
  • Habe das schnellste und optimierteste Setup für lokale Inferenz

Genau darum geht es in diesem Tutorial.

In diesem Leitfaden werden wir durch die gehen am besten, am optimiertesten und am schnellsten um die zu laufen GPT-OSS 20B-Modell lokal Verwenden der llama-cpp-python Paket zusammen mit Öffnen Sie Webui. Am Ende haben Sie eine vollständig funktionierende lokale LLM-Umgebung, die einfach zu bedienen, effizient und produktionsbereit ist.

# 1. Einrichten Ihrer Umgebung

Wenn Sie bereits das haben uv Befehl installiert, Ihr Leben wurde einfach einfacher.

Wenn nicht, mach dir keine Sorgen. Sie können es schnell installieren, indem Sie dem Beamten folgen UV Installationshandbuch.

Einmal uv wird installiert, öffnen Sie Ihr Terminal und installieren Sie Python 3.12 mit:

Lassen Sie uns als nächstes ein Projektverzeichnis einrichten, eine virtuelle Umgebung erstellen und sie aktivieren:

mkdir -p ~/gpt-oss && cd ~/gpt-oss
uv venv .venv --python 3.12
supply .venv/bin/activate

# 2. Installieren von Python -Paketen

Lassen Sie uns nun die erforderlichen Python -Pakete installieren.

Aktualisieren Sie zunächst PIP auf die neueste Model. Installieren Sie als nächstes die llama-cpp-python Serverpaket. Diese Model ist mit CUDA -Assist (für NVIDIA -GPUs) erstellt, sodass Sie eine maximale Leistung erhalten, wenn Sie eine kompatible GPU haben:

uv pip set up --upgrade pip
uv pip set up "llama-cpp-python(server)" --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cu124

Installieren Sie zum Schluss Open Webui und umarmen Face Hub:

uv pip set up open-webui huggingface_hub
  • Öffnen Sie Webui: Bietet eine Weboberfläche im Chatgpt-Stil für Ihren lokalen LLM-Server
  • Umarmung des Gesichtszentrums: Erleichtert es einfach, Modelle direkt aus dem Umarmungsgesicht herunterzuladen und zu verwalten

# 3.. Herunterladen des GPT-OSS 20B-Modells

Lassen Sie uns als nächstes das GPT-OSS 20B-Modell in einem quantisierten Format (MXFP4) herunterladen Umarmtes Gesicht. Quantisierte Modelle sind optimiert, um weniger Speicher zu verwenden und gleichzeitig eine starke Leistung beizubehalten, was perfekt für das lokale Laufen geeignet ist.

Führen Sie den folgenden Befehl in Ihrem Terminal aus:

huggingface-cli obtain bartowski/openai_gpt-oss-20b-GGUF openai_gpt-oss-20b-MXFP4.gguf --local-dir fashions

# V.

Jetzt, da das Modell heruntergeladen wird, lasst uns es mit dem servieren llama.cpp Python Server.

Führen Sie den folgenden Befehl in Ihrem Terminal aus:

python -m llama_cpp.server 
  --model fashions/openai_gpt-oss-20b-MXFP4.gguf 
  --host 127.0.0.1 --port 10000 
  --n_ctx 16384

Hier ist, was jede Flagge tut:

  • --model: Pfad zu Ihrer quantisierten Modelldatei
  • --host: Lokale Host -Adresse (127.0.0.1)
  • --port: Portnummer (10000 in diesem Fall)
  • --n_ctx: Kontextlänge (16.384 Token für längere Gespräche)

Wenn alles funktioniert, sehen Sie solche Protokolle:

INFO:     Began server course of (16470)
INFO:     Ready for software startup.
INFO:     Utility startup full.
INFO:     Uvicorn operating on http://127.0.0.1:10000 (Press CTRL+C to stop)

Um zu bestätigen, dass der Server ausgeführt wird und das Modell verfügbar ist, führen Sie aus:

curl http://127.0.0.1:10000/v1/fashions

Erwartete Ausgabe:

{"object":"checklist","information":({"id":"fashions/openai_gpt-oss-20b-MXFP4.gguf","object":"mannequin","owned_by":"me","permissions":()})}

Als nächstes werden wir es in Open Webui integrieren, um eine Schnittstelle im Chatgpt-Stil zu erhalten.

# 5. Open Webui starten

Wir haben die bereits installiert open-webui Python -Paket. Lassen Sie es uns nun starten.

Öffnen Sie ein neues Terminalfenster (behalten Sie Ihre llama.cpp Server, der im ersten ausgeführt wird) und ausführen:

open-webui serve --host 127.0.0.1 --port 9000

Öffnen Sie die Webui -AnmeldeseiteÖffnen Sie die Webui -Anmeldeseite

Dadurch startet der Webui -Server unter: http://127.0.0.1:9000

Wenn Sie den Hyperlink zum ersten Mal in Ihrem Browser öffnen, werden Sie aufgefordert:

  • Erstellen eine Admin -Konto (Mit Ihrer E -Mail und einem Passwort)
  • Melden Sie sich an, um auf das Dashboard zuzugreifen

Dieses Admin -Konto stellt sicher, dass Ihre Einstellungen, Verbindungen und Modellkonfigurationen für zukünftige Sitzungen gespeichert werden.

# 6. Open Webui einrichten

Standardmäßig ist Open Webui so konfiguriert, dass er mit Ollama funktioniert. Da wir unser Modell mitführen llama.cppWir müssen die Einstellungen anpassen.

Befolgen Sie diese Schritte im Webui:

// Fügen Sie lama.cpp als OpenAI -Verbindung hinzu

  1. Öffnen Sie die Webui: http://127.0.0.1:9000 (oder Ihre weitergeleitete URL).
  2. Klicken Sie auf Ihr Avatar (High-Proper-Ecke)Admin -Einstellungen.
  3. Gehen Sie zu: Verbindungen → OpenAI -Verbindungen.
  4. Bearbeiten Sie die vorhandene Verbindung:
    1. Foundation -URL: http://127.0.0.1:10000/v1
    2. API -Schlüssel: (leer lassen)
  5. Speichern Sie die Verbindung.
  6. (Non-obligatory) Deaktivieren Ollama API Und Direkte Verbindungen Fehler vermeiden.

Öffnen Sie die Webui OpenAI -VerbindungseinstellungenÖffnen Sie die Webui OpenAI -Verbindungseinstellungen

// Karte eines freundlichen Modells Alias

  • Gehen Sie zu: Administratoreinstellungen → Modelle (oder unter der Verbindung, die Sie gerade erstellt haben)
  • Bearbeiten Sie den Modellnamen zu gpt-oss-20b
  • Speichern Sie das Modell

Öffnen Sie die Einstellungen für Webui -Modell aliasÖffnen Sie die Einstellungen für Webui -Modell alias

// Beginnen Sie mit dem Chatten

  • Offen a neuer Chat
  • Im Modell Dropdownwählen: gpt-oss-20b (der Alias, den Sie erstellt haben)
  • Senden Sie eine Testnachricht

Chatten Sie mit GPT-OSS 20B in Open WebuiChatten Sie mit GPT-OSS 20B in Open Webui

# Letzte Gedanken

Ich habe ehrlich gesagt nicht erwartet, dass es so einfach ist, mit Python alles zum Laufen zu bringen. In der Vergangenheit einrichten llama.cpp bedeutete Klonen von Repositories, laufend CMake Baut und debuggen endlose Fehler – ein schmerzhafter Prozess, mit dem viele von uns vertraut sind.

Aber mit diesem Ansatz die Verwendung der llama.cpp Python Server zusammen mit offenem Webui hat das Setup direkt nicht in der Field gearbeitet. Keine unordentlichen Builds, keine komplizierten Konfigurationen, nur ein paar einfache Befehle.

In diesem Tutorial: Wir:

  • Richten Sie eine saubere Python -Umgebung mit uv
  • Installiert die llama.cpp Python Server und öffnen Webui
  • Laden Sie das quantisierte Modell GPT-OSS 20B herunter
  • Servierte es lokal und verband es mit einer Schnittstelle im Chatgpt-Stil

Das Ergebnis? Ein vollständig lokales, privates und optimiertes LLM -Setup, das Sie mit minimalem Aufwand auf Ihrer eigenen Maschine ausführen können.

Abid Ali Awan (@1abidaliawan) ist ein zertifizierter Datenwissenschaftler, der es liebt, maschinelles Lernenmodelle zu bauen. Derzeit konzentriert er sich auf die Erstellung von Inhalten und das Schreiben von technischen Blogs über maschinelles Lernen und Datenwissenschaftstechnologien. Abid hat einen Grasp -Abschluss in Technologiemanagement und einen Bachelor -Abschluss in Telekommunikationstechnik. Seine Imaginative and prescient ist es, ein KI -Produkt zu bauen, das ein Diagramm neuronales Netzwerk für Schüler mit psychische Erkrankungen mit kämpfender Krankheiten unterhält.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert