Führen Sie das vollständige Deepseek-R1-0528-Modell lokal aus
Bild des Autors

Deepseek-R1-0528 ist das neueste Replace des R1-Argumentationsmodells von Deepseek, das 715 GB Speicherplatz benötigt und es zu einem der größten verfügbaren Open-Supply-Modelle macht. Dank fortgeschrittener Quantisierungstechniken von jedoch Nicht slothDie Größe des Modells kann auf 162 GB reduziert werden, eine Reduzierung von 80%. Auf diese Weise können Benutzer die volle Leistung des Modells mit erheblich niedrigeren Hardwareanforderungen erleben, wenn auch mit einem leichten Leistungsverfahren.

In diesem Tutorial werden wir:

  1. Richten Sie Ollama ein und öffnen Sie die Internet-Benutzeroberfläche, um das Deekseek-R1-0528-Modell lokal auszuführen.
  2. Laden Sie die 1.78-Bit-Quantisierte Model (IQ1_S) des Modells herunter und konfigurieren Sie sie.
  3. Führen Sie das Modell sowohl mit GPU + CPU- als auch mit CPU-Setups aus.

Schritt 0: Voraussetzungen

Um die quantisierte IQ1_S -Model auszuführen, muss Ihr System die folgenden Anforderungen erfüllen:

GPU -Anforderungen: Mindestens 1x 24 GB GPU (z. B. NVIDIA RTX 4090 oder A6000) und 128 GB RAM. Mit diesem Setup können Sie eine Erzeugungsgeschwindigkeit von ca. 5 Token professional Sekunde erwarten.

RAM -Anforderungen: Mindestens 64 GB RAM sind erforderlich, um das Modell zum Ausführen des Modells ohne GPU auszuführen, aber die Leistung wird auf 1 Token/Sekunde begrenzt.

Optimales Setup: Für die beste Leistung (5+ Token/Sekunde) benötigen Sie mindestens 180 GB einheitliches Speicher oder eine Kombination von 180 GB RAM + VRAM.

Lagerung: Stellen Sie sicher, dass Sie mindestens 200 GB freien Speicherplatz für das Modell und seine Abhängigkeiten haben.

Schritt 1: Installieren Sie Abhängigkeiten und Ollama

Aktualisieren Sie Ihr System und installieren Sie die erforderlichen Instruments. Ollama ist ein leichter Server zum Ausführen von großsprachigen Modellen lokal. Installieren Sie es in einer Ubuntu -Verteilung mit den folgenden Befehlen:

apt-get replace
apt-get set up pciutils -y
curl -fsSL https://ollama.com/set up.sh | sh

Schritt 2: Laden Sie das Modell herunter und führen Sie sie aus

Führen Sie die 1,78-Bit-quantisierte Model (IQ1_S) des Deepseek-R1-0528-Modells mit dem folgenden Befehl aus:

ollama serve &
ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0

Führen Sie das vollständige Deepseek-R1-0528-Modell lokal aus

Schritt 3: Setzen Sie die Internet -Benutzeroberfläche ein und führen Sie sie aus

Ziehen Sie das Open Internet UI Docker -Bild mit CUDA -Unterstützung. Führen Sie den Open Internet UI -Container mit GPU -Unterstützung und Ollama -Integration aus.

Dieser Befehl wird:

  • Starten Sie den Open Internet UI -Server auf Port 8080
  • Aktivieren Sie die GPU -Beschleunigung mit der --gpus all Flagge
  • Das erforderliche Datenverzeichnis montieren (-v open-webui:/app/backend/knowledge)
docker pull ghcr.io/open-webui/open-webui:cuda
docker run -d -p 9783:8080 -v open-webui:/app/backend/knowledge --name open-webui ghcr.io/open-webui/open-webui:cuda

Greifen Sie nach dem Ausführen des Containers auf die Open Internet UI -Schnittstelle in Ihrem Browser bei http://localhost:8080/.

Schritt 4: Deepseek R1 0528 in Open Webui ausführen

Wählen Sie die aus hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0 Modell aus dem Modellmenü.

Führen Sie das vollständige Deepseek-R1-0528-Modell lokal aus

Wenn der Ollama -Server die GPU nicht ordnungsgemäß verwendet, können Sie zur CPU -Ausführung wechseln. Dies verringert zwar die Leistung erheblich (ungefähr 1 Token/Sekunde), aber es stellt sicher, dass das Modell noch ausgeführt werden kann.

# Kill any present Ollama processes
pkill ollama 

# Clear GPU reminiscence
sudo fuser -v /dev/nvidia* 

# Restart Ollama service
CUDA_VISIBLE_DEVICES="" ollama serve

Sobald das Modell ausgeführt wird, können Sie mit der offenen Internet -Benutzeroberfläche mit ihm interagieren. Beachten Sie jedoch, dass die Geschwindigkeit aufgrund des Mangels an GPU -Beschleunigung auf 1 Token/Sekunde begrenzt ist.

Führen Sie das vollständige Deepseek-R1-0528-Modell lokal aus

Letzte Gedanken

Das Ausführen der quantisierten Model warfare eine Herausforderung. Sie benötigen eine schnelle Internetverbindung, um das Modell herunterzuladen. Wenn der Obtain fehlschlägt, müssen Sie den gesamten Prozess von Anfang an neu starten. Ich hatte auch viele Probleme, um es auf meiner GPU zu führen, da ich immer wieder GGUF -Fehler im Zusammenhang mit niedrigem VRAM bekam. Obwohl ich mehrere gängige Korrekturen für GPU -Fehler ausprobiert habe, hat nichts funktioniert, und wechselte schließlich alles auf die CPU. Während dies funktionierte, dauert es jetzt ungefähr 10 Minuten, bis das Modell eine Antwort erzeugt, die alles andere als preferrred ist.

Ich bin mir sicher, dass es da draußen bessere Lösungen gibt, vielleicht mit Lama.cpp, aber vertrauen Sie mir, ich habe den ganzen Tag gebraucht, nur um dieses Laufen zu bringen.

Abid Ali Awan (@1abidaliawan) ist ein zertifizierter Datenwissenschaftler, der es liebt, maschinelles Lernenmodelle zu bauen. Derzeit konzentriert er sich auf die Erstellung von Inhalten und das Schreiben von technischen Blogs über maschinelles Lernen und Datenwissenschaftstechnologien. Abid hat einen Grasp -Abschluss in Technologiemanagement und einen Bachelor -Abschluss in Telekommunikationstechnik. Seine Imaginative and prescient ist es, ein KI -Produkt zu bauen, das ein Diagramm neuronales Netzwerk für Schüler mit psychische Erkrankungen mit kämpfender Krankheiten unterhält.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert