
Bild vom Autor
# Einführung
Das Zusammenführen von Sprachmodellen ist eine der leistungsstärksten Techniken zur Verbesserung der KI-Leistung ohne kostspielige Umschulung. Durch die Kombination von zwei oder mehr vorab trainierten Modellen können Sie ein einzelnes Modell erstellen, das die besten Fähigkeiten von jedem übergeordneten Modell erbt. In diesem Tutorial erfahren Sie, wie Sie mit Unsloth Studio, einer kostenlosen Weboberfläche ohne Code, die vollständig auf Ihrem Laptop ausgeführt wird, große Sprachmodelle (LLMs) einfach zusammenführen.
# Definition von Unsloth Studio
Unsloth Studio ist eine browserbasierte Open-Supply-grafische Benutzeroberfläche (GUI), die im März 2026 von Unsloth AI eingeführt wurde. Damit können Sie LLMs ausführen, optimieren und exportieren, ohne eine einzige Codezeile schreiben zu müssen. Das Besondere daran:
- Keine Programmierung erforderlich – alle Vorgänge erfolgen über eine visuelle Schnittstelle
- Läuft zu 100 % lokal – Ihre Daten verlassen nie Ihren Laptop
- Schnell und speichereffizient – bis zu 2x schnelleres Coaching mit 70 % weniger Video-Random-Entry-Reminiscence (VRAM)-Nutzung im Vergleich zu herkömmlichen Methoden
- Plattformübergreifend – funktioniert unter Home windows, Linux, macOS und dem Home windows-Subsystem für Linux (WSL)
Unsloth Studio unterstützt beliebte Modelle, einschließlich Lama, Qwen, Gemma, DeepSeek, Mistralund Hunderte mehr.
# Verstehen, warum Sprachmodelle zusammengeführt werden
Bevor Sie sich mit dem Unsloth Studio-Tutorial befassen, ist es wichtig zu verstehen, warum die Modellzusammenführung wichtig ist.
Wenn Sie ein Modell für eine bestimmte Aufgabe optimieren (z. B. Codierung, Kundendienst oder medizinische Fragen und Antworten), erstellen Sie Low-Rank-Adaptionsadapter (LoRA), die das Verhalten des Originalmodells ändern. Die Herausforderung besteht darin, dass Sie möglicherweise über mehrere Adapter verfügen, von denen jeder für unterschiedliche Aufgaben intestine funktioniert. Wie kombiniert man sie zu einem leistungsstarken Modell?
Die Modellzusammenführung löst dieses Drawback. Anstatt mit mehreren Adaptern zu jonglieren, werden durch die Zusammenführung deren Funktionen in einem einzigen, einsetzbaren Modell zusammengefasst. Hier sind häufige Anwendungsfälle:
- Kombinieren Sie ein auf Mathematik spezialisiertes Modell mit einem auf Code spezialisierten Modell, um ein Modell zu erstellen, das beides übertrifft
- Führen Sie ein auf englischen Daten optimiertes Modell mit einem auf mehrsprachigen Daten optimierten Modell zusammen
- Kombinieren Sie ein kreatives Schreibmodell mit einem sachlichen Q&A-Modell
Entsprechend NVIDIAs technischer Weblog zur ModellzusammenführungDurch die Zusammenführung werden die Gewichte mehrerer angepasster LLMs kombiniert, wodurch die Ressourcennutzung erhöht und der Wert erfolgreicher Modelle erhöht wird.
// Voraussetzungen
Stellen Sie vor Beginn sicher, dass Ihr System die folgenden Anforderungen erfüllt:
- NVIDIA-Grafikprozessor (GPU) (RTX 30-, 40- oder 50-Serie empfohlen) für das Coaching, obwohl die Zentraleinheit (CPU) nur für grundlegende Schlussfolgerungen funktioniert
- Python 3.10+ mit PIP und mindestens 16 GB Arbeitsspeicher (RAM)
- 20–50 GB freier Speicherplatz (abhängig von der Modellgröße); und die Modelle selbst, entweder ein Basismodell plus einen oder mehrere fein abgestimmte LoRA-Adapter oder mehrere vorab trainierte Modelle, die Sie zusammenführen möchten.
# Erste Schritte mit Unsloth Studio
Einrichten Unsloth Studio ist unkompliziert. Verwenden Sie eine dedizierte Conda-Umgebung, um Abhängigkeitskonflikte zu vermeiden. Laufen conda create -n unsloth_env python=3.10 gefolgt von conda activate unsloth_env vor der Set up.
// Set up per Pip
Öffnen Sie Ihr Terminal und führen Sie Folgendes aus:
Stellen Sie unter Home windows sicher, dass Sie zuerst PyTorch installiert haben. Der Beamte Unsloth-Dokumentation Bietet detaillierte plattformspezifische Anweisungen.
// Wir starten Unsloth Studio
Starten Sie nach der Set up das Studio mit:
Beim ersten Durchlauf wird kompiliert lama.cpp Binärdateien, was etwa 5–10 Minuten dauert. Sobald der Vorgang abgeschlossen ist, öffnet sich automatisch ein Browserfenster mit dem Unsloth Studio-Dashboard.
// Überprüfen der Set up
Um zu bestätigen, dass alles funktioniert, führen Sie Folgendes aus:
Sie sollten eine Willkommensnachricht mit Versionsinformationen sehen. Beispielsweise läuft Unsloth Model 2025.4.1 auf Compute Unified System Structure (CUDA) mit optimierten Kerneln.
# Erkundung von Techniken zur Modellzusammenführung
Unsloth Studio unterstützt drei Hauptmethoden zum Zusammenführen. Jeder hat einzigartige Stärken und die Wahl der richtigen hängt von Ihren Zielen ab.
// SLERP (sphärische lineare Interpolation)
SLERP eignet sich am besten zum Zusammenführen von genau zwei Modellen mit reibungslosen, ausgewogenen Ergebnissen. SLERP Führt eine Interpolation entlang eines geodätischen Pfads im Gewichtsraum durch und bewahrt so geometrische Eigenschaften besser als eine einfache Mittelung. Betrachten Sie es als eine „sanfte Mischung“ zwischen zwei Modellen.
Hauptmerkmale:
- Führt jeweils nur zwei Modelle zusammen
- Bewahrt die einzigartigen Eigenschaften beider Eltern
- Best zum Kombinieren von Modellen derselben Familie (z. B. Mistral v0.1 mit Mistral v0.2)
// TIES-Merging (Trimmen, Elect Signal und Merge)
TIES-Merging dient dazu, drei oder mehr Modelle zusammenzuführen und gleichzeitig Konflikte zu lösen. TIES-Zusammenführung wurde eingeführt, um zwei Hauptprobleme bei der Modellzusammenführung zu lösen:
- Redundante Parameterwerte, die Kapazität verschwenden
- Meinungsverschiedenheiten über das Vorzeichen (constructive/detrimental Richtung) der Parameter zwischen den Modellen
Die Methode funktioniert in drei Schritten:
- Trimmen – Behalten Sie nur Parameter bei, die sich während der Feinabstimmung erheblich geändert haben
- Vorzeichen wählen – Bestimmen Sie die Mehrheitsrichtung für jeden Parameter modellübergreifend
- Zusammenführen – Kombinieren Sie nur Parameter, die mit dem vereinbarten Vorzeichen übereinstimmen
Untersuchungen zeigen, dass TIES-Merging die effektivste und robusteste Methode unter den verfügbaren Techniken ist.
// DARE (Ablegen und Neuskalieren)
Dies eignet sich auch am besten zum Zusammenführen von Modellen mit vielen redundanten Parametern. WAGEN löscht zufällig einen Prozentsatz der Delta-Parameter und skaliert die verbleibenden neu. Dies reduziert Interferenzen und verbessert häufig die Leistung, insbesondere beim Zusammenführen mehrerer Modelle. DARE wird typischerweise als Vorverarbeitungsschritt vor TIES verwendet (Erstellung von DARE-TIES).
NOTIZ: Sprachmodelle weisen excessive Redundanz auf; DARE kann 90 % oder sogar 99 % der Delta-Parameter ohne nennenswerten Leistungsverlust eliminieren.
// Vergleich von Zusammenführungsmethoden
| Verfahren | Am besten für | Anzahl der Modelle | Entscheidender Vorteil |
|---|---|---|---|
| SLERP | Zwei ähnliche Modelle | Genau 2 | Glatte, ausgewogene Mischung |
| Krawatten | 3+ Modelle, aufgabenspezifisch | Mehrere | Behebt Vorzeichenkonflikte |
| WAGEN | Redundante Parameter | Mehrere | Reduziert Störungen |
# Zusammenführen von Modellen in Unsloth Studio
Nun zum praktischen Teil der Modellzusammenführung. Befolgen Sie diese Schritte, um Ihre erste Zusammenführung durchzuführen.
// Unsloth Studio starten und zum Coaching navigieren
Öffnen Sie Ihren Browser und gehen Sie zu http://localhost:3000 (oder die nach dem Begin angezeigte Adresse). Klicken Sie im Dashboard auf das Schulungsmodul.
// Auswählen oder Erstellen eines Trainingslaufs
In Unsloth Studio stellt ein Trainingslauf eine vollständige Trainingssitzung dar, die mehrere Kontrollpunkte enthalten kann. Zusammenführen:
- Wenn Sie bereits einen Trainingslauf mit LoRA-Adaptern haben, wählen Sie ihn aus der Liste aus
- Wenn Sie neu beginnen, erstellen Sie einen neuen Lauf und laden Sie Ihr Basismodell
Jeder Lauf enthält Prüfpunkte – gespeicherte Versionen Ihres Modells in verschiedenen Trainingsphasen. Spätere Prüfpunkte stellen normalerweise das endgültig trainierte Modell dar, Sie können jedoch einen beliebigen Prüfpunkt zum Zusammenführen auswählen.
// Auswahl der Zusammenführungsmethode
Navigieren Sie zum Abschnitt „Exportieren“ des Studios. Hier sehen Sie drei Exporttypen:
- Zusammengeführtes Modell – 16-Bit-Modell mit LoRA-Adapter, zusammengeführt in Basisgewichtungen
- Nur LoRA – exportiert nur Adaptergewichte (erfordert Unique-Basismodell)
- GGUF – konvertiert in das GGUF-Format für lama.cpp oder Ollama Schlussfolgerung
Wählen Sie zum Zusammenführen von Modellen aus Zusammengeführtes Modell.
Nach der neuesten Dokumentation unterstützt Unsloth Studio hauptsächlich das Zusammenführen von LoRA-Adaptern in Basismodelle. Für fortgeschrittene Techniken wie die SLERP- oder TIES-Zusammenführung mehrerer vollständiger Modelle müssen Sie möglicherweise Folgendes verwenden MergeKit neben Unsloth. Viele Entwickler optimieren mehrere LoRAs mit Unsloth und verwenden dann MergeKit für die SLERP- oder TIES-Zusammenführung.
// Konfigurieren der Zusammenführungseinstellungen für Anpassungen mit niedrigem Rang
Abhängig von der gewählten Methode werden unterschiedliche Optionen angezeigt. Für die LoRA-Zusammenführung (die einfachste Methode):
- Wählen Sie den LoRA-Adapter zum Zusammenführen aus
- Wählen Sie die Ausgabegenauigkeit (16-Bit oder 4-Bit)
- Speicherort festlegen
Für erweitertes Zusammenführen mit MergeKit (bei Verwendung der Befehlszeilenschnittstelle (CLI)):
- Definieren Sie den Basismodellpfad
- Hear Sie die übergeordneten Modelle auf, die zusammengeführt werden sollen
- Zusammenführungsmethode festlegen (SLERP, TIES oder DARE)
- Interpolationsparameter konfigurieren
Hier ist ein Beispiel dafür, wie eine MergeKit-Konfiguration aussieht (als Referenz):
merge_method: ties
base_model: path/to/base/mannequin
fashions:
- mannequin: path/to/model1
parameters:
weight: 1.0
- mannequin: path/to/model2
parameters:
weight: 0.5
dtype: bfloat16
// Ausführen der Zusammenführung
Klicken Sie auf „Exportieren“ oder „Zusammenführen“, um den Vorgang zu starten. Unsloth Studio führt LoRA-Gewichte mithilfe der Formel zusammen:
(
W_{textual content{merged}} = W_{textual content{base}} + (A cdot B) occasions textual content{Skalierung}
)
Wo:
- ( W_{textual content{base}} ) ist die ursprüngliche Gewichtsmatrix
- ( A ) und ( B ) sind LoRA-Adaptermatrizen
- Die Skalierung ist der LoRA-Skalierungsfaktor (normalerweise).
lora_alpha/lora_r)
Bei 4-Bit-Modellen dequantisiert Unsloth auf FP32, führt die Zusammenführung durch und requantisiert dann wieder auf 4-Bit – alles automatisch.
// Speichern und Exportieren des zusammengeführten Modells
Sobald die Zusammenführung abgeschlossen ist, stehen zwei Optionen zur Verfügung:
- Lokal speichern – lädt die zusammengeführten Modelldateien zur lokalen Bereitstellung auf Ihren Laptop herunter
- Push to Hub – direktes Hochladen auf Umarmender Gesichtshub zum Teilen und Zusammenarbeiten (erfordert einen Hugging Face-Schreibtoken)
Das zusammengeführte Modell wird standardmäßig im Safetensors-Format gespeichert, kompatibel mit lama.cpp, vLLM, OllamaUnd LM Studio.
# Greatest Practices für eine erfolgreiche Modellzusammenführung
Basierend auf Group-Erfahrungen und Forschungsergebnissen finden Sie hier bewährte Tipps:
- Beginnen Sie mit kompatiblen Modellen
Modelle aus derselben Architekturfamilie (z. B. beide basieren auf Llama) werden erfolgreicher zusammengeführt als architekturübergreifende Zusammenführungen - Verwenden Sie DARE als Vorprozessor
Wenn Sie mehrere Modelle zusammenführen, wenden Sie zuerst DARE an, um redundante Parameter zu eliminieren, und dann TIES für die endgültige Zusammenführung. Diese DARE-TIES-Kombination wird in der Group häufig verwendet - Experimentieren Sie mit Interpolationsparametern
Bei SLERP-Zusammenführungen bestimmt der Interpolationsfaktor ( t ) die Mischung:- ( t = 0 rightarrow ) Nur Modell A
- ( t = 0.5 rightarrow ) Gleiche Mischung
- ( t = 1 rightarrow ) Nur Modell B
Beginnen Sie mit ( t = 0,5 ) und passen Sie es entsprechend Ihren Anforderungen an
- Vor der Bereitstellung bewerten
Testen Sie Ihr zusammengeführtes Modell immer anhand eines Benchmarks. Unsloth Studio verfügt über eine Modell-Area, mit der Sie zwei Modelle nebeneinander mit derselben Eingabeaufforderung vergleichen können - Achten Sie auf Ihren Speicherplatz
Das Zusammenführen großer Modelle (z. B. 70B-Parameter) kann vorübergehend erheblichen Speicherplatz beanspruchen. Durch den Zusammenführungsprozess werden Zwischendateien erstellt, die vorübergehend möglicherweise bis zum Zwei- bis Dreifachen der Modellgröße erfordern
# Abschluss
In diesem Artikel haben Sie erfahren, dass die Zusammenführung von Sprachmodellen mit Unsloth Studio leistungsstarke Möglichkeiten für KI-Praktiker eröffnet. Sie können jetzt die Stärken mehrerer spezialisierter Modelle in einem effizienten, einsetzbaren Modell kombinieren – und das alles, ohne komplexen Code schreiben zu müssen.
Um noch einmal zusammenzufassen, was behandelt wurde:
- Unsloth Studio ist eine lokale Webschnittstelle ohne Code für das Coaching und Zusammenführen von KI-Modellen
- Durch das Zusammenführen von Modellen können Sie Funktionen mehrerer Adapter ohne erneutes Coaching kombinieren
- Zu den drei Schlüsseltechniken gehören SLERP (sanfte Mischung zweier Modelle), TIES (Konflikte über viele hinweg lösen) und DARE (Redundanz reduzieren).
- Der Zusammenführungsprozess ist ein klarer 6-stufiger Prozess von der Set up bis zum Export
Herunterladen Unsloth Studio und versuchen Sie noch heute, Ihre ersten beiden Modelle zu kombinieren.
Shittu Olumide ist ein Software program-Ingenieur und technischer Autor, der sich leidenschaftlich dafür einsetzt, modernste Technologien zu nutzen, um fesselnde Erzählungen zu erschaffen, mit einem scharfen Blick fürs Element und einem Gespür für die Vereinfachung komplexer Konzepte. Sie können Shittu auch auf finden Twitter.
