# Einführung
Agentische KI-Systeme hängen von der Fähigkeit eines Modells ab, Instruments zuverlässig aufzurufen, die richtige Funktion auszuwählen, Argumente richtig zu formatieren und Ergebnisse in mehrstufige Arbeitsabläufe zu integrieren. Große Frontier-Modelle wie ChatGPT, Claude und Gemini bewältigen dies intestine, sind jedoch mit Kompromissen bei Kosten, Latenz und Hardwareanforderungen verbunden, die sie für viele reale Bereitstellungen unpraktisch machen. Kleine Sprachmodelle haben gute Arbeit geleistet, um diese Lücke zu schließen, und mehrere kompakte, offene Optionen bieten jetzt erstklassige Unterstützung für Toolaufrufe, ohne dass ein Rechenzentrum für deren Ausführung erforderlich ist.
Und nun, in keiner bestimmten Reihenfolge, hier sind 5 kleine Sprachmodelle für den Agenten-Software-Aufruf. Beachten Sie, dass aus Gründen der Bequemlichkeit und Konsistenz alle Modelllinks auf von Hugging Face gehostete Modelle verweisen.
# 1. SmolLM3-3B
| Technischer Aspekt | Einzelheiten |
|---|---|
| Parameter | 3B |
| Architektur | Nur-Decoder-Transformator (GQA + NoPE, Verhältnis 3:1) |
| Kontextlänge | 64K nativ; bis zu 128K mit YaRN-Extrapolation |
| Trainingstoken | 11,2T |
| Mehrsprachiger Help | 6 Sprachen (EN, FR, ES, DE, IT, PT) |
| Argumentationsmodus | Twin-Modus (Umschalten zwischen Denken und Nicht-Denken) |
| Werkzeugaufruf | Ja: JSON/XML (xml_tools) und Python (python_tools) |
| Lizenz | Apache 2.0 |
SmolLM3 ist ein 3B-Parameter-Sprachmodell, das die Grenzen kleiner Modelle erweitern soll und Twin-Mode-Argumentation, 6 Sprachen und langen Kontext unterstützt. Es handelt sich um einen Nur-Decoder-Transformer, der Grouped Question Consideration (GQA) und No Positional Embeddings (NoPE) (mit einem Verhältnis von 3:1) verwendet und auf 11.2T-Tokens mit einem abgestuften Lehrplan aus Net-, Code-, Mathematik- und Argumentationsdaten vortrainiert ist. Das Submit-Coaching umfasste eine mittlere Trainingsphase mit 140 Milliarden Reasoning-Tokens, gefolgt von einer überwachten Feinabstimmung und Ausrichtung mittels Anchored Desire Optimization (APO), der Off-Coverage von HuggingFace Ansatz zur Präferenzausrichtung. Das Modell unterstützt zwei unterschiedliche Software-Aufrufschnittstellen, JSON/XML-Blobs über xml_tools und Funktionsaufrufe im Python-Stil über python_toolswodurch es äußerst flexibel für Agentenpipelines und RAG-Systeme ist. Als vollständig offene Model, einschließlich Gewichtungen, Datensätzen und Trainingscode, ist SmolLM3 ultimate für Chatbots, RAG-Systeme und Code-Assistenten auf eingeschränkter {Hardware} wie Edge-Geräten oder Maschinen mit niedrigem VRAM.
# 2. Qwen3-4B-Instruct-2507
| Technischer Aspekt | Einzelheiten |
|---|---|
| Parameter | 4,0B (3,6B ohne Einbettung) |
| Architektur | Kausaler LM, 36 Schichten, GQA (32 Q-Köpfe / 8 KV-Köpfe) |
| Kontextlänge | 262.144 Token (nativ) |
| Argumentationsmodus | Nur Nichtdenken (Nr <assume> Blöcke) |
| Mehrsprachig | Über 100 Sprachen |
| Werkzeugaufruf | Ja: nativ, über Qwen-Agent / MCP |
| Lizenz | Apache 2.0 |
Qwen3-4B-Instruct-2507 ist eine aktualisierte Model des Qwen3-4B-Nicht-Denkmodus mit erheblichen Verbesserungen der allgemeinen Fähigkeiten, darunter: Befolgen von Anweisungen, logisches Denken, Textverständnis, Mathematik, Naturwissenschaften, Codierung und Werkzeugnutzung. Darüber hinaus bietet es erhebliche Fortschritte bei der Abdeckung von Lengthy-Tail-Wissen über mehrere Sprachen hinweg. Sowohl die Instruct- als auch die Considering-Variante teilen sich insgesamt 4 Milliarden Parameter (3,6 B ohne Einbettungen), die auf 36 Transformatorschichten aufgebaut sind, wobei GQA mit 32 Abfrageköpfen und 8 Schlüssel-/Wertköpfen verwendet wird, was eine effiziente Speicherverwaltung für sehr lange Kontexte ermöglicht. Diese spezielle, nicht denkende Variante ist für direkte Anwendungsfälle mit schneller Reaktion optimiert, z. B. für die Bereitstellung prägnanter Antworten ohne explizite Gedankenketten. Daher eignet sie sich intestine für Chatbots, Kundensupport und Software-Calling-Agenten, bei denen es auf geringe Latenz ankommt. Qwen3 zeichnet sich durch Funktionen zum Aufrufen von Instruments aus und Alibaba empfiehlt die Verwendung von Qwen-Agent-Frameworkdas Software-Aufrufvorlagen und Parser intern kapselt, wodurch die Codierungskomplexität reduziert wird und MCP-Serverkonfigurationsdateien unterstützt werden.
# 3. Phi-3-mini-4k-instruct
| Technischer Aspekt | Einzelheiten |
|---|---|
| Parameter | 3,8B |
| Architektur | Nur-Decoder-Transformator |
| Kontextlänge | 4K-Token |
| Wortschatzgröße | 32.064 Token |
| Trainingsdaten | Synthetische + gefilterte öffentliche Webdaten |
| Nach dem Coaching | SFT + DPO |
| Werkzeugaufruf | Ja: über Chat-Vorlage (erfordert HF-Transformatoren ≥ 4.41.2) |
| Lizenz | MIT |
Phi-3-Mini-4K-Anleitung ist ein leichtes, hochmodernes offenes Modell mit 3,8B-Parametern, das mit den Phi-3-Datensätzen trainiert wurde, die sowohl synthetische Daten als auch gefilterte öffentlich verfügbare Webdaten umfassen, mit Schwerpunkt auf qualitativ hochwertigen und begründungsdichten Eigenschaften. Das Modell durchlief einen Submit-Coaching-Prozess, der sowohl Supervised Advantageous-Tuning (SFT) als auch Supervised Advantageous-Tuning (SFT) umfasste Direkte Präferenzoptimierung (DPO) für die Befolgung von Anweisungen und Sicherheit. Das „kleine, aber intelligente“ Flaggschiffmodell von Microsoft, Phi-3-mini, zeichnete sich bei der Markteinführung durch seine Fähigkeit aus, auf Geräten, einschließlich Smartphones, ausgeführt zu werden, während es bei Leistungsbenchmarks mit GPT-3.5 mithalten konnte. Das Modell ist in erster Linie für Umgebungen mit eingeschränktem Speicher und geringer Rechenleistung, latenzbegrenzte Szenarien und Aufgaben gedacht, die starkes Denken, insbesondere Mathematik und Logik, erfordern. Obwohl es älter ist als die anderen Modelle in dieser Liste und auf ein 4K-Kontextfenster beschränkt ist, ist es aufgrund der MIT-Lizenz eine der freizügigsten verfügbaren Lizenzoptionen und aufgrund seiner überzeugenden allgemeinen Argumentation eine beliebte Grundlage für die Feinabstimmung in kommerziellen Anwendungen.
# 4. Gemma-4-E2B-it
| Technischer Aspekt | Einzelheiten |
|---|---|
| Effektive Parameter | 2,3 B (insgesamt 5,1 B mit Einbettungen) |
| Architektur | Dichte, hybride Aufmerksamkeit (gleitendes Fenster + world) + PLE |
| Schichten | 35 |
| Schiebefenster | 512 Token |
| Kontextlänge | 128.000 Token |
| Wortschatzgröße | 262K |
| Modalitäten | Textual content, Bild, Audio (≤30 Sek.), Video (als Frames) |
| Mehrsprachig | Über 35 Muttersprachler, ausgebildet in über 140 Sprachen |
| Werkzeugaufruf | Ja: nativer Funktionsaufruf |
| Lizenz | Apache 2.0 |
Gemma-4-E2B ist Teil der Gemma 4-Familie von Google DeepMind, die über einen hybriden Aufmerksamkeitsmechanismus, lokale Sliding-Window-Aufmerksamkeit mit vollständiger globaler Aufmerksamkeit, verfügt. Dieses Design bietet die Verarbeitungsgeschwindigkeit und den geringen Speicherbedarf eines leichtgewichtigen Modells, ohne die für komplexe Aufgaben mit langen Kontexten erforderliche Tiefenschärfe zu opfern. Das „E“ in E2B steht für „effektive“ Parameter, die durch eine wichtige architektonische Innovation namens „ Einbettungen professional Ebene (PLE), das auf jeder Decoderebene einen dedizierten Konditionierungsvektor hinzufügt. Dies ist der Mechanismus, der es dem E2B ermöglicht, mit Quantisierung in weniger als 1,5 GB Speicher zu laufen und dennoch wertvolle Ergebnisse zu erzeugen. Das Modell unterstützt native Funktionsaufrufe, ermöglicht Agenten-Workflows und ist für die geräteinterne Bereitstellung auf Mobil- und IoT-Geräten optimiert, da es Textual content-, Bild-, Audio- und Videoeingaben verarbeiten kann. Gemma 4 E2B wurde unter Apache 2.0 veröffentlicht (eine Änderung gegenüber der restriktiveren benutzerdefinierten Lizenz früherer Gemma-Generationen) und ist eine attraktive Possibility für Entwickler, die multimodale Agentenanwendungen erstellen, die vollständig am Edge ausgeführt werden.
# 5. Mistral-7B-Instruct-v0.3
| Technischer Aspekt | Einzelheiten |
|---|---|
| Parameter | 7,25B |
| Architektur | Transformator, GQA + SWA |
| Kontextlänge | 32.768 Token |
| Wortschatzgröße | 32.768 Token (erweitert ab v0.2) |
| Tokenizer | v3 Mistral-Tokenizer |
| Funktionsaufruf | Ja: über TOOL_CALLS / AVAILABLE_TOOLS / TOOL_RESULTS Token (siehe hier) |
| Lizenz | Apache 2.0 |
Mistral-7B-Instruct-v0.3 ist eine fein abgestimmte Instruct-Model von Mistral-7B-v0.3, die gegenüber v0.2 drei wichtige Änderungen einführte: ein erweitertes Vokabular auf 32.768 Token, Unterstützung für den v3-Tokenizer und Unterstützung für Funktionsaufrufe. Das Modell verwendet gruppierte Abfrageaufmerksamkeit für schnellere Schlussfolgerungen und Schiebefenster Achtung (SWA), um lange Sequenzen effizient zu verarbeiten, und die Unterstützung von Funktionsaufrufen wird durch das erweiterte Vokabular einschließlich ermöglicht dedizierte Token für TOOL_CALLS, AVAILABLE_TOOLSUnd TOOL_RESULTS. Als größtes Modell in dieser Zusammenfassung mit 7B-Parametern bietet Mistral-7B-Instruct-v0.3 die beste allgemeine Befehlsfolgeleistung der Gruppe und hat sich zu einem branchenüblichen Arbeitspferd entwickelt, das über Ollama, vLLM und die meisten Inferenzplattformen weithin verfügbar ist.
# Zusammenfassung
Die fünf hier behandelten Modelle – SmolLM3-3B, Qwen3-4B-Instruct-2507, Phi-3-mini-4k-instruct, Gemma-4-E2B-it und Mistral-7B-Instruct-v0.3 – umfassen eine Reihe von Architekturen, Parameterzahlen, Kontextfenstern und Veröffentlichungsdaten, haben jedoch ein wichtiges Merkmal gemeinsam: Sie alle unterstützen strukturierte Toolaufrufe in einem kompakten, offenen Paket.
Von Hugging Faces vollständig transparentem SmolLM3 bis hin zu Google DeepMinds multimodalem Edge-optimiertem Gemma 4 E2B zeigt die Auswahl, dass leistungsfähige Agentenmodelle keine huge Infrastruktur und Grenzmodelle mehr für die Bereitstellung erfordern. Unabhängig davon, ob Ihre Priorität auf Inferenz auf dem Gerät, der Handhabung langer Kontexte, mehrsprachiger Abdeckung oder einer möglichst freizügigen Lizenz liegt, gibt es in dieser Liste ein Modell, das es wert ist, erkundet zu werden.
Bedenken Sie, dass dies nicht die einzigen kleinen Sprachmodelle mit Werkzeugaufruffunktionen sind. Sie leisten jedoch gute Arbeit und repräsentieren diejenigen, mit denen ich direkte Erfahrung habe und bei denen ich mich aufgrund meiner Ergebnisse wohl fühle.
Matthew Mayo (@mattmayo13) hat einen Grasp-Abschluss in Informatik und ein Diplom in Information Mining. Als geschäftsführender Herausgeber von KDnuggets & Statistikund Mitherausgeber bei Beherrschung des maschinellen LernensZiel von Matthew ist es, komplexe datenwissenschaftliche Konzepte zugänglich zu machen. Zu seinen beruflichen Interessen zählen die Verarbeitung natürlicher Sprache, Sprachmodelle, Algorithmen für maschinelles Lernen und die Erforschung neuer KI. Seine Mission ist es, das Wissen in der Datenwissenschaftsgemeinschaft zu demokratisieren. Matthew programmiert seit seinem sechsten Lebensjahr.
