5 kleine Sprachmodelle für Agenten-Software-Aufrufe

5 kleine Sprachmodelle für Agenten-Tool-Aufrufe

# Einführung

Agentische KI-Systeme hängen von der Fähigkeit eines Modells ab, Instruments zuverlässig aufzurufen, die richtige Funktion auszuwählen, Argumente richtig zu formatieren und Ergebnisse in mehrstufige Arbeitsabläufe zu integrieren. Große Frontier-Modelle wie ChatGPT, Claude und Gemini bewältigen dies intestine, sind jedoch mit Kompromissen bei Kosten, Latenz und Hardwareanforderungen verbunden, die sie für viele reale Bereitstellungen unpraktisch machen. Kleine Sprachmodelle haben gute Arbeit geleistet, um diese Lücke zu schließen, und mehrere kompakte, offene Optionen bieten jetzt erstklassige Unterstützung für Toolaufrufe, ohne dass ein Rechenzentrum für deren Ausführung erforderlich ist.

Und nun, in keiner bestimmten Reihenfolge, hier sind 5 kleine Sprachmodelle für den Agenten-Software-Aufruf. Beachten Sie, dass aus Gründen der Bequemlichkeit und Konsistenz alle Modelllinks auf von Hugging Face gehostete Modelle verweisen.

# 1. SmolLM3-3B

Technischer Aspekt	Einzelheiten
Parameter	3B
Architektur	Nur-Decoder-Transformator (GQA + NoPE, Verhältnis 3:1)
Kontextlänge	64K nativ; bis zu 128K mit YaRN-Extrapolation
Trainingstoken	11,2T
Mehrsprachiger Help	6 Sprachen (EN, FR, ES, DE, IT, PT)
Argumentationsmodus	Twin-Modus (Umschalten zwischen Denken und Nicht-Denken)
Werkzeugaufruf	Ja: JSON/XML (`xml_tools`) und Python (`python_tools`)
Lizenz	Apache 2.0

SmolLM3 ist ein 3B-Parameter-Sprachmodell, das die Grenzen kleiner Modelle erweitern soll und Twin-Mode-Argumentation, 6 Sprachen und langen Kontext unterstützt. Es handelt sich um einen Nur-Decoder-Transformer, der Grouped Question Consideration (GQA) und No Positional Embeddings (NoPE) (mit einem Verhältnis von 3:1) verwendet und auf 11.2T-Tokens mit einem abgestuften Lehrplan aus Net-, Code-, Mathematik- und Argumentationsdaten vortrainiert ist. Das Submit-Coaching umfasste eine mittlere Trainingsphase mit 140 Milliarden Reasoning-Tokens, gefolgt von einer überwachten Feinabstimmung und Ausrichtung mittels Anchored Desire Optimization (APO), der Off-Coverage von HuggingFace Ansatz zur Präferenzausrichtung. Das Modell unterstützt zwei unterschiedliche Software-Aufrufschnittstellen, JSON/XML-Blobs über xml_tools und Funktionsaufrufe im Python-Stil über python_toolswodurch es äußerst flexibel für Agentenpipelines und RAG-Systeme ist. Als vollständig offene Model, einschließlich Gewichtungen, Datensätzen und Trainingscode, ist SmolLM3 ultimate für Chatbots, RAG-Systeme und Code-Assistenten auf eingeschränkter {Hardware} wie Edge-Geräten oder Maschinen mit niedrigem VRAM.

# 2. Qwen3-4B-Instruct-2507

Technischer Aspekt	Einzelheiten
Parameter	4,0B (3,6B ohne Einbettung)
Architektur	Kausaler LM, 36 Schichten, GQA (32 Q-Köpfe / 8 KV-Köpfe)
Kontextlänge	262.144 Token (nativ)
Argumentationsmodus	Nur Nichtdenken (Nr `<assume>` Blöcke)
Mehrsprachig	Über 100 Sprachen
Werkzeugaufruf	Ja: nativ, über Qwen-Agent / MCP
Lizenz	Apache 2.0

Qwen3-4B-Instruct-2507 ist eine aktualisierte Model des Qwen3-4B-Nicht-Denkmodus mit erheblichen Verbesserungen der allgemeinen Fähigkeiten, darunter: Befolgen von Anweisungen, logisches Denken, Textverständnis, Mathematik, Naturwissenschaften, Codierung und Werkzeugnutzung. Darüber hinaus bietet es erhebliche Fortschritte bei der Abdeckung von Lengthy-Tail-Wissen über mehrere Sprachen hinweg. Sowohl die Instruct- als auch die Considering-Variante teilen sich insgesamt 4 Milliarden Parameter (3,6 B ohne Einbettungen), die auf 36 Transformatorschichten aufgebaut sind, wobei GQA mit 32 Abfrageköpfen und 8 Schlüssel-/Wertköpfen verwendet wird, was eine effiziente Speicherverwaltung für sehr lange Kontexte ermöglicht. Diese spezielle, nicht denkende Variante ist für direkte Anwendungsfälle mit schneller Reaktion optimiert, z. B. für die Bereitstellung prägnanter Antworten ohne explizite Gedankenketten. Daher eignet sie sich intestine für Chatbots, Kundensupport und Software-Calling-Agenten, bei denen es auf geringe Latenz ankommt. Qwen3 zeichnet sich durch Funktionen zum Aufrufen von Instruments aus und Alibaba empfiehlt die Verwendung von Qwen-Agent-Frameworkdas Software-Aufrufvorlagen und Parser intern kapselt, wodurch die Codierungskomplexität reduziert wird und MCP-Serverkonfigurationsdateien unterstützt werden.

# 3. Phi-3-mini-4k-instruct

Technischer Aspekt	Einzelheiten
Parameter	3,8B
Architektur	Nur-Decoder-Transformator
Kontextlänge	4K-Token
Wortschatzgröße	32.064 Token
Trainingsdaten	Synthetische + gefilterte öffentliche Webdaten
Nach dem Coaching	SFT + DPO
Werkzeugaufruf	Ja: über Chat-Vorlage (erfordert HF-Transformatoren ≥ 4.41.2)
Lizenz	MIT

Phi-3-Mini-4K-Anleitung ist ein leichtes, hochmodernes offenes Modell mit 3,8B-Parametern, das mit den Phi-3-Datensätzen trainiert wurde, die sowohl synthetische Daten als auch gefilterte öffentlich verfügbare Webdaten umfassen, mit Schwerpunkt auf qualitativ hochwertigen und begründungsdichten Eigenschaften. Das Modell durchlief einen Submit-Coaching-Prozess, der sowohl Supervised Advantageous-Tuning (SFT) als auch Supervised Advantageous-Tuning (SFT) umfasste Direkte Präferenzoptimierung (DPO) für die Befolgung von Anweisungen und Sicherheit. Das „kleine, aber intelligente“ Flaggschiffmodell von Microsoft, Phi-3-mini, zeichnete sich bei der Markteinführung durch seine Fähigkeit aus, auf Geräten, einschließlich Smartphones, ausgeführt zu werden, während es bei Leistungsbenchmarks mit GPT-3.5 mithalten konnte. Das Modell ist in erster Linie für Umgebungen mit eingeschränktem Speicher und geringer Rechenleistung, latenzbegrenzte Szenarien und Aufgaben gedacht, die starkes Denken, insbesondere Mathematik und Logik, erfordern. Obwohl es älter ist als die anderen Modelle in dieser Liste und auf ein 4K-Kontextfenster beschränkt ist, ist es aufgrund der MIT-Lizenz eine der freizügigsten verfügbaren Lizenzoptionen und aufgrund seiner überzeugenden allgemeinen Argumentation eine beliebte Grundlage für die Feinabstimmung in kommerziellen Anwendungen.

# 4. Gemma-4-E2B-it

Technischer Aspekt	Einzelheiten
Effektive Parameter	2,3 B (insgesamt 5,1 B mit Einbettungen)
Architektur	Dichte, hybride Aufmerksamkeit (gleitendes Fenster + world) + PLE
Schichten	35
Schiebefenster	512 Token
Kontextlänge	128.000 Token
Wortschatzgröße	262K
Modalitäten	Textual content, Bild, Audio (≤30 Sek.), Video (als Frames)
Mehrsprachig	Über 35 Muttersprachler, ausgebildet in über 140 Sprachen
Werkzeugaufruf	Ja: nativer Funktionsaufruf
Lizenz	Apache 2.0

Gemma-4-E2B ist Teil der Gemma 4-Familie von Google DeepMind, die über einen hybriden Aufmerksamkeitsmechanismus, lokale Sliding-Window-Aufmerksamkeit mit vollständiger globaler Aufmerksamkeit, verfügt. Dieses Design bietet die Verarbeitungsgeschwindigkeit und den geringen Speicherbedarf eines leichtgewichtigen Modells, ohne die für komplexe Aufgaben mit langen Kontexten erforderliche Tiefenschärfe zu opfern. Das „E“ in E2B steht für „effektive“ Parameter, die durch eine wichtige architektonische Innovation namens „ Einbettungen professional Ebene (PLE), das auf jeder Decoderebene einen dedizierten Konditionierungsvektor hinzufügt. Dies ist der Mechanismus, der es dem E2B ermöglicht, mit Quantisierung in weniger als 1,5 GB Speicher zu laufen und dennoch wertvolle Ergebnisse zu erzeugen. Das Modell unterstützt native Funktionsaufrufe, ermöglicht Agenten-Workflows und ist für die geräteinterne Bereitstellung auf Mobil- und IoT-Geräten optimiert, da es Textual content-, Bild-, Audio- und Videoeingaben verarbeiten kann. Gemma 4 E2B wurde unter Apache 2.0 veröffentlicht (eine Änderung gegenüber der restriktiveren benutzerdefinierten Lizenz früherer Gemma-Generationen) und ist eine attraktive Possibility für Entwickler, die multimodale Agentenanwendungen erstellen, die vollständig am Edge ausgeführt werden.

# 5. Mistral-7B-Instruct-v0.3

Technischer Aspekt	Einzelheiten
Parameter	7,25B
Architektur	Transformator, GQA + SWA
Kontextlänge	32.768 Token
Wortschatzgröße	32.768 Token (erweitert ab v0.2)
Tokenizer	v3 Mistral-Tokenizer
Funktionsaufruf	Ja: über `TOOL_CALLS` / `AVAILABLE_TOOLS` / `TOOL_RESULTS` Token (siehe hier)
Lizenz	Apache 2.0

Mistral-7B-Instruct-v0.3 ist eine fein abgestimmte Instruct-Model von Mistral-7B-v0.3, die gegenüber v0.2 drei wichtige Änderungen einführte: ein erweitertes Vokabular auf 32.768 Token, Unterstützung für den v3-Tokenizer und Unterstützung für Funktionsaufrufe. Das Modell verwendet gruppierte Abfrageaufmerksamkeit für schnellere Schlussfolgerungen und Schiebefenster Achtung (SWA), um lange Sequenzen effizient zu verarbeiten, und die Unterstützung von Funktionsaufrufen wird durch das erweiterte Vokabular einschließlich ermöglicht dedizierte Token für TOOL_CALLS, AVAILABLE_TOOLSUnd TOOL_RESULTS. Als größtes Modell in dieser Zusammenfassung mit 7B-Parametern bietet Mistral-7B-Instruct-v0.3 die beste allgemeine Befehlsfolgeleistung der Gruppe und hat sich zu einem branchenüblichen Arbeitspferd entwickelt, das über Ollama, vLLM und die meisten Inferenzplattformen weithin verfügbar ist.

# Zusammenfassung

Die fünf hier behandelten Modelle – SmolLM3-3B, Qwen3-4B-Instruct-2507, Phi-3-mini-4k-instruct, Gemma-4-E2B-it und Mistral-7B-Instruct-v0.3 – umfassen eine Reihe von Architekturen, Parameterzahlen, Kontextfenstern und Veröffentlichungsdaten, haben jedoch ein wichtiges Merkmal gemeinsam: Sie alle unterstützen strukturierte Toolaufrufe in einem kompakten, offenen Paket.

Von Hugging Faces vollständig transparentem SmolLM3 bis hin zu Google DeepMinds multimodalem Edge-optimiertem Gemma 4 E2B zeigt die Auswahl, dass leistungsfähige Agentenmodelle keine huge Infrastruktur und Grenzmodelle mehr für die Bereitstellung erfordern. Unabhängig davon, ob Ihre Priorität auf Inferenz auf dem Gerät, der Handhabung langer Kontexte, mehrsprachiger Abdeckung oder einer möglichst freizügigen Lizenz liegt, gibt es in dieser Liste ein Modell, das es wert ist, erkundet zu werden.

Bedenken Sie, dass dies nicht die einzigen kleinen Sprachmodelle mit Werkzeugaufruffunktionen sind. Sie leisten jedoch gute Arbeit und repräsentieren diejenigen, mit denen ich direkte Erfahrung habe und bei denen ich mich aufgrund meiner Ergebnisse wohl fühle.

Matthew Mayo (@mattmayo13) hat einen Grasp-Abschluss in Informatik und ein Diplom in Information Mining. Als geschäftsführender Herausgeber von KDnuggets & Statistikund Mitherausgeber bei Beherrschung des maschinellen LernensZiel von Matthew ist es, komplexe datenwissenschaftliche Konzepte zugänglich zu machen. Zu seinen beruflichen Interessen zählen die Verarbeitung natürlicher Sprache, Sprachmodelle, Algorithmen für maschinelles Lernen und die Erforschung neuer KI. Seine Mission ist es, das Wissen in der Datenwissenschaftsgemeinschaft zu demokratisieren. Matthew programmiert seit seinem sechsten Lebensjahr.

5 kleine Sprachmodelle für Agenten-Software-Aufrufe

# Einführung

# 1. SmolLM3-3B

# 2. Qwen3-4B-Instruct-2507

# 3. Phi-3-mini-4k-instruct

# 4. Gemma-4-E2B-it

# 5. Mistral-7B-Instruct-v0.3

# Zusammenfassung

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

PATH zur Förderung der KI-Ausbildung und Karrieremöglichkeiten für branchenorientierte Arbeitsplätze | MIT-Nachrichten

Was das Agentenzeitalter für die Datenwissenschaft bedeutet

Zoccer On line casino Bonus ohne Einzahlung: Guida Alla Verifica Dell’account

So steuern Sie den Wandel von aufforderungsbasierten Instruments zu Workflow-gesteuerter KI

About

Categories

Tags

Recent Post

PATH zur Förderung der KI-Ausbildung und Karrieremöglichkeiten für branchenorientierte Arbeitsplätze | MIT-Nachrichten

Was das Agentenzeitalter für die Datenwissenschaft bedeutet

# Einführung

# 1. SmolLM3-3B

# 2. Qwen3-4B-Instruct-2507

# 3. Phi-3-mini-4k-instruct

# 4. Gemma-4-E2B-it

# 5. Mistral-7B-Instruct-v0.3

# Zusammenfassung

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt