Qwen hat nonetheless ein Modell nach dem anderen hinzugefügt. Jedes seiner Modelle ist voller Merkmale und Größen, die so quantifiziert sind, dass es einfach unmöglich zu ignorieren ist. Nach QVQ, QWEN2.5-VL und QWEN2.5-OMNI in diesem Jahr hat das QWEN-Staff nun seine neueste Modelsfamilie-Qwen3-veröffentlicht. Diesmal haben sie nicht nur acht verschiedene Modelle veröffentlicht – von einem Parametermodell von 0,6 Milliarden bis zu einem Parametermodell von 235 Milliarden – konkurrieren mit Topmodellen wie Openai’s O1Anwesend Gemini 2.5 ProfessionalAnwesend Deepseek R1und mehr. In diesem Weblog werden wir die QWEN3 -Modelle im Element untersuchen und ihre Funktionen, Architektur, Trainingsprozess, Leistung und Anwendungen verstehen. Fangen wir an.
Was ist Qwen3?
QWEN3 wurde von der Alibaba -Gruppe entwickelt und ist die dritte Technology von QWEN -Modellen, die bei verschiedenen Aufgaben wie Codierung, Argumentation und Sprachverarbeitung hervorragend sind. Die QWEN3 -Familie besteht aus 8 verschiedenen Modellen, die aus 235 b, 30b, 32 b, 14 b, 8b, 4b, 1,7 b und 0,6 B bestehen. Alle Modelle sind multi-modal, was bedeutet, dass sie Textual content, Audio, Bild und sogar Videoeingaben aufnehmen können und frei verfügbar gemacht wurden.
Diese Modelle konkurrieren mit hochrangigen Modellen wie O1, O3-Mini, Grok 3Anwesend Gemini 2.5 Professionalund mehr. Tatsächlich übertrifft diese neueste Serie von QWEN -Modellen nicht nur die beliebten Modelle, sondern markiert auch eine signifikante Verbesserung gegenüber vorhandenen Modellen der QWEN -Serien in vergleichbaren Parameterkategorien. Beispielsweise übertrifft das Modell QWEN-30B-A3B (30 Milliarden Parameter mit 3 Milliarden aktivierten Parametern) das QWQ-32B-Parametermodell, das alle 32 Milliarden Parameter aktiviert ist, aktiviert.
Einführung in die QWEN3 -Modelle
Die QWEN3 -Serie wird mit 8 Modellen gepackt, von denen zwei sind Mischung (MOE) Modelle, während die anderen 6 dichte Modelle sind. Die folgende Tabelle besteht aus Particulars zu all diesen Modellen:
| Modellname | Gesamtparameter | Aktivierte Parameter (für MOE -Modelle) | Modelltyp |
| QWEN3-235B-A22B | 235 Milliarden | 22 Milliarden | MOE (Mischung von Experten) |
| QWEN3-30B-A3B | 30 Milliarden | 3 Milliarden | MOE (Mischung von Experten) |
| QWEN3-32B | 32 Milliarden | N / A | Dicht |
| Qwen3-14b | 14 Milliarden | N / A | Dicht |
| Qwen3-8b | 8 Milliarden | N / A | Dicht |
| Qwen3-4b | 4 Milliarden | N / A | Dicht |
| Qwen3-1.7b | 1,7 Milliarden | N / A | Dicht |
| Qwen3-0.6b | 0,6 Milliarden | N / A | Dicht |
In MOE-Modellen wie QWEN3-235B-A22B und QWEN3-30B-A3B werden verschiedene Teile des Netzwerks oder „Experten“ basierend auf verschiedenen Eingaben aktiviert, wodurch sie hocheffizient sind. In dichten Modellen wie QWEN3-14B werden alle Netzwerkteile für jeden Eingang aktiviert.
Schlüsselmerkmale von QWEN3
Hier sind einige wichtige Highlights zu den QWEN3 -Modellen:
1. Hybridansatz
(i) Denkmodus: Dieser Modus ist nützlich, wenn es sich um komplexe Aufgaben handelt, die mehrstufige Argumente, logische Abzüge oder fortgeschrittene Problemlösungen beinhalten. In diesem Modus unterteilt das QWEN3 -Modell das angegebene Downside in kleine, überschaubare Schritte, um eine Antwort zu erreichen.
(ii) Nichtdenkungsmodus: Dieser Modus ist best für Aufgaben, die schnelle und effiziente Antworten wie Echtzeitgespräche, Informationsabruf oder einfache Q & A erfordern. In diesem Modus generieren die QWEN3 -Modelle schnell Antworten basierend auf ihrem vorhandenen Wissen oder nur einer einfachen Websuche.
Dieser hybride Ansatz wird jetzt bei allen leistungsstarken LLMs sehr beliebt, da der Ansatz eine bessere Nutzung der LLMs-Funktionen ermöglicht und eine vernünftige Verwendung von Token ermöglicht.

2. Flexibilen denken
Die neuesten Modelle der QWEN3 -Serie geben den Benutzern, auch die „Tiefe“ des Denkens zu steuern. Dies ist das erste seiner Artwork, bei dem der Benutzer auswählt, wann die Ressourcen „Denken“ für ein bestimmtes Downside verwendet werden möchten. Auf diese Weise können Benutzer ihre Budgets für eine bestimmte Aufgabe besser verwalten, um ein optimales Gleichgewicht zwischen Kosten und Qualität zu erreichen.
3. MCP & Agentic Help
Die QWEN3 -Modelle wurden für die Codierung und die Agentenfunktionen optimiert. Diese sind auch mit einer verbesserten Unterstützung für Modellkontextprotokoll (MCP). Die QWEN3 -Modelle zeigen dies, indem sie bessere Interaktionsfunktionen mit der externen Umgebung zeigen. Sie sind auch voller verbesserter „Device Calling“ -Fähigkeit, die sie für den Aufbau intelligenter Agenten wesentlich machen. Tatsächlich haben sie „Qwen-Agent“ ein separates Device veröffentlicht, mit dem intelligente Agenten mit QWEN-Modellen erstellt werden können.
4. Verbesserte Vor- und Nach-Coaching
(i) Vorausbildung: Sein Vorbereitungsverfahren battle ein 3-Stufen-Prozess. Der erste Schritt umfasste das Coaching über 30 Billionen Token mit einer 4K -Kontextlänge. Der zweite Schritt umfasste das Coaching in den Aufgaben von MINT, Codierung und Argumentation, während der letzte Schritt das Coaching mit langkontexten Daten umfasste, um die Kontextlänge auf 32-km-Token zu erweitern.
(ii) Publish -Coaching: Die QWEN3-Modelle, die den hybriden „Denken“ -Ansatz unterstützen, unterstützen den 4-Stufen-Argumentationsprozess. Die 4 Schritte betrafen lange Gedankenkette (COT) Kaltstart, Argumentationsbasis Verstärkungslernen (RL), Denkmodusfusion und schließlich allgemeines Verstärkungslernen. Das Coaching von leichten Modellen umfasste die Destillation der Basismodelle.

5. Barrierefreiheit
(i) Offenes Gewicht: Alle QWEN3 -Modelle sind unter der Apache 2.0 -Lizenz offen. Dies bedeutet, dass Benutzer diese Modelle ohne größere Einschränkungen herunterladen, verwenden und sogar ändern dürfen.
(ii) Mehrsprachige Unterstützung: Das Modell unterstützt derzeit über 119 Sprachen und Dialekte und macht es zu einem der wenigen neuesten LLMs, die sich auf die Inklusivität der Sprache konzentrieren.
QWEN3-Modelle: praktische Anwendungen
Nachdem wir alle ihre Funktionen im Element besprochen haben, ist es an der Zeit, die Funktionen von QWEN3 -Modellen zu untersuchen. Wir werden die folgenden drei Modelle testen: QWEN3-235B-A22B, QWEN3-30B-A3B und QWEN3-32B bei den folgenden drei Aufgaben:
- Komplexes logisches Denken
- Codierung
- Bildanalyse
Fangen wir an.
Aufgabe 1: Komplexes logisches Denken
Immediate: „Ein Astronaut wandert mit 0,8 ° C von der Erde in einen entfernten Stern-8-Lichtjahre (80% der Lichtgeschwindigkeit), gemessen aus dem Erdrahmen. Im Mittelpunkt der Reise ist der Astronaut-Umweg in der Nähe eines schwarzen Lochs, wo eine starke Gravitationszeit-Dilatation auftritt. Der Umweg dauert 1 Jahr im Astronauten.
Der Astronaut behauptet, dass sie, einschließlich des Umwegs, nur 6 Jahre für sie während der gesamten Reise vergingen.
Bewerten Sie, ob die Behauptung des Astronauten, „nur 6 Jahre vergangen“, mit den bekannten relativistischen Effekten übereinstimmen, ob die Behauptung des Astronauts mit besonderen relativistischen Effekten des Astronauts überschritten wird. Geben Sie eine Schritt-für-Schritt-Erklärung an, wenn Sie die Zeit in der einheitlichen Bewegung und in der Nähe des Schwarzen Lochs berücksichtigen. “
Modell: QWEN3-30B-A3B
Ausgabe:
Rezension:
Es ist beeindruckend, wie schnell dieses Modell funktioniert! Es löst das Downside Schritt für Schritt und erklärt jeden Schritt einfach. Das Modell enthält dann detaillierte Berechnungen, die für die Problemanweisung related sind, und generiert dann das Ergebnis. Es erklärt das Ergebnis weiter und stellt sicher, dass alle Punkte effektiv abgedeckt werden.
Aufgabe 2: Codierung
Immediate: „Erstellen Sie eine Webseite, auf der Benutzer das beste Outfit für sie basieren, basierend auf dem Wetter, der Anlass, der Tageszeit und der Preisspanne.“
Modell: QWEN3-235B-A22B
Ausgabe:

Rezension:
Das Modell generierte den Code für die Webseite schnell mit allen relevanten Eingaben und es battle einfach, den Code mit der Funktion „Artefakte“ innerhalb der QWenchat -Schnittstelle zu testen. Nachdem der Code implementiert battle, habe ich die Particulars der generierten Webseite nur hinzugefügt und die Outfit -Empfehlungen basierend auf meinen Anforderungen erhalten – alles innerhalb weniger Sekunden! Dieses Modell zeigte Geschwindigkeit mit Genauigkeit.
Aufgabe 3: Bildanalyse
Immediate: „Analysieren Sie die folgenden Bilder und ordnen Sie die Modelle in der absteigenden Reihenfolge ihrer Leistung auf der Benchmark“ LivecodeBench „an.“
Modell: QWEN3-32B
Ausgabe:
Rezension:
Das Modell ist hervorragend bei der Bildanalyse. Es scannt die beiden Bilder schnell und basierend darauf liefert das Modell das Ergebnis des Codecs, das wir angefordert haben. Das Beste an diesem Modell ist, wie schnell es die gesamten Informationen verarbeitet und die Ausgabe generiert.
QWEN3: Benchmark -Leistung
Im letzten Abschnitt haben wir die Leistung von 3 verschiedenen QWEN3 -Modellen bei 3 verschiedenen Aufgaben gesehen. Alle drei Modelle haben mich intestine abschneiden und überraschte mich mit ihrem Ansatz zur Problemlösung. Schauen wir uns nun die Benchmark -Leistung der QWEN -Modelle im Vergleich zu den anderen Topmodellen und früheren Modellen in der QWEN -Serie an.

Im Vergleich zu den High-Stufe-Modellen wie OpenAI-O1, Deepseek-R1, GROK 3, Gemini 2.5 Professional-Qwen-235b-A22B steht zu Recht ein klarer Champion, und dies zu Recht. Es liefert eine herausragende Leistung für Coding und mehrsprachige Richtlinien für die Sprachunterstützung.
Tatsächlich konnte auch das kompakte Modell QWEN3-32B mehrere Modelle übertreffen, was es für viele Aufgaben zu einer kostengünstigen Wahl machte.

Im Vergleich zu seinen Vorgängern übertreffen QWEN3-Modelle: QWEN3-30B-A3B und QWEN3-4B die meisten vorhandenen Modelle. Diese Modelle bieten nicht nur eine bessere Leistung, sondern auch mit ihren kostengünstigen Preisgestaltung.
Lesen Sie auch: Kimi K1.5 gegen Deepseek R1: Schlacht der besten chinesischen LLMs
Wie kann ich QWEN3 -Modelle zugreifen?
Um auf die QWEN3 -Modelle zuzugreifen, können Sie eine der folgenden Methoden verwenden:
- Öffnen Sie Qwenchat
Gehen Sie zu Qwenchat.
- Wählen Sie das Modell aus
Wählen Sie das Modell aus, mit dem Sie aus der auf der linken Seite vorhandenen Dropdown-Mitte des Bildschirms arbeiten möchten.
- Zugriff auf postgebildete und vorgebildete Modelle
Um auf die nachgebildeten Modelle und ihre vorgeborenen Gegenstücke zuzugreifen, gehen Sie zum Umarmungsgesicht, Modelscope und Kaggle.
- Bereitstellung der Modelle
Für die Bereitstellung können Sie Frameworks wie Sglang und VLLM verwenden.
- Zugriff auf die Modelle lokal zugreifen
Um auf diese Modelle lokal zuzugreifen, verwenden Sie Instruments wie Ollama, LMstudio, MLX, LLAMA.CPP und Ktransformers.
Anwendungen von QWEN3 -Modellen
QWEN3 -Modelle sind beeindruckend und können eine große Hilfe bei Aufgaben wie folgt sein:
- Agentengebäude: Die QWEN3-Modelle wurden mit verbesserten Funktionen für Funktionen entwickelt, die sie zu einer idealen Wahl für die Entwicklung von KI-Agenten machen. Diese Agenten können uns dann bei verschiedenen Aufgaben helfen, die Finanzen, Gesundheitswesen, HR und mehr betreffen.
- Mehrsprachige Aufgaben: Die QWEN3 -Modelle wurden in verschiedenen Sprachen geschult und können eine gute Wertschöpfung für die Entwicklung von Instruments sein, die Unterstützung in mehreren Sprachen erfordern. Diese können Aufgaben wie Übersetzung, Sprachanalyse und Verarbeitung in Echtzeit mit Echtzeit beinhalten.
- Cell Anwendungen: Die kleinen QWEN3-Modelle kleiner sind signifikant besser als die anderen SLMs in derselben Kategorie. Diese können verwendet werden, um cell Anwendungen mit LLM -Unterstützung zu entwickeln.
- Entscheidungsunterstützung für komplexe Probleme: Die Modelle sind mit einem Denkmodus ausgestattet, der dazu beitragen kann, komplexe Probleme wie Projektionen, Asset -Planung und Ressourcenmanagement aufzubauen.
Abschluss
In einer Welt, in der es in jeder neuesten LLM von High -Unternehmen wie OpenAI und Google Parameter hinzufügt, bringen QWEN3 -Modelle die Effizienz auch den kleinsten ihrer Modelle. Diese können für alle ausprobieren und wurden öffentlich zur Verfügung gestellt, um Entwicklern dabei zu helfen, erstaunliche Anwendungen zu erstellen.
Sind diese Modelle bahnbrechend? Vielleicht nicht, aber sind diese besser? Auf jeden Fall ja! Darüber hinaus ermöglichen diese Modelle mit flexibles Denken, Ressourcen entsprechend der Komplexität der Aufgaben zuzuweisen. Ich freue mich immer auf QWEN -Modellveröffentlichungen, da sie Qualität und Funktionen verpacken und ein Ergebnis herausschlagen, das die meisten High -Modelle noch nicht erreichen konnten.
Melden Sie sich an, um weiter zu lesen und Experten-Kuratinhalte zu genießen.
