Dieser Artikel enthält einen technischen Vergleich zwischen zwei kürzlich veröffentlichten Modellen der Mischung aus Experten (MOE): Alibaba QWEN3 30B-A3B (veröffentlicht April 2025) und OpenAs GPT-OSS 20B (veröffentlicht August 2025). Beide Modelle stellen unterschiedliche Ansätze für das Design der MOE -Architektur dar und balancieren die Recheneffizienz mit Leistung in verschiedenen Bereitstellungsszenarien.

Modellübersicht

Besonderheit QWEN3 30B-A3B GPT-OSS 20B
Gesamtparameter 30.5b 21b
Aktive Parameter 3.3b 3.6b
Anzahl der Schichten 48 24
MOE -Experten 128 (8 aktiv) 32 (4 aktiv)
Aufmerksamkeitsarchitektur GRAUPED ABFRAGE AUFGABE Gruppierte Multi-Quer-Aufmerksamkeit
Abfrage-/Schlüsselwertköpfe 32Q / 4KV 64Q / 8KV
Kontextfenster 32.768 (Durchwahl 262.144) 128.000
Wortschatzgröße 151.936 O200K_HARMONY (~ 200K)
Quantisierung Normal -Präzision Native MXFP4
Veröffentlichungsdatum April 2025 August 2025

Quellen: QWEN3 Offizielle DokumentationAnwesend OpenAI GPT-OSS-Dokumentation

QWEN3 30B-A3B Technische Spezifikationen

Architekturdetails

QWEN3 30B-A3B verwendet eine tiefe Transformatorarchitektur mit 48 Schichtenenthält jeweils eine Konfiguration der Experten mit einer Mischung mit Experten mit 128 Experten professional Schicht. Das Modell aktiviert 8 Experten professional Token Während der Inferenz ein Gleichgewicht zwischen Spezialisierung und Recheneffizienz erreichen.

Aufmerksamkeitsmechanismus

Das Modell verwendet Gruppierte Aufmerksamkeit der Abfrage (GQA) mit 32 Abfrageköpfe und 4 Schlüsselwertköpfe³. Dieses Design optimiert die Speicherverwendung und behält gleichzeitig die Aufmerksamkeitsqualität auf, die besonders vorteilhaft für die lang Kontextverarbeitung ist.

Kontext und mehrsprachige Unterstützung

  • Einheimische Kontextlänge: 32.768 Token
  • Erweiterter Kontext: Bis zu 262.144 Token (neueste Varianten)
  • Mehrsprachige Unterstützung: 119 Sprachen und Dialekte
  • Vokabular: 151.936 Token mit BPE -Tokenisierung

Einzigartige Funktionen

QWEN3 enthält a Hybrid -Argumentationssystem Unterstützung sowohl „Denken“ als auch „nicht denkenden“ Modi, sodass Benutzer den Rechenaufwand basierend auf der Komplexität der Aufgaben steuern können.

GPT-OSS 20B Technische Spezifikationen

Architekturdetails

GPT-OSS 20B Includes a 24-layer-Transformator mit 32 MOE -Experten professional Schicht⁸. Das Modell aktiviert 4 Experten professional Tokendie umfassendere Expertenkapazität über die feinkörnige Spezialisierung.

Aufmerksamkeitsmechanismus

Das Modell implementiert Gruppierte Multi-Quer-Aufmerksamkeit mit 64 Abfrageköpfe und 8 Schlüsselwertköpfe, die in Gruppen von 8 angeordnet sind¹⁰. Diese Konfiguration unterstützt eine effiziente Inferenz und behält gleichzeitig die Aufmerksamkeitsqualität über die breitere Architektur auf.

Kontext und Optimierung

  • Einheimische Kontextlänge: 128.000 Token
  • Quantisierung: Native MXFP4 (4,25-Bit-Präzision) für MOE-Gewichte
  • Speichereffizienz: Läuft mit einem 16 -GB -Speicher mit Quantisierung
  • Tokenizer: O200K_Harmony (Superset von GPT-4O-Tokenizer)

Leistungseigenschaften

GPT-OSS 20B verwendet abwechselnd dichte und lokal gebundene spärliche Aufmerksamkeitsmuster Ähnlich wie GPT-3 mit Rotationspositionseinbettung (Seil) Für Positionalcodierung alss.

Architekturphilosophievergleich

Tiefe vs. Breite Strategie

QWEN3 30B-A3B betont Tiefe und Expertenvielfalt:

  • 48 Schichten ermöglichen mehrstufige Argumentation und hierarchische Abstraktion
  • 128 Experten professional Schicht bieten eine feinkörnige Spezialisierung
  • Geeignet für komplexe Argumentationsaufgaben, die eine tiefe Verarbeitung erfordern

GPT-OSS 20B priorisiert Breite und Rechendichte:

  • 24 Schichten mit größeren Experten maximieren die Repräsentationskapazität professional Schicht
  • Weniger, aber leistungsfähigere Experten (32 gegenüber 128) erhöhen individuelle Expertenfunktionen
  • Optimiert für eine effiziente Einzelpassinferenz

Moe Routing -Strategien

Qwen3: Routes Token durch 8 von 128 Expertenfördert vielfältige, kontextsensitive Verarbeitungspfade und modulare Entscheidungsfindung.

Gpt-oss: Routes Token durch 4 von 32 ExpertenMaximierung der Rechenleistung von Per-Experten und Bereitstellung einer konzentrierten Verarbeitung professional Inferenzschritt.

Überlegungen zum Speicher und Bereitstellung

QWEN3 30B-A3B

  • Speicheranforderungen: Variable basierend auf Präzision und Kontextlänge
  • Einsatz: Optimiert für die Cloud- und Edge -Bereitstellung mit flexibler Kontextverlängerung
  • Quantisierung: Unterstützt verschiedene Quantisierungsschemata nach dem Coaching

GPT-OSS 20B

  • Speicheranforderungen: 16 GB mit nativem MXFP4 -Quantisierung, ~ 48 GB in Bfloat16
  • Einsatz: Für Verbraucherhardwarekompatibilität entwickelt
  • Quantisierung: Native MXFP4 -Coaching ermöglicht eine effiziente Inferenz ohne Qualitätsverschlechterung

Leistungseigenschaften

QWEN3 30B-A3B

  • Zeichnet sich aus mathematisches Denken, Kodierung und komplexe logische Aufgaben
  • Starke Leistung in Mehrsprachige Szenarien über 119 Sprachen
  • Denkmodus Bietet verbesserte Argumentationsfunktionen für komplexe Probleme

GPT-OSS 20B

  • Erreicht Leistung vergleichbar mit OpenAI O3-Mini auf Normal -Benchmarks
  • Optimiert für Device -Nutzung, Internet -Browser und Funktionsaufrufe
  • Stark Gedankenkette mit einstellbaren Argumentationsaufwandsniveaus

Anwendungsfallempfehlungen

Wählen Sie QWEN3 30B-A3B für:

  • Komplexe Argumentationsaufgaben, die eine mehrstufige Verarbeitung erfordern
  • Mehrsprachige Anwendungen über verschiedene Sprachen hinweg
  • Szenarien, die eine versatile Erweiterung der Kontextlänge erfordern
  • Anwendungen, bei denen Denk-/Argumentationstransparenz bewertet wird

Wählen Sie GPT-OSS 20B für:

  • Ressourcenbeschränkungen für Effizienz erfordern
  • Werkzeuganrufe und Agentenanwendungen
  • Schnelle Inferenz mit konsequenter Leistung
  • Edge -Bereitstellungsszenarien mit begrenztem Speicher

Abschluss

QWEN3 30B-A3B und GPT-OSS 20B stellen ergänzende Ansätze für das Design der Moe-Architektur dar. QWEN3 betont Tiefe, Expertenvielfalt und mehrsprachige Fähigkeiten, wodurch es für komplexe Argumentationsanwendungen geeignet ist. GPT-OSS 20B priorisiert Effizienz, Integration der Instruments und Bereitstellungsflexibilität und positionieren Sie sie für praktische Produktionsumgebungen mit Ressourcenbeschränkungen.

Beide Modelle demonstrieren die Entwicklung von MOE -Architekturen über die einfache Parameterskalierung hinaus und enthält anspruchsvolle Designentscheidungen, die architektonische Entscheidungen mit beabsichtigten Anwendungsfällen und Bereitstellungsszenarien ausrichten.

Hinweis: Dieser Artikel ist von der inspiriert Reddit Publish und Diagramm von Sebastian Raschka.


Quellen

  1. QWEN3 30B-A3B Mannequin Card-Umarmung Gesicht
  2. QWEN3 Technischer Weblog
  3. QWEN3 30B-A3B Basisspezifikationen
  4. QWEN3 30B-A3B unterrichtet 2507
  5. QWEN3 Offizielle Dokumentation
  6. QWEN Tokenizer -Dokumentation
  7. QWEN3 -Modellfunktionen
  8. OpenAI GPT-OSS Einführung
  9. GPT-OSS Github Repository
  10. GPT-OSS 20B-GROQ-Dokumentation
  11. OpenAI GPT-OSS-technische Particulars
  12. Umarme Face GPT-OSS-Weblog
  13. OpenAI GPT-OSS 20B Modellkarte
  14. OpenAI GPT-OSS Einführung
  15. NVIDIA GPT-OSS Technischer Weblog
  16. Umarme Face GPT-OSS-Weblog
  17. QWEN3 Leistungsanalyse
  18. OpenAI GPT-OSS-Modellkarte
  19. GPT-OSS 20B-Funktionen


Michal Sutter ist ein Datenwissenschaftler bei einem Grasp of Science in Information Science von der College of Padova. Mit einer soliden Grundlage für statistische Analyse, maschinelles Lernen und Datentechnik setzt Michal aus, um komplexe Datensätze in umsetzbare Erkenntnisse umzuwandeln.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert