Alibabas neues Agent-First LLM für Codierung

Das Qwen-Crew von Alibaba hat Qwen3.7-Max vorgestellt, ein Flaggschiffmodell, das für die Agenten-Ära entwickelt wurde. Im Gegensatz zu herkömmlichen, auf Chatbots ausgerichteten LLMs ist es als Grundlage für autonome KI-Agenten konzipiert, die programmieren, debuggen, Instruments verwenden, Arbeitsabläufe verwalten und lang andauernde Unternehmensaufgaben ausführen können.

Alibaba behauptet, dass das Modell bis zu 35 Stunden lang autonom ohne Leistungseinbußen arbeiten kann und gleichzeitig über 1.000 aufeinanderfolgende Device-Aufrufe unterstützt. In diesem Artikel untersuchen wir die Architektur, Benchmarks, APIs, Agent-Workflows und seinen Platz im sich entwickelnden LLM-Ökosystem von Qwen3.7-Max.

Was ist Qwen3.7-Max?

Qwen3.7-Max ist das neueste Mitglied der Qwen-Reihe proprietärer Modelle von Alibaba. Es ist für die Agentencodierung auf hohem Niveau, komplexes Denken, die Nutzung von Instruments, die Automatisierung von Büroabläufen und die Ausführung von Aufgaben über einen langen Zeitraum gedacht. Entwickler und Unternehmen auf der ganzen Welt können über Alibaba Cloud Mannequin Studio auf Alibaba zugreifen, gab das Unternehmen bekannt.

Die wichtigste Erkenntnis ist, dass Qwen3.7-Max derzeit kein Modell mit offenem Gewicht ist. Im Gegensatz zu vielen früheren Open-Weight-Versionen von Qwen handelt es sich um ein gehostetes proprietäres Modell. Dies bedeutet nicht, dass es mit herunterladbaren lokalen Modellen wie GPT, Claude, Gemini oder den gehosteten Flaggschiffmodellen von DeepSeek verglichen werden soll.

Hauptfunktionen von Qwen3.7-Max

Agentenkodierung: Unterstützt Frontend-Prototyping, Codegenerierung, Debugging, Entwicklung mehrerer Dateien, Terminalbefehle, Testschreiben und Problembehebung im GitHub-Stil.
Aufgabenausführung über einen längeren Zeitraum: Entwickelt für die Bewältigung erweiterter Agenten-Workflows mit vielen Device-Aufrufen, wodurch es für komplexe technische Aufgaben nützlich ist, die Ausdauer erfordern.
Werkzeugaufruf und MCP-Workflows: Funktioniert intestine in Umgebungen mit vielen Instruments, in denen Agenten mit Dateisystemen, Browsern, Datenbanken, APIs und Unternehmensanwendungen interagieren.
Automatisierung von Büro-Workflows: Hilft bei der Dokumentenerstellung, Tabellenkalkulationsanalyse, Berichterstellung, Planung, Forschungssynthese und Automatisierung von Geschäftsabläufen.
Cowork-Produktivitätsassistent: Funktioniert als mehr als ein Codierungs- oder Frage-und-Antwort-Device, indem es mehrstufige operative Aufgaben für Geschäfts- und Produktivitätsteams unterstützt.

Warum Qwen3.7-Max für KI-Agenten wichtig ist

Die meisten LLM-Releases betrafen unterschiedliche Aspekte, wie z. B. verbesserten Chat, verbesserte Mathematikfunktionen, verbesserte Codierungsfunktionen oder geringere Inferenzkosten. Die Botschaft von Qwen3.7-Max ist völlig anders, ihre Hauptbotschaft ist die Zuverlässigkeit der Agenten.

Der KI-Agent ist nicht nur ein Fragebeantworter. Es muss planen, Instruments aufrufen, die Ergebnisse lesen, Fehler beheben, Code patchen, Dateien anzeigen, Wendungen durchführen und – in einer Aufgabe, die Hunderte von Schritten umfassen kann – alles erledigen! Laut Alibaba kann der Qwen3.7-Max langkettige autonome Aufgaben bewältigen, beispielsweise tausend oder mehr Aktionen lang.

Dies ist der Grund dafür, dass Agentenprodukte in der Produktion aus verschiedenen Gründen auseinanderfallen, was bei Chatbots nicht der Fall ist. Ein solcher Agent kann mit nur einer Reaktion wirksam sein. Ein Agent sollte alle vier Variablen einer Schleife kennen:

Benutzerziel → Plan → Toolaufruf → Beobachtung → Debuggen → Wiederholen → Validierung → Endgültige Ausgabe

Qwen3.7-Max basiert auf dieser Schleife.

Qwen3.7-Max-Architektur

Alibaba hat nicht die vollständigen Particulars der Architektur von Qwen3.7-Max bekannt gegeben, einschließlich der Anzahl der Parameter, der Anzahl der Experten, der Aktivierungsgröße, des Aufmerksamkeitsdesigns oder der tatsächlichen Länge des Kontextfensters. Daher ist es am besten, seine Architektur im Hinblick auf das Design des veröffentlichten Agentensystems, die Trainingsstrategie und das Laufzeitverhalten zu beschreiben.

Excessive-Stage-Agent-Architektur

Agentenschulungsarchitektur: Umgebungsskalierung

Der Sinn der Architektur hinter Qwen3.7-Max ist die Skalierung der Umgebung. Laut Alibabas veröffentlichten Materialien wurde das Modell tatsächlich in einer Vielzahl von Agentenumgebungen erlernt und die Aufgaben, Systeme und Prüfer wurden getrennt, sodass es in der Lage ist, allgemeine Problemlösungsansätze zu erlernen und nicht einer Überanpassung von Benchmarks oder Frameworks zu unterliegen.

Dies bedeutet, dass dem Modell nicht beigebracht wird, genauen Textual content zu generieren, sondern dass es auch darauf trainiert werden sollte, angemessenen Textual content zu generieren. Ihm wird beigebracht, in sich entwickelnden Umgebungen zu funktionieren, in denen es entscheiden muss, was als nächstes zu tun ist.

So greifen Sie auf Qwen3.7-Max zu

Possibility 1: Qwen Studio

Qwen Studio ist die einfachste Möglichkeit, Qwen-Modelle in einem Browser zu testen. Qwen beschreibt Qwen Studio als einen kostenlosen KI-Assistenten, der auf der Qwen-Modellreihe basiert.

Derzeit unterstützt Qwen Studio Qwen3.7-Max Preview und Qwen3.7-Plus Preview

Possibility 2: Alibaba Cloud Mannequin Studio API

Laut Alibaba wird Qwen3.7-Max über Alibaba Cloud Mannequin Studio verfügbar sein. Mannequin Studio unterstützt die OpenAI-kompatible API-Nutzung und die Dokumentation von Alibaba bietet Beispiele für die Verwendung des OpenAI Python SDK mit dem DashScope-kompatiblen Endpunkt.

Praktisch: Verwendung von Qwen3.7-Max

Für diesen Teil würde ich Qwen Studio verwenden.

Aufgabe 1: Argumentation

Immediate: „Ein Zug legt in 2 Stunden 120 km zurück und bremst dann in den nächsten 3 Stunden auf 40 km/h ab. Berechnen Sie die Durchschnittsgeschwindigkeit für die gesamte Fahrt und erläutern Sie die Überlegungen Schritt für Schritt.„

Aufgabe 2: Bild- und Videogenerierung

Immediate: „Erstellen Sie einen filmischen, futuristischen Kontrollraum, der vollständig von KI-Agenten betrieben wird, die globale Geschäftsabläufe in Echtzeit koordinieren. Die Szene sollte holografische Workflow-Karten, autonome, miteinander kommunizierende KI-Systeme, dynamische Dashboards und eine Cyberpunk-inspirierte Atmosphäre mit realistischer Beleuchtung und hohen visuellen Particulars umfassen.“„

Ein ausreichend gutes Bild. Aber ich wollte es noch mehr testen. Um die neuen Videogenerierungsfunktionen von Qwen3.7 Max zu testen, habe ich dasselbe Bild als Eingabe für das Video verwendet und im Gegenzug das folgende Video erhalten:

Dies conflict eine vollständige KI-Era. Von der Eingabeaufforderung über die erste Bildantwort bis hin zur anschließenden Videogenerierung. Stellen Sie sich nun vor, wir würden ihm eigene Bilder und/oder Eingabeaufforderungen geben, die darauf zugeschnitten sind, die besten Antworten zu erhalten.

Aufgabe 3: Codierung

Immediate: „Schreiben Sie ein Python-Skript, das einen Ordner auf neu hinzugefügte CSV-Dateien überwacht, fehlende Werte automatisch bereinigt, die Dateien in einem einzigen Datensatz zusammenführt und einen zusammenfassenden Bericht generiert, der Folgendes enthält:

– Gesamtzahl der verarbeiteten Zeilen
– Statistiken zu fehlenden Werten
– Duplikaterkennung
– Grundlegende spaltenweise Analysen

Erklären Sie dann Schritt für Schritt die Logik des Skripts und schlagen Sie mögliche Optimierungen für den Umgang mit sehr großen Datensätzen vor.“

Die Resonanz ist technisch stark und zeigt ein gutes Verständnis skalierbarer Datenverarbeitungskonzepte wie Chunked Execution, Parquet Storage und Out-of-Core-Frameworks wie Dask und Polars. Allerdings ist es für die ursprüngliche Aufgabe etwas überentwickelt und zu ausführlich, sodass Teile davon eher KI-generiert als von Natur aus prägnant wirken.

Abschluss

Qwen3.7-Max könnte für KI-Programmierer und -Entwickler wertvoll sein, die an Coding-Agent-Pipelines, Device-Aufrufen, Tabellenkalkulationsautomatisierung und mehrsprachigen Arbeitsabläufen arbeiten. Technische Führungskräfte sollten es als Teil einer umfassenderen Agentenplattformstrategie bewerten, insbesondere wenn ihre Organisation bereits Alibaba Cloud nutzt oder starke Mehrsprachigkeits- und Codierungsfunktionen benötigt.

Die Hauptsorge besteht darin, dass Qwen3.7-Max proprietär ist, sodass die Benchmark-Ergebnisse des Anbieters intern überprüft werden sollten. Der beste Ansatz besteht darin, es anhand Ihres aktuellen Modells an realen Aufgaben zu testen und dabei die Erfolgsquote, die Aufgabenkosten, die Latenz, die Wiederholungsversuche und den erforderlichen menschlichen Aufwand zu messen.

Harsh Mishra ist ein KI/ML-Ingenieur, der mehr Zeit damit verbringt, mit großen Sprachmodellen zu sprechen als mit echten Menschen. Leidenschaftlich für GenAI, NLP und die intelligentere Entwicklung von Maschinen (damit sie ihn noch nicht ersetzen). Wenn er nicht gerade Modelle optimiert, optimiert er wahrscheinlich seinen Kaffeekonsum. 🚀☕

Alibabas neues Agent-First LLM für Codierung

Was ist Qwen3.7-Max?

Warum Qwen3.7-Max für KI-Agenten wichtig ist