Das Rennen um das „beste KI-Modell“ geht weiter, denn Z.ai ist das jüngste Unternehmen, das mit einem neuen und weiterentwickelten Modell an den Begin geht. Z.ai nennt es GLM-4.6V und hat sich bei diesem Gerät auf visuelle Hinweise und Darstellung konzentriert. Und daher das „V“ am Ende seines Namens, das an das bestehende Flaggschiffmodell der Firma, den GLM-4.6, erinnert (Lesen Sie hier alles darüber).
Es handelt sich hier additionally natürlich nicht nur um ein weiteres Chat-Modell. Es sieht Bilder, versteht Diagramme, schreibt Code und argumentiert sogar wie ein echter Teamkollege, der tatsächlich aufmerksam ist. Und das Schöne daran: Für die Nutzung ist keine große Einrichtung erforderlich. GLM-4.6V ist bereits in den Z.ai-Chats verfügbar, wobei sogar eine leichtere Model für die lokale Bereitstellung und Anwendungen mit geringer Latenz verfügbar ist.
In diesem Weblog erfahren Sie, was der neue GLM-4.6V mit sich bringt und ob er so speziell ist, dass Sie ihn verwenden können oder nicht. Wir werden versuchen, diese Antworten anhand eines praktischen Assessments mit dem neuen Modell zu finden. Additionally, lasst uns gleich loslegen und den neuen GLM-4.6V von Z.ai hier erkunden.
Hauptmerkmale von Z.ai GLM-4.6V
Hier sind einige der wichtigsten Funktionen des neuen GLM-4.6v.
Geben Sie ihm ein PDF, eine Forschungsarbeit oder eine Seite voller Bilder, Tabellen und Formeln, und GLM-4.6V liest alles wie ein menschlicher Experte. Das bedeutet, dass es nicht durch gemischte Inhalte verwirrt wird und sogar neue Dokumente erstellen kann, die Textual content und Bilder perfekt kombinieren.
Zusamenfassend: Wenn Ihr Dokument zu chaotisch aussieht, kann dieses Modell es trotzdem klar lesen und eine sauberere Model für Sie schreiben.
2. Erstellt automatisch bildreiche Inhalte
Es kann Beiträge, Berichte und visuelle Beschreibungen erstellen, die sowohl Textual content als auch Bilder enthalten. Dafür wurde das Modell ausreichend trainiert, um automatisch zu erkennen, wo Bilder am besten passen. Dies eignet sich hervorragend für Advertising and marketing, Tutorials oder soziale Inhalte.
Zusamenfassend: Sie schreiben weniger > es wird besser formatiert > Ihre Ausgabe sieht bereit zur Veröffentlichung aus.
3. Durchsucht das Net anhand von Bildern
Zeigen Sie ihm ein Foto oder einen Screenshot, und er kann on-line nach relevanten Informationen suchen. Dies hilft dabei, die richtigen Produktlinks, Konkurrenten, Markendetails oder weitere Bilder zu finden. Es kombiniert das, was es sieht, mit dem, was es weiß.
Zusamenfassend: Machen Sie einen Screenshot > fragen Sie etwas > und es findet echte Antworten aus dem Web.
4. Wandelt UI-Screenshots in funktionierenden Code um
Laden Sie einen Screenshot einer Webseite oder mobilen Benutzeroberfläche hoch, und GLM-4.6V kann dafür sauberes HTML/CSS/JS generieren. Sie können Teile einzeln hervorheben und das Modell anweisen, sie zu ändern, und der Code wird sofort aktualisiert.
Zusamenfassend: Design > Screenshot > Code. Es sind keinerlei Entrance-Finish-Kenntnisse erforderlich.
5. Merkt sich lange Eingaben (128K-Token-Kontext)
Sie können riesige PDFs, mehrseitige Folien und lange Forschungsnotizen auf einmal an den GLM-4.6V übertragen. Es behält den Überblick über das gesamte Dokument, merkt sich Referenzen und unterstützt eine tiefgreifende Argumentation. Um Ihnen einen Hinweis zu geben, gibt Z.ai in seinem an Weblog dass der GLM-4.6V „~150 Seiten komplexer Dokumente, 200 Folienseiten oder ein einstündiges Video in einem einzigen Inferenzdurchgang“ genau verarbeiten kann.
Zusamenfassend: Anstatt Dateien in Teile aufzuteilen, laden Sie sie einfach einmal hoch und stellen Sie Fragen zu jedem Teil.
6. schneidet bei Customary-Benchmarks wirklich intestine ab
GLM-4.6V wird für viele Aufgaben wie visuelles Verständnis, logisches Denken und das Lesen langer Dokumente getestet. Aus den von Z.ai geteilten Daten geht hervor, dass die Leistung des GLM 4.6V zu den besten offenen Modellen gehört.
Das bringt uns zu unserem nächsten Abschnitt – wie intestine ist der neue GLM-4.6V bei Benchmarks?
GLM-4.6V Benchmark-Leistung
Die folgende Tabelle zeigt die Ergebnisse des GLM-4.6V in einer Vielzahl von Benchmarks. Dazu gehören visuelles Denken, OCR, Agentenaufgaben und das Verständnis langer Kontexte.
GLM-4.6V Benchmark-Leistung
In quick jeder Hauptkategorie schneidet der GLM-4.6V besser ab oder bleibt sehr nahe daran Die besten verfügbaren Modelle heute, insbesondere wenn es darum geht, über Bilder nachzudenken, UI-Designs in Code umzuwandeln und Dokumente mit gemischten Inhalten zu lesen. Auch die kleinere Flash-Model bietet beeindruckende Genauigkeit bei geringem Gewicht, was sie zu einer praktischen Wahl für schnellere und kostengünstigere Bereitstellungen macht.
Kurz gesagt: GLM-4.6V bietet große Genauigkeit, überzeugendes Denken und zuverlässige Leistung selbst bei komplexen visuellen Aufgaben. Genau das, was Sie sich von einer multimodalen KI der nächsten Technology wünschen.
Lassen Sie uns dies nun in einem realen Szenario testen:
GLM-4.6V zum Anfassen
Wir haben den GLM-4.6V für drei Hauptaufgaben getestet – Inhaltserstellung, Deep-Net-Suche und Codierung, basierend auf den Stärken des Modells, wie von Z.ai definiert. Schauen Sie sich den Check und seine Ergebnisse an:
1. Multimodale Inhaltsgenerierung
Immediate: Sehen Sie sich dieses PDF zu den Elevate-Plänen von Uber für eVTOLs an. Verfassen Sie einen Artikel mit 500 Wörtern, in dem Sie das gesamte Konzept erläutern, alles, was zur Umsetzung empfohlen wird, welche Vorteile es bringt und welche Einschränkungen es gegebenenfalls gibt. Ergänzen Sie den Artikel mit 1 oder 2 Diagrammen, die das Konzept erläutern, und einer visuellen Darstellung aller Städte, die für den zukünftigen Check markiert sind
Ausgabe:
Unsere Meinung:
Das Modell struggle in der Lage, die richtigen Informationen aus dem umfangreichen PDF zu extrahieren und darauf basierend einen präzisen Artikel zu verfassen, genau wie angewiesen. Eine leichte Abweichung, die mir auffiel, struggle das erstellte eVTOL-Diagramm, das keinem der von Uber in seinem Whitepaper geteilten Designs entsprach. Der Relaxation der Ausgabe struggle recht intestine.
2. Deep Net Search
Immediate: Können Sie die Sitcom identifizieren, auf der dieses Meme basiert?
Ausgabe:
Unsere Meinung:
GLM-4.6V verwechselte das Meme mit einer völlig anderen Present. Das Meme ist eine berühmte Anspielung auf die Sitcom „Not the 9 O’clock Information“ und nicht auf „Solely Fools and Horses“, wie hier erwähnt. Ich glaube, anstatt tatsächlich nach dem Bild zu suchen, hat es den Kontext einer Unterhaltung zwischen einem Mann und einem Gorilla verstanden und in anderen Reveals nach Beispielen dafür gesucht, was zu diesem Ergebnis geführt hat.
3. Codierung
Immediate: Erstellen Sie basierend auf diesem Thema eine Reise-Web site, die Pakete für Touristenorte in Indien anstelle der hier gezeigten iPhone-Modelle anzeigt. Verwenden Sie echte Bilder aus dem Web anstelle von Platzhaltern. Ändern Sie die Hintergrundfarbe in Hellblau. Behalten Sie im Menü nur 3 Optionen bei – Flüge, Züge, Inns
Ausgabe:
Unsere Meinung:
Die Web site sieht recht intestine aus und ähnelt stark der Apple-Web site, die wir als Referenz bereitgestellt haben. Dem Modell gelang es auch, Karten für Touristenziele zu entwerfen, wobei jedem Bild ein präziser Textual content folgte. Das Einzige, was es vermisste, waren die drei Menüoptionen, die ich in der Eingabeaufforderung ausdrücklich erwähnt hatte. Additionally vielleicht nicht ganz korrekt, aber nah dran.
Abschluss
Basierend auf den Stärken des neuen GLM-4.6V und unseren praktischen Assessments kann man mit Sicherheit sagen, dass es sich um ein recht leistungsstarkes KI-Modell von Z.ai handelt. Es ist in der Lage, Eingabeaufforderungen intestine zu entschlüsseln und qualitativ hochwertig zu produzieren multimodale Ausgänge für verschiedene Aufgaben, einschließlich, aber nicht beschränkt auf die Generierung multimodaler Inhalte, die Websuche und sogar die Codierung von Webschnittstellen.
Allerdings möchten Sie möglicherweise die geringfügigen Abweichungen von den Eingabeaufforderungen in jedem Anwendungsfall bemerken. Das sagt mir, dass es dem Modell bei manchen Aufgaben, die auf ihn zukommen, möglicherweise an Genauigkeit mangelt. Wenn Sie additionally eine hochpräzise Aufgabe vor sich haben, möchten Sie vielleicht auf andere KI-Modelle zurückgreifen. Für alles andere scheint es einen tollen Job zu machen.
Stratege und Kommunikator für technische Inhalte mit einem Jahrzehnt Erfahrung in der Erstellung und Verbreitung von Inhalten über nationale Medien, die indische Regierung und non-public Plattformen
Melden Sie sich an, um weiterzulesen und von Experten kuratierte Inhalte zu genießen.