Die Ernie-Open-Supply-Modellfamilie ruht seit einiger Zeit, aber sie sind da, damit sich das Warten lohnt. Diese neueste Veröffentlichung kam heimlich heraus, conflict aber darauf vorbereitet, eine große Wirkung zu erzielen. Mit einem „Denken mit Bildern“-Modus in einem Modell unter 3B-Parametern wird einiges geboten. Dieser Artikel dient als Leitfaden für ERNI-4.5-VL und testet es anhand der während seiner Veröffentlichung gemachten Leistungsansprüche.

Was ist ERNIE-4.5-VL?

ERNIE-4.5-VL-28B-A3B-Denken ist vielleicht der längste Modellname in der Geschichte, aber was er bietet, macht das mehr als wett. Es basiert auf der leistungsstarken ERNIE-4.5-VL-28B-A3B-Architektur und ist ein Fortschritt in den multimodalen Argumentationsfunktionen. Mit einer dürftigen Anzahl aktiver Parameter von 3 Milliarden behauptet es eine bessere Leistung als Gemini-2.5-Professional ​​und GPT-5-Hoch über verschiedene Benchmarks im Dokumenten- und Diagrammverständnis hinweg. Aber das ist es nicht! Das Faszinierendste an dieser Enthüllung ist die Funktion „Denken mit Bildern“, die das Vergrößern und Verkleinern von Bildern ermöglicht, um feinere Particulars zu erfassen.

Wie greife ich zu?

Der einfachste Weg, auf das Modell zuzugreifen, besteht darin, es zu verwenden HuggingFace Areas.

Benutzen transformers In der Bibliothek können Sie mit einem Boilerplate-Code ähnlich auf die Modelle zugreifen Das.

Probieren wir ERNIE 4.5 aus

Um zu sehen, wie intestine ERNIE-4.5…Pondering bei seinen Zeitgenossen abschneidet, testen wir es bei Sehaufgaben im Vergleich zu Gemini-2.5-Professional. Wir würden die beiden anhand der folgenden Aufgaben testen:

  1. Objekterkennung
  2. Dichtes Bildverständnis

Diese beiden Aufgaben wurden ausgewählt, weil sie für Modelle aus der Vergangenheit einen hohen Schwierigkeitsgrad darstellen. Ich würde das Modell an der HuggingFace Areas-Schnittstelle testen: https://huggingface.co/areas/baidu/ERNIE-4.5-VL-28B-A3B-Pondering

Objekterkennung

Für diese Aufgabe würde ich das berüchtigte Fingerproblem verwenden. Bisherige Modelle haben Schwierigkeiten, die Antwort auf die einfachsten Probleme zu finden:

Abfrage: Wie viele Finger sind auf dem Bild zu sehen?“

Antwort:

Ernie Antwort 1

Rezension: Falsche Antwort! Wenn man sich die Denkweise des Modells ansieht, scheint es, als hätte das Modell nicht einmal die Möglichkeit in Betracht gezogen, dass eine menschliche Hand mehr als fünf Finger haben könnte. Dies magazine in den meisten Fällen der Idealfall sein, aber für Menschen mit mehr als 5 Fingern wäre es voreingenommen/falsch. Ich habe mich gefragt, wie intestine Gemini-2.5-pro bei derselben Aufgabe abschneidet, additionally habe ich es getestet:

Zwillinge-Antwort

Selbst es konnte diese schwer fassbare Frage nicht beantworten: Wie viele Finger gibt es?

Dichtes Bildverständnis

Für diese Aufgabe würde ich ein umfangreiches und dichtes Bild (Abmessungen 12528 × 8352 und über 7 Megabyte groß) verwenden, das viele Particulars über Geld in verschiedenen Teilen der Welt enthält. Fashions haben oft Probleme mit Bildern, die so voll sind.

Abfrage: „Was können Sie auf diesem Bild erkennen? Geben Sie mir die genauen Zahlen und Particulars, die dort vorhanden sind.“

Antwort:

Rezension: Das Modell konnte einen Großteil des dichten Bildinhalts erkennen. Es konnten mehrere Particulars erkannt werden, wenn auch einige davon fehlerhaft waren.

Die falschen Zahlen könnten auf die fehlerhafte Erfassung von Zahlen während der Zeit zurückgeführt werden OCR Verfahren. Aber die Tatsache, dass es in der Lage conflict, die Inhalte zu verarbeiten und (zu einem gewissen Grad) zu verstehen, ist an sich schon ein großer Fortschritt. Dies gilt insbesondere, wenn man bedenkt, dass es anderen Modellen gefällt Gemini-2.5 Professional Wenn man das gleiche Bild erhält, versucht er es überhaupt nicht:

Ein Modell mit 3 Milliarden aktiven Parametern, das Gemini-2.5 Professional in den Schatten stellen kann. Sie hatten Recht!

Leistung

Ich kann die Modelle nicht vollständig über alle Tangenten hinweg testen, an denen es getestet werden könnte. Als Hilfestellung dienen hier die offiziellen Benchmark-Ergebnisse:

Ein klarer Vorsprung bei chartQA ist vorhanden, was den Anspruch des Unternehmens auf „bessere Leistung beim Dokumenten- und Diagrammverständnis“ erklärt. Allerdings ist es etwas kryptisch, den Illustrationen zu folgen.

Abschluss

Angesichts der Veröffentlichungen aus anderen chinesischen Labors geben sich die ERNIE-Leute nicht zurück. Wir brauchen Vielfalt in LLMs, und die ERNIE-Modelle, die ich evaluiert habe, waren recht vielversprechend. Die lange Abwesenheit von Ernie erwies sich angesichts der Ergebnisse als fruchtbar. Und da werde ich in den kommenden Tagen noch mehr folgen, basierend auf dem neuester Baidu-Tweet. Die Aussage „Mehr Parameter bedeuten nicht unbedingt bessere Modelle“ wird mit den neuesten Baidu-Modellen ausgestellt.

Häufig gestellte Fragen

Q1. Was ist ERNIE-4.5-VL?

A: Es handelt sich um Baidus neuestes multimodales Modell mit 3B aktiven Parametern, das für erweitertes Denken in Textual content und Bildern entwickelt wurde und Modelle wie Gemini-2.5-Professional ​​beim Verständnis von Dokumenten und Diagrammen übertrifft.

Q3. Was macht ERNIE-4.5-VL besonders?

A. Seine Fähigkeit „Denken mit Bildern“ ermöglicht das interaktive Zoomen innerhalb von Bildern und hilft ihm dabei, feine Particulars zu erfassen und größere Modelle in der dichten visuellen Argumentation zu übertreffen.

This fall. Wird erwartet, dass zukünftige KI-Modelle immer größer werden?

A. Nicht unbedingt. Viele Forscher glauben mittlerweile, dass die Zukunft in der Optimierung von Architekturen und Effizienz liegt, anstatt die Parameteranzahl endlos zu skalieren.

F5. Warum rückt die Optimierung in den Fokus der KI-Entwicklung?

A. Weil größere Modelle teuer, langsam und energieintensiv sind. Intelligenteres Coaching und Parameter-effiziente Techniken liefern ähnliche oder bessere Ergebnisse mit weniger Ressourcen.

Ich bin auf die Überprüfung und Verfeinerung von KI-gestützter Forschung, technischer Dokumentation und Inhalten im Zusammenhang mit neuen KI-Technologien spezialisiert. Meine Erfahrung umfasst KI-Modelltraining, Datenanalyse und Informationsabruf und ermöglicht es mir, Inhalte zu erstellen, die sowohl technisch korrekt als auch zugänglich sind.

Melden Sie sich an, um weiterzulesen und von Experten kuratierte Inhalte zu genießen.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert