China hat es mit seinen KI -Modellen wieder getan und diesmal ist der Schlag größer und besser! Baidu – Eine chinesische KI -Firma, kürzlich zwei veröffentlicht Großsprachige Modelle (LLMs) – Ernie 4.5 & x1. Behaupten, eine bessere Leistung als das neueste und größte Modell von Openai bis heute zu erzielen – GPT-4.5Diese Modelle sind kosteneffizienter als Deepseek-R1! Die Modelle scheinen zu intestine zu sein, um wahr zu sein – und bieten eine hohe Qualität zu einem Bruchteil des Preises. In diesem Weblog werden wir die Ernie 4.5- und X1-Modelle untersuchen, ihre Benchmark-Ergebnisse bewerten und sehen, wie sie in realen Anwendungen abschneiden. Additionally fangen wir an.
Was sind Ernie 4.5 & X1?
Ernie 4.5 & X1 sind die beiden neuesten multimodalen LLMs, die vom führenden chinesischen Technologieunternehmen Baidu entwickelt wurden und sich auf Internetdienste, künstliche Intelligenz und autonomes Fahren spezialisiert haben. Es ist am besten für seine dominierende Suchmaschine in China und die Fortschritte in KI-gesteuerten Innovationen bekannt. Baidu startete im Dezember 2021 seinen ersten LLM, Ernie 3.0 Titan. Danach hat es einige weitere Modelle veröffentlicht und gleichzeitig daran gearbeitet, robustere LLMs zu erstellen. Das Ergebnis aller Forschung und kontinuierlichen Bemühungen ist Ernie 4.5 & X1.
Ernie 4.5
Ernie 4.5 ist ein multimodales Fundamentmodell, das verschiedene Datentypen verstehen und integrieren kann, einschließlich Textual content, Bilder, Audio und Video. Dieser vielfältige Modellierungsansatz verbessert seine Fähigkeit, verschiedene Arten von Inhalten zu verstehen und zu generieren.
Hier sind einige der Hauptmerkmale von Ernie 4.5:
- Ernie 4.5 zeigt umfassende Verbesserungen in Verständnis, Era, Argumentation und Erinnerung gegenüber seinem Vorgänger Ernie 4.0.
- Es zeigt große Fähigkeiten bei der Halluzinationsprävention, dem logischen Denken und der Codierung, wodurch es geschickt ist, komplexe Aufgaben mit höherer Genauigkeit zu erledigen.
- Das Modell erzielt in mehreren Benchmarks sogar besser als Openai’s GPT-4,5, während es nur 1% dessen kostet, was es für die Verwendung von GPT-4,5 kostet!
Ernie x1
Ernie X1 ist als tief denkender Argumentationsmodell mit multimodalen Fähigkeiten konzipiert. Es ist ein erstes von Baidu veröffentlichtes Modell mit tiefem Denken. Hier sind einige seiner Schlüsselmerkmale:
- Ernie X1 zeichnet sich aus, um den Kontext zu verstehen, seinen Denkprozess zu planen, seine Reaktion zu reflektieren und sich im Laufe der Zeit weiterzuentwickeln.
- Es ist in der Lage, verschiedene Instruments für Aufgaben wie erweiterte Suche, Bildverständnis und komplexe Berechnungen autonom zu verwenden.
- Das Modell liefert die Leistung von Deepseek-R1, aber zum halben Preis und bietet eine kostengünstige Lösung für Unternehmen, die nach fortschrittlichen KI-Funktionen suchen.
Wie kann ich Ernie 4.5 & X1 zugreifen?
Sie können entweder über ihren AI -Chatbot – Ernie Bot oder über APIs auf Ernie 4.5 & X1 zugreifen.
Zugriff über Bot:
Beide Modelle sind für einzelne Benutzer auf der Ernie Bot -Plattform von Baidu frei zugänglich. Die Registrierung für Ernie Bot ist derzeit auf chinesische Staatsangehörige beschränkt.
Zugriff über API:
- Besuchen Sie die Maas -Plattform von Baidu Ai Cloud, Qianfan
- Erstellen Sie Ihr Konto auf der Plattform, um loszulegen.
Derzeit kann auf die Plattform von allen Benutzern nicht zugegriffen werden. Außerdem ist nur Ernie 4.5 über API erhältlich, während Ernie X1 bald auf der Plattform verfügbar sein wird.
Ernie 4.5 & X1 Efficiency Verify
In diesem Abschnitt werden wir herausfinden, wie diese Modelle bei Aufgaben mit Multimedia, Argumentation, Dokumentanalyse und vielem mehr ausgeführt werden. Da die Modellschnittstelle nur die chinesische Sprache unterstützt und die Darstellung der Account auf chinesische Staatsangehörige beschränkt ist, werden wir uns einige Beispiele dafür ansehen, wie Menschen die beiden Modelle verwenden, und welche Ausgaben sie erhalten haben. Wir werden einige der häufigsten Anwendungsfälle von Ernie 4.5 & X1 abdecken, die wir on-line gefunden haben, darunter:
- Argumentation mit Bildanalyse
- Dokumentanalyse und Zusammenfassung
- Audioanalyse
- Kreativität und Bildgenerierung
Aufgabe 1: Argumentation + Bildanalyse
In dieser Aufgabe wurde das Modell gebeten, ein mathematisches Downside zu lösen, das ihm in Kind eines Bildes gegeben wurde.
Modell verwendet: Ernie 4.5
Ausgabe:
Wie die meisten anderen multimodalen LLMs analysiert Ernie 4.5 das Video schnell und löst das Downside im Bild. Es nimmt alle Fragen im Bild nacheinander und fasst sie schließlich alle zusammen. Die Geschwindigkeit und Genauigkeit seiner Leistung macht es zu einem nützlichen Instrument für Studenten, Pädagogen, Forscher und Fachkräfte, die eine schnelle und genaue Problemlösung benötigen.
Aufgabe 2: Dokumentanalyse + Zusammenfassung
Hier erhielt das Modell ein Dokument und musste die Informationen zu einem bestimmten Thema aus diesem Dokument zusammenfassen.
Modell verwendet: Ernie 4.5
Ausgabe:
Mit dem Modell können Sie mehrere Dateien verschiedener Typen auf einmal hochladen. Es ist in der Lage, Dateien verschiedener Typen zu verarbeiten, einschließlich Dokumenten, PDFs, PPTs, Excel -Blättern und vielem mehr. In den hochgeladenen Dateien können Sie die (oder mehr) auswählen, über die Sie den Chatbot abfragen möchten, und das Modell fasst das Thema schnell zusammen. Die schnelle Verarbeitung mehrerer Dateien kann für Aufgaben wie Forschungsanalyse, Überprüfung der Rechtsdokumente, Finanzdatenextraktion und Unternehmensberichterstattung sehr nützlich sein.
Aufgabe 3: Audioanalyse
Für diese Aufgabe musste das Modell das gegebene Audio analysieren und seine Quelle finden.
Modell verwendet: Ernie 4.5
Ausgabe:
Die Audioanalyse ist eine Funktion, die keiner der beliebten KI -Chatbots in ihre Schnittstelle integriert hat, wodurch Ernie 4.5, die erste ihrer Artwork. Das Modell analysiert schnell den Clip, bestimmt seine Quelle und beschreibt dann sogar die Bedeutung des Clips. Die schnelle Analyse und die detaillierte Beschreibung machen es zu einem wertvollen Instrument für Aufgaben wie Echtzeit-Transkription, sprachbasierte Suche, Deepfake-Erkennung und Stimmungsanalyse in den Bereichen Medien, Kundendienst, Bildung und Strafverfolgung.
Aufgabe 4: Kreativität + Bildgenerierung
Für diese Aufgabe musste das Modell einen Raum analysieren und mögliche Dekorationen vorschlagen, die seine allgemeine Attraktivität verbessern können. Es musste dann ein aktualisiertes Bild des Raumes generieren.
Modell verwendet: Ernie x1
Ausgabe:
Das Modell verarbeitet das Bild schnell. Es schlägt dann die möglichen Verbesserungen an der Dekor des Raums vor, um die Gesamtattraktivität zu verbessern. Schließlich erzeugt es das Bild des Raums mit allen vorgeschlagenen Verbesserungen. Diese Funktion ist eine großartige Ergänzung für Aufgaben wie Innenarchitektur, Renovierungsplanung, Immobilienbühnen und virtuelle Dekorvisualisierung.
Notiz: Wir haben die Beispiele aus diesem Beitrag auf X genommen.
Baidus Ernie 4.5 & X1: Preisgestaltung
Sowohl Ernie 4.5 und X1 haben alle Funktionen und noch mehr als die Topmodelle von OpenAI, Deepseek, Grok, Claude usw. Hier finden Sie eine Preisaufschlüsselung der beiden Modelle:
Modell | Eingangspreis (professional Million Token) | Ausgangspreis (professional Million Token) | Verfügbarkeit |
Ernie 4.5 | $ 0,55 | $ 2,20 | Verfügbar |
Ernie x1 | $ 0,28 | $ 1,10 | Noch nicht verfügbar |
Im Vergleich zu anderen Topmodellen sind Ernie 4.5 und X1 deutlich billiger, was sie zu einem wertvollen Kapital bei der Weiterentwicklung der generativen KI macht.

Ernie 4.5 & X1: Commonplace -Benchmark -Ergebnisse
Wir haben bereits die Funktionen, Funktionen und die Preisgestaltung der neuesten Ernie -Modelle gesehen. Schauen wir uns nun einige Leistungszahlen dieser Modelle gegen High-Modelle wie GPT-4,5, GPT-4O, Deepseek-R1 und mehr an.
Die folgende Grafik vergleicht Ernie 4.5 und GPT-4O über mehrere Benchmarks, die die multimodale KI-Leistung testen.

Die Grafik zeigt das:
- Ernie 4.5 übertrifft GPT-4O in den meisten multimodalen Aufgaben.
- Die durchschnittliche Punktzahl für Ernie 4.5 beträgt 77,77, was höher ist als 73,92 von GPT-4O.
- Ernie 4.5 hat einen bedeutenden Vorteil in Mathvista und Docvqa und zeigt bessere mathematische Argumentation und dokumentbasierte Fragen-Answerkenntnisse.
- Beide Modelle treten in Ocrbench und MMMU ähnlich ab, aber Ernie 4.5 hat immer noch einen leichten Vorteil.
Das nächste Diagramm vergleicht Ernie 4.5, Deepseek V3-CHAT, GPT-4O und GPT-4,5 über mehrere Benchmarks für textbasierte Argumentation und Problemlösung.

Hier sind einige wichtige Imbissbuden aus der Grafik:
- Ernie 4.5 führt das Rudel mit einer durchschnittlichen Punktzahl von 79,6 an und übertrifft die Deepseek V3 – Chat bei 79,14.
- Es funktioniert intestine über allgemeine Kenntnisse, Argumenten und Programmversuche wie MMLU-PRO, GSM8K und Humaneval+.
- GPT-4O und Deepseek V3 zeigen auch starke Ergebnisse, wobei Deepseek V3 wie CMMLU in chinesischen Benchmarks wettbewerbsfähig ist.
- Ernie 4.5 zeichnet sich in GSM8K (Math) und C-Eval (allgemeines Denken) aus, obwohl Deepseek V3 in der Leistung sehr eng ist.
Zukünftige Auswirkungen
Das Rennen um das High -LLM ist heizen und Baidus Ernie 4.5 & X1 führt einen ernsthaften Wettbewerb um OpenAI, Deepseek, Anthropic und Meta ein. Da die chinesischen KI -Labors Modelle liefern, die die westliche KI zu einem Bruchteil der Kosten konkurrieren oder übertreffen, werden Unternehmen gezwungen sein, schneller zu innovieren und ihre Kosten zu senken, um wettbewerbsfähig zu bleiben.
All diese Fortschritte werden endlich zu:
- Schnellere KI -Fortschritte in allen wichtigen KI -Forschungszentren.
- Erschwinglichere KI für Unternehmen und Entwickler.
- Eine neue Ära multimodaler KI-Anwendungen, die über die traditionelle textbasierte KI hinaus expandiert.
Abschluss
Die Ernie 4.5- und X1 -Modelle von Baidu sind nicht nur ein weiterer Satz von KI -Modellen – sie sind Branchenstörer. Ihre überlegenen multimodalen und argumentationsfähigen Fähigkeiten, niedrige Preisgestaltung und eine tiefe Integration in das digitale Ökosystem Chinas signalisieren eine Leistungsverschiebung auf dem globalen KI -Markt.
Wenn dieser Pattern weitergeht, würden wir eine größere AI -Demokratisierung und Öffentlichkeitsarbeit in verschiedenen Branchen sehen. Dies würde auch viele westliche Unternehmen dazu veranlassen, billigere Modelle zu veröffentlichen. Dies würde dies nicht nur zur Wettbewerbsfähigkeit auf dem Markt beitragen, sondern auch sicherstellen, dass die Benutzer das meiste Wert für ihr Geld erhalten.
Häufig gestellte Fragen
A. Ernie 4.5 und X1 sind die von Baidu entwickelten großartigen großartigen Modelle (Language Fashions), die mit High-KI-Modellen wie OpenAIs GPT-4,5 und Deepseek-R1 konzipiert wurden. Ernie 4.5 ist ein multimodales Fundamentmodell, während Ernie X1 ein tiefdenkendes Argumentationsmodell mit fortschrittlichen Funktionen ist.
A. Ernie 4.5 ist für multimodales Verständnis optimiert, in der Lage, Textual content, Bilder, Audio und Video mit hoher Genauigkeit zu verarbeiten. Ernie X1 hingegen ist für tiefdenkende Denken, Exzellent im Kontextverständnis, Planen und Problemlösung mit Selbstreflexion ausgelegt.
A. Baidu Ernie 4.5 übertrifft GPT-4,5 in mehreren Benchmarks, insbesondere in Bezug auf Argumentation, multimodales Verständnis und Halluzinationsprävention, während nur 1% des Preis von GPT-4,5 kostet. Ernie X1 liefert die Leistung von Deepseek-R1 auf die Hälfte der Kosten und macht sie wettbewerbsfähige KI-Lösungen.
A. Ernie 4,5: Enter kostet 0,55 USD professional 1 Mio. Token, die Ausgabe kostet 2,20 USD professional 1 Mio. Token.
Ernie X1: Eingabekosten kostet 0,28 USD professional 1 -Mio. -Token, die Ausgabe kostet 1,10 USD professional 1 Mio. Token.
Das Ernie X1 -Modell ist noch nicht über API verfügbar, wird aber bald sein.
A. Sie können auf diese Modelle zugreifen:
1. Ernie Bot (AI Chatbot) unter yiyan.baidu.com (nur für chinesische Benutzer verfügbar).
2. Die Maas -Plattform von Baidu Ai Cloud, Qianfan, für den API -Zugriff (derzeit ist nur Ernie 4.5 verfügbar).
Melden Sie sich an, um weiter zu lesen und Experten-Kuratinhalte zu genießen.