Nun, dies ist ein Schock, trotz vieler Rückschläge auf die Kosten von GPT 4.5, Es wird die Nummer 1 in der LLM -Rangliste der Chatbot Area! Das neueste Modell von OpenAI, das mehr als 3.200 Stimmen hat, hat sich in allen Kategorien der Bewertung als Nummer eins herausgestellt, was sich in der Stilkontrolle und in mehreren Flip-Interaktionen deutlich hervorhebt. Dieser Meilenstein bekräftigt OpenAs führende Rolle bei der Förderung der KI -Technologie trotz intensiver Wettbewerbs.
Konfidenzintervalle zur Modellstärke (über Bootstrapping)
Das obige Bild zeigt die Konfidenzintervalle für die Leistungsbewertungen der Modelle und zeigt den wesentlichen Vorsprung von GPT-4,5. Es ist merklich höher, in Verbindung mit einem relativ engen Konfidenzintervall unterstreicht es die Konsistenz und Zuverlässigkeit der Leistung von GPT-4,5 im Vergleich zu seinen Wettbewerbern.
Durchschnittlicher Gewinnrate gegen alle anderen Modelle (unter der Annahme einer einheitlichen Probenahme und ohne Krawatten)
Hier können Sie sehen, dass GPT-4,5 eine starke Durchschnittsgewinnrate von 56% gegenüber allen anderen Modellen hat und die Benutzer zeigen, dass sie diese häufiger bevorzugen. Dies unterstreicht die Fähigkeit, verschiedene Aufgaben intestine zu erledigen, was erklärt, warum es an der Spitze steht.
Bruchteil des Modells A Siege für alle nicht gebundenen A gegen B-Schlachten
Dieses Bild zeigt eine Heatmap der Matchup-Ergebnisse, bei der GPT-4,5 häufig gegen andere Topmodelle gewinnt oder intestine abschneidet. Die hohe Gewinnrate in entscheidenden Schlachten zeigt die Flexibilität und die starke Leistung von GPT-4,5 in verschiedenen Situationen.
Kampfanzahl für jede Kombination von Modellen (ohne Krawatten)
Hier sehen Sie eine Heatmap, die zeigt, wie oft GPT-4,5 gegen andere Modelle getestet wurde. Diese detaillierte Bewertung, an der Tausende von Matchups beteiligt sind, unterstreicht die gründliche Prüfung von GPT-4,5. Dies unterstützt die Zuverlässigkeit und Wichtigkeit des Prime -Rankings.
Lesen Sie auch:
Was ist Chatbot Area?
Die Chatbot Area LLM Ranglawboard ist eine Plattform, die große Sprachmodelle vergleicht, indem sie gegeneinander antreten. Es sammelt Benutzermeinungen aus vielen Interaktionen und untersucht Dinge wie Genauigkeit, Kreativität, Verständnis von Kontext und Gesprächsfähigkeiten. Anstatt feste Maßnahmen zu verwenden, richtet es Modelle basierend auf dem, was Benutzer denken, und geben eine aktuelle Ansicht darüber, wie intestine jedes Modell in der realen Verwendung funktioniert. Dies hält die Konkurrenz stark.
Endnote
Diese herausragende Leistung durch OpenAIs GPT-4,5 markiert einen bedeutenden Meilenstein in der Wettbewerbslandschaft von Großsprachmodellen, was einen hohen Maßstab für zukünftige Innovationen darstellt. Was denkst du über GPT 4.5, der in der Chatbot Area Nummer 1 wird? Lassen Sie mich im Kommentarbereich unten wissen!
Bleiben Sie mit den neuesten Ereignissen der KI -Welt auf dem Laufenden mit Analytics Vidhya Information!