Benchmark veranschaulicht die Funktionen der Modelle wie Codierung und Argumentation. Das Ergebnis spiegelt die Leistung des Modells über verschiedene Domänen wider, die auf Daten zur Agentencodierung, Mathematik, Argumentation und Instruments verwendet werden.

Benchmark Claude 4 Opus Claude 4 Sonett Gpt-4o Gemini 2.5 Professional
Humaneral (Code Gen) Nicht verfügbar Nicht verfügbar 74,8% 75,6%
GPQA (Graduierten -Argumentation) 83,3% 83,8% 83,3% 83,0%
MMLU (Weltwissen) 88,8% 86,5% 88,7% 88,6%
Aime 2025 (Mathe) 90,0% 85,0% 88,9% 83,0%
SWE-Bench (Agentencodierung) 72,5% 72,7% 69,1% 63,2%
Tau-Bench (Werkzeuggebrauch) 81,4% 80,5% 70,4% Nicht verfügbar
Terminalbank (Codierung) 43,2% 35,5% 30,2% 25,3%
MMMU (visuelle Argumentation) 76,5% 74,4% 82,9% 79,6%

In diesem Fall zeichnet sich Claude 4 im Allgemeinen in Codierung, GPT-4O in der Argumentation und der Gemini 2.5 Professional überaus eine starke, ausgewogene Leistung in verschiedenen Modalitäten. Weitere Informationen finden Sie unter Besichtigung Hier.

Gesamtanalyse

Folgendes haben wir über diese fortgeschrittenen Schließmodelle gelernt, basierend auf den oben genannten Vergleichspunkten:

  • Wir fanden heraus, dass Claude 4 in Codierung, Mathematik und Werkzeuggebrauch ausgestattet ist, aber es ist auch die teuerste.
  • GPT-4O zeichnet sich in Argumentation und multimodaler Unterstützung aus, die verschiedene Eingabebeformate bearbeiten und es zu einer idealen Wahl für fortschrittlichere und komplexe Assistenten machen.
  • In der Zwischenzeit bietet Gemini 2.5 Professional eine starke und ausgewogene Leistung mit dem größten Kontextfenster und der kostengünstigsten Preise.

Claude 4 gegen GPT-4O gegen Gemini 2.5 Professional: Codierungsfunktionen

Jetzt werden wir die Codebriting-Funktionen von Claude 4, GPT-4O und Gemini 2.5 Professional vergleichen. Dafür geben wir allen drei Modellen die gleiche Aufforderung und bewerten ihre Antworten auf die folgenden Metriken:

  • Effizienz
  • Lesbarkeit
  • Kommentar und Dokumentation
  • Fehlerbehandlung

Aufgabe 1: Designspielkarten mit HTML, CSS und JS

Eingabeaufforderung: “Erstellen Sie eine interaktive Webseite, auf der eine Sammlung von WWE -Famous person -Flash -Karten mithilfe von HTML, CSS und JavaScript angezeigt wird. Jede Karte sollte einen WWE -Wrestler darstellen und muss eine Vorder- und Rückseite enthalten. Zeigen Sie auf der Vorderseite den Namen und das Bild des Wrestlers an. Zeigen Sie auf der Rückseite zusätzliche Statistiken wie ihren Abschluss-, Marken- und Meisterschaftstitel. Die Karteikarten sollten über eine Flip -Animation verfügen, wenn sie überschritten oder geklickt werden.

Fügen Sie außerdem interaktive Steuerelemente hinzu, um die Seitendynamik zu machen: eine Schaltfläche, die die Karten mischt, und eine andere, die eine zufällige Karte vom Deck anzeigt. Das Format sollte visuell ansprechend und für verschiedene Bildschirmgrößen reagieren. Bonuspunkte Wenn Sie Soundeffekte wie Eingangsmusik aufnehmen, wenn eine Karte umgedreht wird.

Wichtige Funktionen zum Implementieren:

  • Vorderseite der Karte: Wrestlers Title + Bild
  • Zurück der Karte: Statistiken (z. B. Finisher, Marke, Titel)
  • Flip -Animation mit CSS oder JS
  • „Shuffle“ -Style, um Karten zufällig neu zu bestellen
  • „Random Famous person“ -Style
  • Responsive Design.

Die Antwort von Claude 4:

Antwort von GPT-4o:

Die Antwort von Gemini 2.5 Professional:

Vergleichende Analyse

In der ersten Aufgabe gab Claude 4 das interaktive Erlebnis mit den dynamischsten Visuals. Beim Klicken auf die Karte wurden auch ein Soundeffekt hinzugefügt. GPT-4O gab ein schwarzes Thema mit reibungslosen Übergängen und voll funktionsfähigen Schaltflächen, fehlte jedoch die Audiofunktionalität. In der Zwischenzeit gab Gemini 2.5 Professional das einfachste und grundlegendste sequenzielle Format ohne Animation oder Ton. Außerdem konnte die Zufallskartenfunktion in diesem Fall das Gesicht der Karte nicht richtig angezeigt. Insgesamt übernimmt Claude hier die Führung, gefolgt von GPT-4O und dann Gemini.

Aufgabe 2: Erstellen Sie ein Spiel

Immediate: Spell Technique Sport ist ein rundenbasiertes Kampfspiel mit Pygame, bei dem zwei Magier mit Zaubersprüchen aus ihren Zauberbüchern konkurrieren. Jeder Spieler beginnt mit 100 PS und 100 Mana und wählt abwechselnd Zaubersprüche aus, die Schäden verursachen, heilen oder Spezialeffekte wie Schilde und Stuns anwenden. Zauber konsumieren Mana und haben Abklingzeiten, sodass die Spieler Ressourcen verwalten und sorgfältig strategisieren. Das Spiel verfügt über eine ansprechende Benutzeroberfläche mit Gesundheits- und Mana -Bars und Zauberabklingindikatoren. Die Spieler können sich gegen einen anderen Menschen oder einen KI -Gegner stellen, um die HP ihres Rivalen durch taktische Entscheidungen auf Null zu reduzieren.

Schlüsselmerkmale:

  • Rundenbasiertes Gameplay mit zwei Magiern (PVP oder PVAI)
  • 100 PS und 100 Mana professional Spieler
  • Zauberbuch mit verschiedenen Zauber: Schaden, Heilung, Schilde, Stuns, Mana -Aufladung
  • Mana -Kosten und Abklingzeiten für jeden Zauber, um strategisches Spiel zu fördern
  • Visuelle UI -Elemente: Gesundheits-/Mana -Balken, Abklingsindikatoren, Zauberikonen
  • KI-Gegner mit einfacher taktischer Entscheidungsfindung
  • Maussteuerungsteuerungen mit optionalen Tastaturverknüpfungen
  • Klare Messaging im Spiel, die Aktionen und Effekte zeigt

Die Antwort von Claude 4:

Antwort von GPT-4o:

Die Antwort von Gemini 2.5 Professional:

Vergleichende Analyse

In der zweiten Aufgabe lieferte keines der Modelle die richtige Grafik. Jeder zeigte einen schwarzen Bildschirm mit einer minimalen Schnittstelle. Claude 4 bot jedoch die funktionsfähigste und reibungsloseste Kontrolle über das Spiel mit einer Vielzahl von Angriff, Verteidigung und anderen strategischen Gameplay. GPT-4O hingegen litt unter Leistungsproblemen wie Verzögerung und einer kleinen und prägnanten Fenstergröße. Sogar Gemini 2.5 Professional fiel hier zu kurz, da sein Code nicht lief und einige Fehler machte. Insgesamt übernimmt Claude hier wieder die Führung, gefolgt von GPT-4O und dann Gemini 2.5 Professional.

Aufgabe 3: Beste Zeit zum Kauf und Verkauf von Aktien

Immediate: Sie erhalten eine Array -Preise, bei der die Preise (i) der Preis einer bestimmten Aktie am Tag des ITH -Tages sind.
Finden Sie den maximalen Gewinn, den Sie erzielen können. Sie können höchstens zwei Transaktionen abschließen.
Notiz: Sie dürfen nicht gleichzeitig mehrere Transaktionen durchführen (dh die Aktie, bevor Sie erneut kaufen).
Beispiel:
Enter: Preise = (3,3,5,0,0,3,1,4)
Ausgabe: 6
Erläuterung: Kaufen Sie am Tag 4 (Preis = 0) und verkaufen Sie am Tag 6 (Preis = 3), Gewinn = 3-0 = 3. Dann kaufen Sie am Tag 7 (Preis = 1) und verkaufen am Tag 8 (Preis = 4), Gewinn = 4-1 = 3.

Die Antwort von Claude 4:

Claude 4 Codierungsfähigkeiten

Antwort von GPT-4o:

GPT-4O-Codierungsleistung

Die Antwort von Gemini 2.5 Professional:

Gemini 2.5 Pro -Programmierfunktionen

Vergleichende Analyse

In der dritten und letzten Aufgabe tEr Modelle mussten das Downside mithilfe der dynamischen Programmierung lösen. AMong der drei, GPT-4O-Angeboted Die praktischste und wohlhabendste Lösung, die eine saubere 2D-dynamische Programmierung mit sichere Initialisierung verwendet und auch einbeziehtD Testfälle. Während Claude 4 zur Verfügung stelltD Ein detaillierterer und pädagogischerer Ansatz ist ausführlicher. In der Zwischenzeit, Gemini 2.5 Professional gab eine prägnante Methode, aber verwenden Sie aberD INT_MIN -Initialisierung, was ein riskanter Ansatz ist. In dieser Aufgabe übernimmt GPT-4O die FührungAnwesend gefolgt von Claude 4 und dann Gemini 2.5 Professional.

Letztes Urteil: Gesamtanalyse

Hier ist eine vergleichende Zusammenfassung, wie intestine jedes Modell in den obigen Aufgaben ausgeführt wurde.

Aufgabe Claude 4 Gpt-4o Gemini 2.5 Professional Gewinner
Aufgabe 1 (Karte UI) Am interaktivsten mit Animationen und Soundeffekten Glattes dunkles Thema mit funktionalen Schaltflächen, kein Audio Grundlegendes sequentielles Format, Kartengesichtsproblem, keine Animation/Sound Claude 4
Aufgabe 2 (Spielkontrolle) Easy Controls, breite Strategieoptionen, das funktionale Spiel Nutzbar, aber verzögert, kleines Fenster Fehlgeschlagen, Schnittstellenfehler Claude 4
Aufgabe 3 (Dynamische Programmierung) Ausführlich aber lehrreich, intestine zum Lernen Saubere und sichere DP -Lösung mit Testfällen, am praktischsten Prägnant, aber unsicher (verwendet int_min), fehlt Robustheit Gpt-4o

Um die vollständige Model aller Codedateien zu überprüfen, besuchen Sie bitte Hier.

Abschluss

Durch diesen umfassenden Vergleich von drei verschiedenen Aufgaben haben wir nun festgestellt, dass Claude 4 mit seinen interaktiven UI -Entwurfsfunktionen und stabilen Logik in der modularen Programmierung heraussticht, was es insgesamt zum Prime -Performer macht. Während GPT-4O eng mit seiner sauberen und praktischen Kodierung folgt und sich in der algorithmischen Problemlösung auszeichnet. In der Zwischenzeit fehlt Gemini 2.5 Professional in der UI -Design und Stabilität in der Ausführung über alle Aufgaben hinweg. Diese Beobachtungen basieren jedoch vollständig auf dem obigen Vergleich, während jedes Modell einzigartige Stärken aufweist und die Auswahl des Modells vollständig von dem Downside abhängt, das wir lösen möchten.

Hallo! Ich bin Vipin, ein leidenschaftlicher Information Science und maschinelles Lernen, der eine starke Grundlage für die Datenanalyse, Algorithmen und Programmierung maschinelles Lernens und Programmierung hat. Ich habe praktische Erfahrungen beim Aufbau von Modellen, beim Verwalten unordentlicher Daten und die Lösung realer Probleme. Mein Ziel ist es, datengesteuerte Erkenntnisse anzuwenden, um praktische Lösungen zu erstellen, die Ergebnisse erzielen. Ich bin bestrebt, meine Fähigkeiten in einer kollaborativen Umgebung beizutragen und gleichzeitig in den Bereichen Datenwissenschaft, maschinelles Lernen und NLP zu lernen und zu wachsen.

Melden Sie sich an, um weiter zu lesen und Experten-Kuratinhalte zu genießen.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert