Die Rivalität zwischen Anthropic und OpenAI hat sich durch Konkurrenz verschärft Tremendous Bowl-Werbung um am selben Tag neue Codierungsmodelle auf den Markt zu bringen. Claude Opus 4.6 von Anthropic und Codex 5.3 von OpenAI sind jetzt reside. Beide weisen starke Benchmarks auf, aber welches sticht wirklich heraus? Ich werde sie auf die Probe stellen und ihre Leistung bei derselben Aufgabe vergleichen. Mal sehen, wer die Nase vorn hat.
OpenAI Codex 5.3 vs. Claude Opus 4.6: Benchmarks
Claude 4.6 Opus-Bewertungen für SWE-Bench und Cybersicherheit werden in ihren Versionshinweisen als „branchenführend“ oder „Spitzenreiter“ beschrieben, wobei in ihren Systemkarten spezifische Spitzenleistungen angegeben sind.
| Benchmark | Claude 4.6 Opus | GPT-5.3-Codex | Notizen |
|---|---|---|---|
| Terminal-Bench 2.0 | 81,4 % | 77,3 % | Agenten-Terminalfähigkeiten und Systemaufgaben. |
| SWE-Bench Professional | ~57 %* | 56,8 % | Praxisnahes Software program-Engineering (mehrsprachig). |
| BIPval-AA | Führend (+144 Elo) | 70,9 % (Hoch) | Professioneller Wissensarbeitswert. |
| OSWorld-verifiziert | 72,7 % | 64,7 % | Nutzung der visuellen Desktop-Umgebung. |
| Die letzte Prüfung der Menschheit | Erster Platz | N / A | Komplexes multidisziplinäres Denken. |
| Kontextfenster | 1 Million Token | 128k (Ausgabe) | Claude unterstützt ein Restrict von 1 Mio. Eingaben/128.000 Ausgaben. |
| Cybersicherheit (CTF) | ~78 %* | 77,6 % | Schwachstellen identifizieren und beheben. |
Claude 4.6 Opus (anthropisch):
- Fokus: Außergewöhnlich in der Tiefe des Denkens und beim Abrufen langer Kontexte (1 Mio. Token). Es zeichnet sich durch Terminal-Bench 2.0 aus, was darauf hindeutet, dass es derzeit das stärkste Modell für Agentenplanung und komplexe Aufgaben auf Systemebene ist.
- Neue Funktionen: Führt „Adaptives Denken“ und „Kontextkomprimierung“ ein, um lang andauernde Aufgaben zu bewältigen, ohne den Fokus zu verlieren.
Hier ist unsere ausführliche Rezension zu Claude Opus 4.6.
GPT-5.3-Codex (OpenAI):
- Fokus: Spezialisiert auf den gesamten Software program-Lebenszyklus und die visuelle Computernutzung. Es zeigt einen enormen Sprung in OSWorld-Verified, was es äußerst effektiv bei der Navigation von UI/UX zur Erledigung von Aufgaben macht.
- Neue Funktionen: Optimiert für Geschwindigkeit (25 % schneller als 5.2) und „Interaktive Zusammenarbeit“, sodass Benutzer das Modell während der Ausführung in Echtzeit steuern können.
Hier ist unser ausführlicher Weblog zum Thema Kodex 5.3.
Wie greife ich zu?
- Für Opus 4.6: Ich habe mein Claude Professional-Konto im Wert von 17 $ professional Monat genutzt.
- Für Codex 5.3: Zum Anmelden habe ich die macOS-App von Codex und mein ChatGPT-Plus-Konto (1.999 ₹/Monat) verwendet.
Claude Opus 4.6 vs. OpenAI Codex 5.3 Aufgaben
Nachdem wir nun mit allen Grundlagen fertig sind, vergleichen wir die Leistung dieser Modelle. Hier finden Sie meine Aufforderung, Musterantworten und meine Meinung dazu:
Aufgabe 1: Klon im Twitter-Stil (Internet-App)
Immediate:
Sie sind ein erfahrener Full-Stack-Ingenieur und Produktdesigner. Ihre Aufgabe besteht darin, mithilfe von Dummy-Frontend-Daten einen einfachen Klon im Twitter-Stil (Internet-App) zu erstellen.
Verwenden Sie: Subsequent.js (App Router) + React + TypeScript + Tailwind CSS. Keine Authentifizierung, kein echtes Backend; habe gerade In-Reminiscence-Daten im Frontend simuliert.
Kernanforderungen:
- Linke Seitenleiste: Emblem, Hauptnavigation (Startseite, Entdecken, Benachrichtigungen, Nachrichten, Lesezeichen, Pay attention, Profil, Mehr), primäre Schaltfläche „Posten“.
- Mitteneinspeisung: Zeitleiste mit Tweets, Komponist oben (Profil-Avatar + „Was passiert?“-Eingabe), jeder Tweet mit Avatar, Title, Deal with, Zeit, Textual content, optionalem Bild und Aktionen (Antworten, Retweet, Like, Anzeigen/Teilen).
- Rechte Seitenleiste: Suchleiste, Feld „Tendencies für Sie“ (Themen mit Tweet-Anzahl), Karte „Wem folgen“ (3 Dummy-Profile).
- Obere Navigationsleiste: Behoben mit „Residence“ und 2 Registerkarten: „Für Sie“ und „Folgen“.
- Mobiles Verhalten: Zeigen Sie auf kleinen Bildschirmen eine untere Navigationsleiste mit Symbolen anstelle der linken Seitenleiste an.
Dummy-Daten:
- Erstellen Sie TypeScript-Typen für Tweet, Benutzer, Pattern.
- Seed-App mit:
- 15 Dummy-Tweets (kurzer/langer Textual content, einige mit Bildern, unterschiedliche Anzahl von Likes/Retweets/Antworten).
- 5 Dummy-Tendencies (Title, Kategorie, Anzahl der Tweets).
- 5 Dummy-Benutzer für „Wem man folgen soll“.
Verhalten:
- Verfasser des Beitrags: Geben Sie einen Tweet ein und fügen Sie ihn sofort oben im Feed „Für Sie“ hinzu.
- Like-Button: Schalten Sie den Standing „Gefällt mir“/„Gefällt mir nicht“ um und aktualisieren Sie die Anzahl der Likes.
- Registerkarten: „Für Sie“ zeigt alle Tweets, „Folgen“ zeigt Tweets von 2–3 bestimmten Benutzern.
- Suchleiste: Filtern Sie Tendencies nach Namen, während der Benutzer sie eingibt.
Datei- und Komponentenstruktur:
- app/structure.tsx: Globales Format.
- app/web page.tsx: Haupt-Feed-Seite.
- Komponenten/Sidebar.tsx: Linke Seitenleiste.
- Komponenten/Feed.tsx: Mitteneinspeisung.
- Komponenten/Tweet.tsx: Individuelle Tweetkarten.
- Komponenten/TweetComposer.tsx: Komponist.
- Komponenten/RightSidebar.tsx: Tendencies + wem man folgen sollte.
- Komponenten/BottomNav.tsx: Cell Navigation unten.
- knowledge/knowledge.ts: Dummy-Daten und TypeScript-Typen.
Verwenden Sie Tailwind CSS, um es an das Design von Twitter anzupassen: dunkler Textual content auf hellem Hintergrund, abgerundete Karten, dezente Trennlinien.
Ausgabe:
- Geben Sie einen kurzen Überblick (5–7 Aufzählungspunkte) über die Architektur und den Datenfluss.
- Geben Sie alle Dateien mit Kommentaren oben für Dateipfade und vollständigem, zum Kopieren und Einfügen bereiten Code aus.
- Ordnen Sie Importe den verwendeten Dateipfaden zu.
Einschränkungen:
- Kein Backend, keine Datenbank oder externe API – alles muss mit laufen
npm run dev.- Verwenden Sie einen Commonplace Nächste App erstellen + Rückenwind aufstellen.
- Behalten Sie den gesamten Inhalt als Dummy-Inhalt (keine echten Benutzernamen oder urheberrechtlich geschützten Inhalt).
Anleitung zum Ausführen:
Nachdem Sie ein Subsequent.js + Tailwind-Projekt erstellt haben, führen Sie die App mit den genauen bereitgestellten Befehlen aus.
Ausgabe:
Meine Meinung:
Der von Claude erstellte Twitter-Klon struggle deutlich besser. Codex hat es zwar geschafft, ein Seitenleisten-Panel zu erstellen, aber es fehlten Bilder und es fühlte sich unvollständig an, während Claudes Model weitaus ausgefeilter und produktionsbereiter aussah.
Aufgabe 2: Ein Blackjack-Spiel erstellen
Immediate:
Spielübersicht:
Erstellen Sie ein einfaches, faires 1-gegen-1-Blackjack-Spiel, bei dem ein menschlicher Spieler nach den Commonplace-On line casino-Regeln gegen einen Pc-Supplier antritt. Der Pc sollte festen Händlerregeln folgen und nicht betrügen oder einen Blick auf versteckte Informationen werfen.
Technik & Struktur:
- Verwenden HTML, CSSUnd JavaScript nur.
- Einseitige App mit drei Dateien:
index.html,model.css,script.js.- Keine externen Bibliotheken.
Spielregeln (Commonplace-Blackjack):
- Deck: 52 Karten, 4 Farben, Werte:
- Zahlenkarten: Nennwert.
- J, Q, Ok: Wert 10.
- Asse: Wert 1 oder 11, je nachdem, was günstiger ist, ohne zu überkaufen.
- Erster Deal:
- Spieler: 2 Karten offen.
- Händler: 2 Karten, eine offen, eine verdeckt.
- Spielerzug:
- Optionen: „Hit“ (Karte nehmen) oder „Stand“ (Zug beenden).
- Wenn der Spieler 21 überschreitet, scheidet er aus und verliert sofort.
- Supplier Flip (feste Logik):
- Decke die versteckte Karte auf.
- Der Supplier muss bis 17 oder mehr schlagen und bei 17 oder höher bleiben (wählen Sie „Hit bei Delicate 17“ oder „Stand bei allen 17“ und geben Sie dies deutlich in der Benutzeroberfläche an).
- Der Supplier sieht keine zukünftigen Karten oder außer Kraft gesetzten Regeln.
- Ergebnis:
- Wenn der Supplier überkauft und der Spieler nicht, gewinnt der Spieler.
- Wenn keiner pleite geht, gewinnt die höhere Summe.
- Gleiche Summen = „Push“ (Unentschieden).
Anforderungen an Equity/Keine Voreingenommenheit:
- Verwenden Sie zu Beginn jeder Runde ein richtig gemischtes Deck (z. B. Fisher-Yates-Mischung).
- Der Händler darf sein Verhalten nicht aufgrund versteckter Informationen ändern.
- Ordnen Sie das Deck nicht in der Mitte der Runde neu an.
- Behalten Sie die gesamte Spiellogik bei
script.jsfür die Hörbarkeit.- Zeigen Sie eine Nachricht an wie: „Der Supplier folgt festen Regeln (Treffer bis 17, bleibt bei 17+). Keine Manipulation.“
UI-Anforderungen:
- Format:
- Spitze: Supplier-Bereich – Karten und Gesamtsumme des Sellers anzeigen.
- Mitte: Statustext (z. B. „Sie sind an der Reihe – Hit or Stand?“, „Supplier zieht…“, „Sie gewinnen!“, „Supplier gewinnt“, „Push“).
- Unten: Spielerbereich – Zeigt die Karten des Spielers, die Gesamtsumme und die Schaltflächen für Hit, Stand und New Spherical an.
- Zeigen Sie Karten als einfache Rechtecke mit Rang und Farbe an (nur Textual content, keine Bilder).
- Zeigt Sieg-/Niederlage-/Unentschieden-Zähler an.
Interaktionen und Fluss:
- Wenn die Seite geladen wird, wird die Schaltfläche „Spiel starten“ angezeigt und dann werden die ersten Karten ausgeteilt.
- Aktivieren Sie die Hit/Stand-Tasten nur, wenn der Spieler an der Reihe ist.
- Nachdem der Spieler steht oder überkauft, führen Sie den automatischen Zug des Sellers Schritt für Schritt durch (mit kleinen Timeouts).
- Zeigen Sie am Rundenende die Ergebnismeldung an und aktualisieren Sie die Zähler.
- Mit der Schaltfläche „Neue Runde“ werden die Hände zurückgesetzt und der Stapel neu gemischt.
Code-Organisation:
- Funktionen in
script.js:
createDeck(): Gibt ein neues 52-Karten-Deck zurück.shuffleDeck(deck): Mischt das Deck (Fisher-Yates).dealInitialHands(): Gibt jeweils 2 Karten aus.calculateHandTotal(hand): Behandelt Asse optimum als 1 oder 11.playerHit(),playerStand(),dealerTurn(),checkOutcome().- Verfolgen Sie Variablen für
playerHand,dealerHand,deckund Sieg-/Niederlage-/Unentschieden-Zähler.Ausgabeformat:
- Erklären Sie kurz in 5–7 Stichpunkten, wie Equity und Unvoreingenommenheit sichergestellt werden.
- Geben Sie den vollständigen Inhalt aus für:
index.htmlmodel.cssscript.js- Stellen Sie sicher, dass der Code zum Kopieren und Einfügen bereit und konsistent ist (keine fehlenden Funktionen oder Variablen).
- Fügen Sie einen Abschnitt „Ausführung“ hinzu: Weisen Sie an, die drei Dateien in einem Ordner abzulegen und zu öffnen
index.htmlin einem Browser.
Ausgabe:
Meine Meinung:
Die Lücke wurde beim Blackjack-Spiel noch deutlicher. Codex 5.3 erzeugte eine sehr langweilige, statische Ausgabe. Im Gegensatz dazu lag Claude Opus 4.6 weit vorn. Es lieferte eine richtige grüne On line casino-Matte, eine viel attraktivere Benutzeroberfläche und ein insgesamt ansprechendes Internet-Erlebnis.
Claude Opus 4.6 vs. OpenAI Codex 5.3: Endgültiges Urteil
Die Meinungen darüber, ob Codex 5.3 oder Opus 4.6 besser ist, sind in der Tech-Group weiterhin geteilt. Codex 5.3 wird wegen seiner Geschwindigkeit, Zuverlässigkeit bei der Erstellung fehlerfreien Codes und seiner Effektivität bei komplexen Engineering-Aufgaben, insbesondere bei Backend-Korrekturen und autonomer Ausführung, geschätzt. Andererseits zeichnet sich Opus 4.6 durch tieferes Denken, Agentenfähigkeiten und die Handhabung von Problemen mit langen Kontexten aus und bietet attraktivere UI-Designs. Allerdings kann es bei Iterationen und der Token-Effizienz zu Herausforderungen kommen.
Nach meinen praktischen Erfahrungen mit beiden Modellen entscheide ich mich für diesen Kampf, Codex 5.3 vs. Claude Opus 4.6, für Claude Opus 4.6 🏆.
Die Gesamtleistung, die Benutzerfreundlichkeit und die ausgefeilte Benutzeroberfläche haben es bei den von mir getesteten Aufgaben hervorstechen lassen, auch wenn Codex 5.3 seine Vorzüge in Bezug auf Geschwindigkeit und Funktionalität hatte.
Verlassen Sie sich nicht nur auf mein Wort. Testen Sie beide Modelle selbst und finden Sie heraus, welches für Sie am besten geeignet ist! Teilen Sie mir Ihre Gedanken mit.
Melden Sie sich an, um weiterzulesen und von Experten kuratierte Inhalte zu genießen.
