Sehr leistungsstarkes Modell aus der Field. Um seine vollen Funktionen nutzen zu können, müssen Sie ihm jedoch Zugriff gewähren, um seine eigene Arbeit zu validieren und zu verifizieren.
In einem früheren Artikel habe ich die Validierung der eigenen Arbeit durch Claude als einen wichtigen Teil meiner Optimierung meiner eigenen Verwendung von Claude Code erwähnt. In diesem Artikel werde ich jedoch tiefer darauf eingehen, wie ich Claude dazu bringe, seine eigene Arbeit zu validieren.
Die Vorteile sind unglaublich. Wenn Sie Claude dazu bringen, seine eigene Arbeit zu validieren, erhalten Sie:
- Ein Modell, das sich besser für One-Shot-Implementierungen eignet (verbringt weniger Zeit mit der Iteration)
- Ein Modell, das länger laufen kann (das Modell läuft weiter, bis es seine eigene Arbeit erfolgreich verifizieren kann)
- Das Modell kann komplexere Arbeiten erledigen
Ich werde tiefer auf einige spezifische Aufgaben eingehen, bei denen ich Claude bitte, seine eigene Arbeit zu überprüfen, wodurch ich viel Zeit spare. Ich werde auch meinen Denkprozess bei der Einrichtung von Claude auf diese Weise erläutern.

Warum sollte Claude seine eigene Arbeit überprüfen lassen?
Der Hauptgrund, warum Sie Claude seine eigene Arbeit überprüfen lassen sollten, ist, dass Claude dadurch einfach bessere Leistungen erbringt. Sie können sich dies anhand des folgenden Szenarios vorstellen:
Stellen Sie sich vor, Sie müssten einen Code implementieren, um die Fibonacci-Folge zu berechnen. Offensichtlich haben einige Leute genau diese Aufgabe schon einmal gemacht, und es wird für sie relativ einfach sein, sie zu erledigen. Stellen Sie sich jedoch vor, dass Sie diese Aufgabe perfekt abschließen müssen, ohne jemals die Gelegenheit zu haben, den Code auszuführen und die Ausgabe zu sehen, d. h. Sie müssen beim ersten Versuch, das Drawback zu lösen, den perfekten Code erstellen. Das ist natürlich viel schwieriger, als wenn Sie die Gelegenheit bekommen, den Code selbst zu testen, ihn zu optimieren, wenn Sie feststellen, dass er nicht genau die richtigen Zahlen liefert, und so weiterzumachen, bis Ihr Code die richtige Ausgabe liefert.
Das gleiche exakte Konzept gilt für Claude Code. Wenn Sie ihm nicht die Möglichkeit geben, seine eigene Arbeit zu überprüfen, ist das so, als ob Sie ihn bitten würden, Code für die Fibonacci-Folge zu schreiben, ohne dass er jemals die Ausgabe des Codes sieht. Offensichtlich bringen Sie Claude Code in eine schlechtere Lage, da es schlechtere Ergebnisse liefert, als wenn Claude Code die Möglichkeit erhält, seinen eigenen Code zu testen.
Wie man die Claude-Verifizierung in der Praxis zum Laufen bringt
Die Formulierung „Claude dazu bringen, seine eigene Arbeit zu überprüfen“ wird häufig verwendet, zum Beispiel auf LinkedIn und
Daher werde ich einige Beispiele aus der Praxis behandeln, wie ich Claude dazu gebracht habe, seine eigene Arbeit zu überprüfen. Ich werde den Prozess abdecken von:
- Von einem Drawback hören
- Verstehen, was das Drawback verursacht
- Implementierung einer Lösung mit Claude und Sicherstellung, dass die eigene Arbeit überprüft werden kann
Lange LLM-Bearbeitungszeiten
Mein erstes konkretes Beispiel ist ein Fall, in dem ich Benutzerdaten aus einer Interaktion mit einem Konversations-KI-Agenten analysiert habe. Nach dem Gespräch muss ich den Chat bearbeiten, z. B. das Transkript abrufen und eine Klassifizierung und Datenextraktion des Transkripts durchführen.
Ich begann, das Drawback zu untersuchen, indem ich es reproduzierte, die LLM-Verarbeitung für dieselbe Konversation mehrmals ausführte und sah, wie lange es dauerte. Es stellte sich heraus, dass die mittlere und durchschnittliche Zeit mit etwa 30 Sekunden relativ akzeptabel waren, aber etwa jedes zehnte Mal betrug die Bearbeitungszeit mehr als zwei Minuten, was natürlich völlig inakzeptabel ist. Ich habe Claude Code die Scenario erklärt und ihn gefragt, was die Ursache für dieses Drawback sein könnte.
Es stellte sich heraus, dass die wahrscheinlichste Ursache darin bestand, dass ich einfach viele Token eingegeben und viele Token ausgegeben habe, was in manchen Situationen viel Zeit in Anspruch nahm. Daher bestand die Lösung darin, diesen einen einzelnen LLM-Aufruf zu nehmen und ihn in drei aufzuteilen, um die Anzahl der Ausgabetokens zu verringern, die er erzeugen musste, damit er parallel ausgeführt werden kann.
Dies ist ein Beispiel für eine perfekte Aufgabe, bei der Claude Code seine eigene Arbeit überprüfen kann:
Eine perfekte Aufgabe zur Überprüfung Ihrer eigenen Arbeit ist eine Aufgabe, bei der Sie eine bekannte erwartete Ausgabe haben, die Sie produzieren möchten, und Sie können so lange an dem Drawback arbeiten und iterieren, bis Sie genau diese Ausgabe erreichen.
Das ist großartig, denn jetzt habe ich eine Reihe von Eingabe-Tokens, die ausgeführt werden, und eine erwartete Ausgabe, die ich erwarte, wenn ich alles in einem LLM-Aufruf erledige. Und ich kann Claude Code einfach bitten, einen LLM-Aufruf in drei Teile aufzuteilen und um sicherzustellen, dass Sie es richtig gemacht haben, vergleichen Sie das Ergebnis der aufgeteilten LLM-Aufrufe mit dem einzelnen monolithischen LLM-Aufruf. Sie sind quick genau gleich (nicht genau gleich, weil LLMs stochastisch sind).
Ich habe meine Claude Code-Instanz mit all diesen Informationen versorgt. Es iterierte so lange an seinem Code, bis es sicherstellte, dass die Ausgaben gleich waren, und löste das Drawback erfolgreich in einem einzigen Versuch, sodass ich eine erfolgreiche Lösung erhielt.
Entwerfen einer Webseite
Das letzte Beispiel, das ich bereitgestellt habe, struggle großartig, da es für LLM oder Claude Code sehr einfach ist, die Ergebnisse zu überprüfen. Es kann einfach einen API-Aufruf durchführen, die Ausgaben vergleichen und prüfen, ob sie korrekt sind.
Was passiert jedoch, wenn die Ausgabe, die Sie erstellen möchten, visuell ist?
Mein zweites Beispiel beinhaltet ein Drawback, bei dem ich einen Entwurf dafür erhielt, wie eine Webseite aussehen sollte, und ich wollte, dass Claude Code genau diesen Entwurf erstellt. Natürlich angesichts des Frameworks der Anwendung und der vorhandenen Codebasis, für die sie geschrieben wurde.
Das magazine nach einer schwierigeren Aufgabe klingen, da es darum geht, die Ergebnisse visuell zu betrachten. Glücklicherweise haben wir Claude in Chrome, ein MCP, mit dem Sie Claude Zugriff auf Ihr Google Chrome gewähren und es die Ergebnisse visuell überprüfen lassen können.
Daher erhielt ich einen Screenshot eines Designs, das zeigt, wie die Seite aussehen sollte, einschließlich der Gliederung der Seite in verschiedene Komponenten und des im Design verwendeten Farbschemas.
Diese Aufgabe ist ziemlich einfach. Ich habe Claude Code einfach Screenshots gegeben und ihn gebeten, das Design umzusetzen. Wenn Ihr Design recht einfach ist, funktioniert dies möglicherweise sofort. Einige komplexere Designs sind jedoch schwieriger auf einmal umzusetzen, insbesondere wenn Sie dies in einer vorhandenen großen Codebasis tun, die viele Abhängigkeiten und Designprotokolle aufweist.
Um Claude Code die beste Likelihood zu geben, das Drawback selbst zu lösen, habe ich ihm Zugriff auf Google Chrome gewährt. Wenn Sie dies selbst einrichten möchten, können Sie einfach Ihre Claude Code-Instanz fragen: Wie gebe ich Ihnen Zugriff auf Google Chrome?
Ich habe meinen Claude-Agenten angewiesen, zunächst zu versuchen, das Design zu implementieren, dann in Google Chrome zu gehen, die entsprechende Seite zu laden, nachdem die Server hochgefahren sind, natürlich einen Screenshot zu machen und die Designs zu vergleichen. Wenn Abweichungen festgestellt werden, sollte die Iteration fortgesetzt werden, bis die Designs nahezu gleich aussehen.
Darüber hinaus habe ich meinen Agenten gebeten, mich über Unstimmigkeiten zwischen den beiden Entwürfen zu informieren, wenn etwas nicht umgesetzt werden konnte oder unklar struggle, wie etwas umgesetzt werden sollte. Dies ist eine großartige Taktik, da Claude dadurch mit Fragen zu Ihnen kommt, anstatt dass Sie Claude in absolut alles bezüglich des Designs einweisen müssen. Insgesamt ist dies eine großartige Technik, um besser mit Ihren Codierungsagenten zusammenzuarbeiten.
Abschluss
In diesem Artikel habe ich beschrieben, wie Sie Claude Code dazu bringen, seine eigene Arbeit zu validieren, um die Leistung Ihrer Claude Code-Instanz oder Ihres Codierungsagenten im Allgemeinen erheblich zu verbessern. Ich habe besprochen, warum es so wichtig ist, hervorzuheben, dass die Leistung von Claude, wenn er seine eigene Arbeit überprüft, einfach zu einer viel besseren Leistung mit einer höheren Erfolgsquote bei einmaligen Implementierungen führt und dass der Agent über längere Zeiträume arbeiten kann und trotzdem Aufgaben erfolgreich erledigt. Ich habe zwei konkrete Situationen behandelt, in denen ich Claude Code Zugriff gewährt habe, um seine eigene Arbeit zu überprüfen, darunter die Aufteilung eines LLM-Aufrufs in drei separate Aufrufe zur Verbesserung der Latenz und die Verfolgung der für eine Webseite erstellten Designs und deren Implementierung in meine Anwendung. Beides sind spezifische Situationen, in die ich geraten bin und in denen ich Claude erfolgreich erlaubt habe, seine eigene Arbeit zu überprüfen und seine Leistung zu steigern.
👉 Mein kostenloses E-Ebook und Webinar:
🚀 Verzehnfachen Sie Ihr Engineering mit LLMs (kostenloser 3-tägiger E-Mail-Kurs)
📚 Holen Sie sich mein kostenloses E-Ebook „Imaginative and prescient Language Fashions“.
💻 Mein Webinar zu Imaginative and prescient Language Fashions
👉 Finden Sie mich in den sozialen Netzwerken:
