Zum oder so warfare es unmöglich zu leugnen, dass das Hype -Niveau gegenüber KI zugenommen hat, insbesondere mit dem Aufstieg der generativen KI und der Agenten -KI. Als Datenwissenschaftler, der in einem Beratungsunternehmen arbeitet, habe ich ein erhebliches Wachstum der Anzahl der Anfragen darüber festgestellt, wie wir diese neuen Technologien nutzen können, um Prozesse effizienter oder automatisierter zu gestalten. Und obwohl dieses Interesse den US -Datenwissenschaftlern schmeicheln könnte, scheint es manchmal so, als ob die Menschen Magie von KI -Modellen erwarten, als ob sie jedes Drawback mit nichts weiter als einer Aufforderung lösen könnten. Andererseits, obwohl ich persönlich glaube, dass generative und agentische KI die Artwork und Weise verändert haben (und sich weiterhin verändern werden), wie wir arbeiten und leben, müssen wir, wenn wir Änderungen der Geschäftsberichte durchführen, ihre Grenzen und Herausforderungen berücksichtigen und sehen, wo es sich als gutes Werkzeug erweist (da wir beispielsweise keine Gabel verwenden würden, um Lebensmittel zu kürzen).

Da ich ein Nerd bin und verstehe, wie LLMs funktionieren, wollte ich ihre Leistung in einem Logikspiel wie der spanischen Model von testen Wurm Gegen eine Logik, die ich vor einigen Stunden in ein paar Stunden gebaut hatte (weitere Particulars dazu finden Sie Hier). Insbesondere hatte ich die folgenden Fragen:

  • Wird mein Algorithmus besser sein als LLM -Modelle?
  • Wie wirken sich Argumentationsfunktionen in LLM -Modellen auf ihre Leistung aus?

Aufbau einer LLM-basierten Lösung

Um eine Lösung durch das LLM -Modell zu erhalten, habe ich drei Hauptaufforderungen erstellt. Der erste wurde darauf abzielt, eine erste Vermutung zu erhalten:

Nehmen wir an, ich spiele Wurm, aber auf Spanisch. Es ist ein Spiel, in dem Sie ein 5-Buchstaben-Wort und nur 5 Buchstaben in 6 Versuchen erraten müssen. Außerdem kann ein Temporary im letzten Wort wiederholt werden.

Lassen Sie uns zunächst die Spielregeln überprüfen: Jeden Tag wählt das Spiel ein Fünf-Buchstaben-Wort, das die Spieler versuchen, innerhalb von sechs Versuchen zu erraten. Nachdem der Spieler das Wort betrachtet hat, das er für einen Buchstaben ist, ist jeder Buchstabe in grün, gelb oder grau gekennzeichnet: Grün bedeutet, dass der Buchstabe korrekt und in der richtigen Place ist; Gelb bedeutet, dass sich der Buchstabe im verborgenen Wort befindet, aber nicht in der richtigen Place; Während Grau bedeutet, dass der Buchstabe nicht im versteckten Wort ist.

Wenn Sie jedoch einen Buchstaben zweimal platzieren und einer grün und der andere Gelb auftaucht, erscheint der Buchstabe zweimal: Einmal in der grünen Place und einmal in einer anderen Place, die nicht der gelbe ist.

Beispiel: Wenn das versteckte Wort ist „PIZZA“und Ihr erster Versuch ist „Panel“Die Antwort würde so aussehen: die „P“ wäre grün, die „A“ Gelb und die „N“Anwesend „E“Und „L“ grau.

Da wir vorerst nichts über das Zielwort wissen, geben Sie mir ein gutes Startwort – eines, von dem Sie glauben, dass er nützliche Informationen liefert, um uns zu helfen, das endgültige Wort herauszufinden.

Anschließend würde eine zweite Eingabeaufforderung verwendet, um alle Wortregeln anzuzeigen (die Eingabeaufforderung hier wird aufgrund des Platzes nicht vollständig angezeigt, aber die vollständige Model hatte auch Beispielspiele und Beispielstellen):

Nun ist die Idee, dass wir die Spielstrategie überprüfen. Ich werde Ihnen die Spielergebnisse geben. Die Idee ist, dass Sie angesichts dieses Ergebnisses ein neues 5-Buchstaben-Wort vorschlagen. Denken Sie auch daran, dass es nur 6 Versuche gibt. Ich gebe Ihnen das Ergebnis im folgenden Format:
Temporary -> Farbe

Zum Beispiel, wenn das versteckte Wort ist PIZZAund der Versuch ist PanelIch werde das Ergebnis in diesem Format geben:
P -> grün (es ist der erste Buchstabe des letzten Wortes)
A -> Gelb (es ist im Wort, aber nicht in der zweiten Place -stand es in der letzten).
N -> grau (es ist nicht im Wort)
E -> grau (es ist nicht im Wort)
L -> grau (es ist nicht im Wort)

Erinnern wir uns an die Regeln. Wenn ein Buchstaben grün ist, bedeutet dies in der Place, in der er platziert wurde. Wenn es gelb ist, bedeutet dies, dass der Buchstabe im Wort ist, aber nicht in dieser Place. Wenn es grau ist, bedeutet es, dass es nicht im Wort ist.

Wenn Sie einen Buchstaben zweimal platzieren und einer grün und das andere grau zeigt, bedeutet dies, dass der Buchstabe nur einmal im Wort angezeigt wird. Wenn Sie jedoch einen Buchstaben zweimal platzieren und einer grüne und das andere Gelb zeigt, bedeutet dies, dass der Buchstabe zweimal erscheint: einmal in der grünen Place und ein anderes Mal in einer anderen Place (nicht in der gelben).

Alle Informationen, die ich Ihnen geben, müssen verwendet werden, um Ihren Vorschlag aufzubauen. Am Ende des Tages wollen wir alle grünen Buchstaben „drehen“, da das bedeutet, dass wir das Wort erraten haben.

Ihre endgültige Antwort darf nur den Wortvorschlag enthalten – nicht Ihre Argumentation.

Die letzte Eingabeaufforderung wurde verwendet, um einen neuen Vorschlag zu erhalten, nachdem wir das Ergebnis unseres Versuchs hatten:

Hier ist das Ergebnis. Denken Sie daran, dass das Wort 5 Buchstaben haben muss, dass Sie die Regeln und die gesamte Kenntnis des Spiels verwenden müssen und dass das Ziel darin besteht, alle grünen Buchstaben zu „drehen“, ohne mehr als 6 Versuche, das Wort zu erraten. Nehmen Sie sich Zeit, um Ihre Antwort zu überlegen – ich brauche keine schnelle Antwort. Geben Sie mir nicht Ihre Argumentation, nur Ihr Endergebnis.

Etwas Wichtiges hier ist, dass ich nie versucht habe, die LLMs zu leiten oder auf Fehler oder Fehler in der Logik hingewiesen zu haben. Ich wollte ein reines LLM-basiertes Ergebnis und wollte die Lösung in keiner Type verzerren.

Erste Experimente

Die Wahrheit ist, dass meine anfängliche Hypothese warfare, dass mein Algorithmus, obwohl ich erwartete, dass mein Algorithmus besser ist als die LLMs, aber ich dachte, die generative KI-basierte Lösung würde ohne viel Hilfe einen ziemlich guten Job machen, aber nach einigen Tagen bemerkte ich einige „lustige“ Verhaltensweisen, wie die folgende (wo die Antwort offensichtlich warfare):

Beispiel Game Solution (Kredit: Bild des Autors)
Beispiel Recreation Resolution (Kredit: Bild des Autors)

Die Antwort warfare ziemlich offensichtlich: Sie musste nur zwei Buchstaben wechseln. Chatgpt antwortete jedoch mit der gleichen Vermutung wie zuvor.

Nachdem ich solche Fehler gesehen hatte, begann ich am Ende der Spiele danach zu fragen, und die LLMs erkannten im Grunde ihre Fehler an, zeigten jedoch keine klare Erklärung zu ihrer Antwort:

Endergebnis Erläuterung (Kredit: Bild des Autors)
Endergebnis Erläuterung (Kredit: Bild des Autors)

Während dies nur zwei Beispiele sind, warfare diese Artwork von Verhalten bei der Erzeugung der reinen LLM -Lösung üblich, wodurch einige mögliche Einschränkungen im Begründen von Basismodellen gezeigt wurden.

Ergebnisanalyse

Bei all diesen Informationen habe ich 30 Tage lang ein Experiment durchgeführt. 15 Tage lang habe ich meinen Algorithmus mit 3 Foundation -LLM -Modellen verglichen:

  • Das 4O/5-Modell von Chatgpt (Nachdem OpenAI GPT-5-Modell veröffentlicht hatte, konnte ich nicht zwischen den Modellen auf der freien Stufe von Chatgpt umschalten)
  • Geminis 2,5-Flash-Modell
  • Metas Lama 4 Mannequin

Hier habe ich zwei Hauptmetriken verglichen: den Prozentsatz der Siege und ein Level -System -Metriken (jeder grüne Buchstaben in der endgültigen Vermutung erhielten 3 Punkte, gelbe Buchstaben mit 1 Punkt und graue Buchstaben mit 0 Punkten):

Erste Ergebnisse zwischen meinem Algorithmus und LLMS -Basismodellen (Kredit: Bild des Autors)
Erste Ergebnisse zwischen meinem Algorithmus und LLMS -Basismodellen (Kredit: Bild des Autors)

Wie zu sehen ist, ist mein Algorithmus (zwar spezifisch für diesen Anwendungsfall, nur einen Tag zum Bau) der einzige Ansatz, der jeden Tag gewinnt. Durch die Analyse der LLM -Modelle bietet Gemini die schlechtere Leistung, während Chatgpt und das Lama von Chatgpt und Meta ähnliche Zahlen bieten. Wie in der Abbildung rechts zu sehen ist, gibt es jedoch eine große Variabilität der Leistung jedes Modells, und Konsistenz wird durch diese Alternativen für diesen bestimmten Anwendungsfall nicht gezeigt.

Diese Ergebnisse wären jedoch nicht vollständig, wenn wir kein LLM -Modell von Argumentations -LLM gegen meinen Algorithmus (und gegen ein Foundation -LLM -Modell) analysieren würden. Für die folgenden 15 Tage verglichen ich auch die folgenden Modelle:

  • Das 4O/5 -Modell von ChatGPT unter Verwendung von Argumentationsfunktionen
  • Geminis 2,5-Flash-Modell (gleiches Modell wie zuvor)
  • Das Lama 4 -Modell von Meta (gleiches Modell wie zuvor)

Einige wichtige Kommentare hier: Zunächst plante ich auch Grok, aber nachdem GROK 4 veröffentlicht worden warfare, verschwand der Argumentationsschalter für GROK 3, was Vergleiche schwierig machte. Andererseits habe ich versucht, Geminis 2,5-PRO zu verwenden, aber im Gegensatz zur Argumentationsoption von ChatGPT ist die Verwendung dieser Verwendung kein Umschalter, sondern ein anderes Modell, das es mir nur ermöglichte, 5 Eingabeaufforderungen professional Tag zu senden, was es uns nicht ermöglichte, ein vollständiges Spiel zu vervollständigen. In diesem Sinne zeigen wir die Ergebnisse für die folgenden 15 Tage:

Zusätzliche Ergebnisse zwischen meinen Algorithmus- und LLMS -Modellen (Kredit: Bild des Autors)
Zusätzliche Ergebnisse zwischen meinen Algorithmus- und LLMS -Modellen (Kredit: Bild des Autors)

Die Argumentationsfähigkeit hinter LLMs bietet eine enorme Leistung in dieser Aufgabe, die das Verständnis erfordert, welcher Temporary in jeder Place verwendet werden kann, welche bewertet wurden, um alle Ergebnisse zu erinnern und alle Kombinationen zu verstehen. Die durchschnittlichen Ergebnisse sind nicht nur besser, sondern auch die Leistung ist konsistenter, wie in den beiden Spielen, die nicht gewonnen wurden, wurde nur ein Temporary übersehen. Trotz dieser Verbesserung ist der spezifische Algorithmus, den ich erstellt habe, in Bezug auf die Leistung immer noch etwas besser, aber wie ich bereits erwähnt habe, wurde dies für diese spezifische Aufgabe durchgeführt. Etwas Interessantes ist, dass für diese 15 Spiele die Foundation -LLM -Modelle (Gemini 2.5 Flash und Lama 4) nicht einmal gewonnen haben und die Leistung schlechter warfare als der andere Set, was mich frage, ob die gewonnenen Siege, die zuvor erzielt wurden, Glück hatten oder nicht.

Letzte Bemerkungen

Die Absicht dieser Übung warfare es, die Leistung von LLMs gegen einen spezifisch erstellten Algorithmus für eine Aufgabe zu testen, bei der logische Regeln angewendet werden müssen, um ein erfolgreiches Ergebnis zu erzielen. Wir haben gesehen, dass Basismodelle keine gute Leistung haben, aber dass die Argumentationsfunktionen von LLM -Lösungen einen wichtigen Schub bieten und eine ähnliche Leistung wie die Ergebnisse des maßgeschneiderten Algorithmus generieren, den ich gebaut hatte. Eine wichtige Sache zu berücksichtigen ist, dass diese Verbesserung zwar actual ist und reale Anwendungen und Produktionssysteme auch die Reaktionszeit berücksichtigen müssen (Argumentation LLM-Modelle dauern mehr Zeit, um eine Antwort zu generieren als Basismodelle oder, in diesem Fall, die Logik, die ich gebaut habe) und Kosten (nach dem Ausdruck Azure OpenAI -Preisseiteab 30th Im August 2025 beträgt der Preis für 1-Meter-Eingangs-Token für das Allzweck-Allzweck-Allzweck-Allzweckmodell bei 0,15 USD, während für das O4-Mini-Argumentationsmodell die Kosten für 1-Meter-Eingangs-Token 1,10 USD betragen. Ich bin zwar fest davon überzeugt, dass LLMs und generative KI die Artwork und Weise, wie wir arbeiten, weiterentwickeln, aber wir können sie nicht als Schweizer Messer behandeln, das alles löst, ohne die Einschränkungen zu berücksichtigen und ohne die einfach zu bau maßgeschneiderten Lösungen zu bewerten.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert