LLMs werden quick wöchentlich veröffentlicht. Einige jüngste Veröffentlichungen, die wir hatten, sind QWEN3 Coing -ModelleAnwesend GPT 5Anwesend Grok 4all die beanspruchen die Spitze einiger Benchmarks. Gemeinsame Benchmarks sind Geisteswissenschaften, Swe-Bench, IMO und so weiter.

Diese Benchmarks haben jedoch einen inhärenten Fehler: Die Unternehmen, die neue Entrance-Finish-Modelle veröffentlichen, werden stark angeregt, um ihre Modelle für eine solche Leistung auf diesen Benchmarks zu optimieren. Der Grund dafür ist, dass diese bekannten Benchmarks im Wesentlichen den Normal für einen neuen Durchbruch-LLM festlegen.

Zum Glück gibt es eine einfache Lösung für dieses Downside: Entwickeln Sie Ihre eigenen internen Benchmarks und testen Sie jeden LLM auf dem Benchmark, was ich in diesem Artikel diskutieren werde.

Entwickeln Sie leistungsstarke interne LLM -Benchmarks
Ich diskutiere, wie Sie leistungsstarke interne LLM -Benchmarks entwickeln können, um LLMs für Ihre eigenen Anwendungsfälle zu vergleichen. Bild von Chatgpt.

Inhaltsverzeichnis

Sie können auch etwas lernen Wie man llms reduziert – arc agi 3oder Sie können darüber lesen Gewährleistung der Zuverlässigkeit in LLM -Anwendungen.

Motivation

Meine Motivation für diesen Artikel ist, dass neue LLMs schnell veröffentlicht werden. Es ist schwierig, über alle Fortschritte im LLM -Bereich auf dem Laufenden zu bleiben, und Sie müssen daher Benchmarks und On-line -Meinungen vertrauen, um herauszufinden, welche Modelle am besten sind. Dies ist jedoch ein stark fehlerhafter Ansatz bei der Beurteilung, welche LLMs Sie entweder täglich oder in einer von Ihnen entwickelten Anwendung verwenden sollten.

Benchmarks haben den Fehler, dass Frontier -Modellentwickler Anreize zur Optimierung ihrer Modelle für Benchmarks sind und die Benchmark -Leistung möglicherweise fehlerhaft machen. On-line -Meinungen haben auch ihre Probleme, da andere andere Anwendungsfälle für LLMs haben als Sie. Daher sollten Sie einen internen Benchmark entwickeln, um neu veröffentlichte LLMs ordnungsgemäß zu testen und herauszufinden, welche für Ihren spezifischen Anwendungsfall am besten geeignet sind.

So entwickeln Sie einen internen Benchmark

Es gibt viele Ansätze zur Entwicklung Ihres eigenen internen Benchmarks. Der Hauptpunkt hier ist, dass Ihr Benchmark keine tremendous gemeinsame Aufgabe ist, die LLMs durchführen (beispielsweise Zusammenfassungen erzeugen, funktioniert nicht). Darüber hinaus sollte Ihr Benchmark vorzugsweise einige interne Daten verwenden, die on-line nicht verfügbar sind.

Sie sollten zwei wichtige Dinge berücksichtigen, wenn Sie einen internen Benchmark entwickeln

  • Es sollte eine Aufgabe sein, die entweder ungewöhnlich ist (so dass die LLMs nicht speziell darauf trainiert werden) oder Daten verwenden sollten, die nicht on-line verfügbar sind
  • Es sollte so automatisch wie möglich sein. Sie haben keine Zeit, jede neue Model manuell zu testen
  • Sie erhalten eine numerische Punktzahl aus dem Benchmark, damit Sie verschiedene Modelle gegeneinander bewerten können

Arten von Aufgaben

Interne Benchmarks könnten sich sehr voneinander unterscheiden. Bei einigen Anwendungsfällen finden Sie hier einige Beispiel -Benchmarks, die Sie entwickeln können

Anwendungsfall: Entwicklung in einer selten verwendeten Programmiersprache.

Benchmark: Lassen Sie die LLM Zero-Shot eine bestimmte Anwendung wie Solitaire (dies ist inspiriert, wie Firehip Benchmarks LLMs durch Entwicklung a Sufle Anwendung)

Anwendungsfall: Interne Frage Beantwortung Chatbot

Benchmark: Sammeln Sie eine Reihe von Eingabeaufforderungen aus Ihrer Anwendung (vorzugsweise tatsächliche Benutzeranpassungen) zusammen mit ihrer gewünschten Antwort und sehen Sie, welches LLM den gewünschten Antworten am nächsten ist.

Anwendungsfall: Einstufung

Benchmark: Erstellen Sie einen Datensatz mit Eingabemittel -Beispielen. Für diesen Benchmark kann der Eingang ein Textual content und die Ausgabe einer bestimmten Etikett wie ein Datensatz für Stimmungsanalyse sein. Die Bewertung ist in diesem Fall einfach, da Sie die LLM -Ausgabe benötigen, um genau mit dem Label des Grundwahrheitsfaktors übereinzustimmen.

Automatische Aufgaben gewährleisten

Nachdem Sie herausgefunden haben, für welche Aufgabe Sie interne Benchmarks erstellen möchten, ist es Zeit, die Aufgabe zu entwickeln. Bei der Entwicklung ist es wichtig, dass die Aufgabe so automatisch wie möglich ausgeführt wird. Wenn Sie für jede neue Modellveröffentlichung eine Menge manueller Arbeit ausführen müssten, wäre es unmöglich, diesen internen Benchmark beizubehalten.

Ich empfehle daher, eine Standardschnittstelle für Ihren Benchmark zu erstellen. Das einzige, was Sie professional neues Modell ändern müssen, besteht darin, eine Funktion hinzuzufügen, die die Eingabeaufforderung übernimmt und die RAW -Modell -Textantwort ausgibt. Dann kann der Relaxation Ihrer Anwendung statisch bleiben, wenn neue Modelle veröffentlicht werden.

Um die Bewertungen so automatisch wie möglich zu halten, empfehle ich, automatisierte Bewertungen auszuführen. Ich habe kürzlich einen Artikel darüber geschrieben So führen Sie eine umfassende LLM -Validierung in großem Maßstab durchwo Sie mehr über automatisierte Validierung und Bewertung erfahren können. Die wichtigsten Highlights sind, dass Sie entweder eine Regex -Funktion ausführen können, um die Richtigkeit zu überprüfen oder zu verwenden LLM als Richter.

Testen an Ihrem internen Benchmark

Nachdem Sie Ihren internen Benchmark entwickelt haben, ist es Zeit, einige LLMs darauf zu testen. Ich empfehle zumindest alle Developer Closed-Supply-Frontier-Modellentwickler, wie z.

Ich empfehle jedoch auch dringend, Open-Supply-Veröffentlichungen zu testen

Im Allgemeinen empfehle ich, wenn ein neues Modell für Furore (beispielsweise wenn Deepseek R1 veröffentlicht wurde), auf Ihrem Benchmark auszuführen. Und weil Sie sichergestellt haben, dass Ihr Benchmark so automatisiert wie möglich ist, sind die Kosten niedrig, um neue Modelle zu testen.

Wenn ich weitergibt, empfehle ich auch, auf neue Modellversionsversionen zu achten. Zum Beispiel veröffentlichte Qwen zunächst ihre QWEN 3 Modell. Eine Weile später aktualisierten sie dieses Modell mit QWEN-3-2507was eine Verbesserung gegenüber dem Foundation -Qwen 3 -Modell sein soll. Sie sollten sicherstellen, dass Sie auch über solche (kleineren) Modellveröffentlichungen auf dem Laufenden bleiben.

Mein letzter Punkt beim Ausführen des Benchmarks ist, dass Sie den Benchmark regelmäßig ausführen sollten. Der Grund dafür ist, dass sich Modelle im Laufe der Zeit ändern können. Wenn Sie beispielsweise OpenAI verwenden und die Modellversion nicht sperren, können Sie Änderungen in den Ausgängen erleben. Es ist daher wichtig, regelmäßig Benchmarks zu betreiben, selbst bei Modellen, die Sie bereits getestet haben. Dies gilt insbesondere dann, wenn ein solches Modell in der Produktion ausgeführt wird, bei dem die Aufrechterhaltung hochwertiger Ausgaben von entscheidender Bedeutung ist.

Vermeiden Sie Kontamination

Bei Verwendung eines internen Benchmarks ist es unglaublich wichtig, Kontaminationen zu vermeiden, indem einige Daten on-line angezeigt werden. Der Grund dafür ist, dass die heutigen Grenzmodelle im Wesentlichen das gesamte Web für Webdaten abgeschafft haben, und daher haben die Modelle Zugriff auf alle diese Daten. Wenn Ihre Daten on-line verfügbar sind (insbesondere wenn die Lösungen in Ihren Benchmarks verfügbar sind), haben Sie ein Kontaminationsproblem zur Hand, und das Modell hat wahrscheinlich Zugriff auf die Daten von der Vorausbildung.

Verwenden Sie so wenig Zeit wie möglich

Stellen Sie sich diese Aufgabe als auf dem Laufenden über Modellveröffentlichungen vor. Ja, es ist ein tremendous wichtiger Teil Ihres Jobs. Dies ist jedoch ein Teil, für den Sie wenig Zeit verbringen können und dennoch viel Wert erhalten. Ich empfehle daher, die Zeit zu minimieren, die Sie für diese Benchmarks verbringen. Immer wenn ein neues Frontier -Modell veröffentlicht wird, testen Sie das Modell mit Ihrem Benchmark und überprüfen die Ergebnisse. Wenn das neue Modell erheblich verbesserte Ergebnisse erzielt, sollten Sie in Betracht ziehen, Modelle in Ihrer Anwendung oder Ihrem täglichen Leben zu ändern. Wenn Sie jedoch nur eine kleine inkrementelle Verbesserung sehen, sollten Sie wahrscheinlich auf weitere Modellveröffentlichungen warten. Beachten Sie, dass das Modell, wenn Sie ändern sollten, von Faktoren abhängt wie:

  • Wie viel Zeit dauert es, um Modelle zu ändern
  • Der Kostenunterschied zwischen dem alten und dem neuen Modell
  • Latenz

Abschluss

In diesem Artikel habe ich diskutiert, wie Sie einen internen Benchmark entwickeln können, um alle LLM -Veröffentlichungen zu testen, die kürzlich stattfinden. Es ist schwierig, über die besten LLMs auf dem Laufenden zu bleiben, insbesondere wenn es darum geht, zu testen, welche LLM am besten für Ihren Anwendungsfall funktioniert. Durch die Entwicklung interner Benchmarks wird dieser Testprozess viel schneller. Deshalb empfehle ich es sehr, auf LLMs auf dem Laufenden zu bleiben.

👉 Finden Sie mich in Socials:

🧑‍💻 Sich in Verbindung setzen

🔗 LinkedIn

🐦 X / Twitter

✍️ Medium

Oder lesen Sie meine anderen Artikel:

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert