Besprechen Sie, wie Sie automatische Bewertungen mit LLM als Richter durchführen können. LLMs werden heute für eine Vielzahl von Anwendungen häufig verwendet. Ein häufig unterschätzter Aspekt von LLMs ist jedoch der Anwendungsfall für die Bewertung. Mit LLM als Richter verwenden Sie LLMs, um die Qualität einer Ausgabe zu beurteilen, unabhängig davon, ob es eine Punktzahl zwischen 1 und 10 gibt, zwei Ausgänge verglichen oder ein Go/Fail -Suggestions bereitstellt. Ziel des Artikels ist es, Einblicke zu geben, wie Sie LLM als Richter für Ihren eigenen Antrag nutzen können, um die Entwicklung effektiver zu gestalten.

Diese Infografik unterstreicht den Inhalt meines Artikels. Bild von Chatgpt.

Sie können auch lesen Mein Artikel über Benchmarking LLMs mit Arc Agi 3 und schau dir an Meine Web site, die alle meine Informationen und Artikel enthält.

Inhaltsverzeichnis

Motivation

Meine Motivation zum Schreiben dieses Artikels ist, dass ich täglich an verschiedenen LLM -Anwendungen arbeite. Ich habe immer mehr über die Verwendung von LLM als Richter gelesen und habe angefangen, das Thema zu lesen. Ich glaube, die Verwendung von LLMs für automatisierte Bewertungen von Systemen für maschinelle Lernsysteme ist ein tremendous leistungsfähiger Aspekt von LLMs, der oft unterschätzt wird.

Wenn Sie LLM als Richter verwenden, können Sie enorme Zeitspanne sparen, wenn man bedenkt, dass es entweder einen Teil des oder den gesamten Bewertungsprozess automatisieren kann. Bewertungen sind für maschinelle Lernsysteme von entscheidender Bedeutung, um sicherzustellen, dass sie wie beabsichtigt durchführen. Die Bewertungen sind jedoch auch zeitaufwändig, und Sie möchten sie daher so weit wie möglich automatisieren.

Ein leistungsstarker Beispielgebrauchsfall für LLM als Richter befindet sich in einem Fragen-Reply-System. Sie können eine Reihe von Enter-Output-Beispielen für zwei verschiedene Versionen einer Eingabeaufforderung sammeln. Anschließend können Sie den LLM -Richter bitten, zu antworten, ob die Ausgaben gleich sind (oder die letztere Ausgabe der Eingabeaufforderung besser), und somit sicherstellen, dass Änderungen in Ihrer Anwendung keinen negativen Einfluss auf die Leistung haben. Dies kann beispielsweise vor der Einführung neuer Eingabeaufforderungen verwendet werden.

Definition

Ich definiere LLM als Richter, wie jeder Fall, in dem Sie eine LLM auffordern, die Ausgabe eines Methods zu bewerten. Das System basiert in erster Linie maschinell lernend, obwohl dies keine Anforderung ist. Sie geben dem LLM lediglich eine Reihe von Anweisungen zur Bewertung des Methods an, geben Informationen an, z. B. was für die Bewertung wichtig ist und welche Bewertungsmetrik verwendet werden sollte. Die Ausgabe kann dann bearbeitet werden, um die Bereitstellung fortzusetzen oder die Bereitstellung zu stoppen, da die Qualität als niedriger angesehen wird. Dadurch wird der zeitaufwändige und inkonsistente Schritt der manuellen Überprüfung von LLM-Ausgängen beseitigt, bevor Sie Änderungen an Ihrer Anwendung vornehmen.

LLM als Richterbewertungsmethoden

LLM als Richter kann für eine Vielzahl von Anwendungen verwendet werden, wie z. B.:

  • Fragen Antwortsysteme
  • Klassifizierungssysteme
  • Informationsextraktionssysteme

Unterschiedliche Anwendungen erfordern unterschiedliche Bewertungsmethoden, daher werde ich unten drei verschiedene Methoden beschreiben

Vergleichen Sie zwei Ausgänge

Der Vergleich von zwei Ausgängen ist eine große Verwendung von LLM als Richter. Mit dieser Bewertungsmetrik vergleichen Sie die Ausgabe von zwei verschiedenen Modellen.

Der Unterschied zwischen den Modellen kann beispielsweise sein:

  • Verschiedene Eingabeaufforderungen
  • Verschiedene LLMs (dh OpenAI GPT4O gegen Claude Sonnet 4.0)
  • Verschiedene Einbettungsmodelle für Lappen

Anschließend geben Sie dem LLM -Richter vier Elemente an:

  • Die Eingabeaufforderung (en)
  • Ausgabe aus Modell 1
  • Ausgabe aus Modell 2
  • Anweisungen zur Durchführung der Bewertung

Sie können dann den LLM -Richter bitten, einen der drei folgenden Ausgaben bereitzustellen:

  • Gleich (die Essenz der Ausgänge ist gleich)
  • Ausgabe 1 (das erste Modell ist besser)
  • Ausgabe 2 (das zweite Modell ist besser).

Sie können dies beispielsweise in dem zuvor beschriebenen Szenario verwenden, wenn Sie die Eingabeaufforderung aktualisieren möchten. Sie können dann sicherstellen, dass die aktualisierte Eingabeaufforderung gleich oder besser als die vorherige Eingabeaufforderung ist. Wenn der LLM -Richter Sie darüber informiert, dass alle Testproben entweder gleich oder die neue Eingabeaufforderung besser sind, können Sie die Updates wahrscheinlich automatisch bereitstellen.

Punktzahlausgänge

Eine weitere Bewertungsmetrik, die Sie als Richter für LLM verwenden können, besteht darin, der Ausgabe eine Punktzahl zu liefern, beispielsweise zwischen 1 und 10. In diesem Szenario müssen Sie dem LLM -Richter Folgendes zur Verfügung stellen:

  • Anweisungen zur Durchführung der Bewertung
  • Die Eingabeaufforderung
  • Die Ausgabe

Bei dieser Bewertungsmethode ist es wichtig, dem LLM -Richter klare Anweisungen zu geben, wenn man bedenkt, dass die Bereitstellung einer Punktzahl eine subjektive Aufgabe ist. Ich empfehle dringend, Beispiele für Ausgänge bereitzustellen, die einer Punktzahl von 1, einer Punktzahl von 5 und einer Punktzahl von 10 ähneln. Dies bietet dem Modell unterschiedliche Anker, die es verwenden kann, um eine genauere Punktzahl zu erzielen. Sie können auch versuchen, weniger mögliche Bewertungen zu verwenden, z. B. nur Punkte von 1, 2 und 3.. Weniger Optionen erhöhen die Modellgenauigkeit auf Kosten, um kleinere Unterschiede aufgrund weniger Granularität schwerer zu unterscheiden.

Die Bewertungsmetrik ist nützlich, um größere Experimente durchzuführen, verschiedene Eingabeaufforderungen, Modelle usw. zu vergleichen. Sie können dann die durchschnittliche Punktzahl über einen größeren Check verwenden, um genau zu beurteilen, welcher Ansatz am besten funktioniert.

Go/Fail

Go oder Fail ist eine weitere gemeinsame Bewertungsmetrik für LLM als Richter. In diesem Szenario bitten Sie den LLM -Richter, die Ausgabe entweder zu genehmigen oder zu missbilligen, angesichts einer Beschreibung dessen, was einen Go ausmacht und was einen Fehler ausmacht. Ähnlich wie bei der Bewertung ist diese Beschreibung für die Leistung des LLM -Richters von entscheidender Bedeutung. Ich empfehle erneut, Beispiele zu verwenden, wobei im Wesentlichen nur wenige Schüsse verwendet werden, um den LLM-Richter genauer zu gestalten. Sie können mehr über ein paar Schüsse lesen in Lernen in Mein Artikel über Context Engineering.

Die Go -Metrik für die PASS -Fail -Evaluierung ist nützlich, damit RAG -Systeme beurteilt werden können, ob ein Modell eine Frage korrekt beantwortet. Sie können beispielsweise die abgerufenen Stücke und die Ausgabe des Modells bereitstellen, um festzustellen, ob das Lappensystem korrekt antwortet.

Wichtige Anmerkungen

Vergleichen Sie mit einem menschlichen Bewerter

Ich habe auch ein paar wichtige Notizen bezüglich LLM als Richter, weil ich selbst daran arbeite. Das Lernen Nummer eins ist, dass LLM als Richtersystem, während es Ihnen viel Zeit sparen kann, auch unzuverlässig sein kann. Bei der Implementierung des LLM -Richters müssen Sie das System somit manuell testen und sicherstellen, dass das LLM als Richtersystem ähnlich wie ein menschlicher Bewerter reagiert. Dies sollte vorzugsweise als Blindtest durchgeführt werden. Zum Beispiel können Sie eine Reihe von Go-/Fail -Beispielen einrichten und sehen, wie oft das LLM -Richtersystem mit dem menschlichen Bewerter übereinstimmt.

Kosten

Ein weiterer wichtiger Hinweis, den Sie beachten sollten, sind die Kosten. Die Kosten für LLM -Anfragen sind nach unten tendiert. Bei der Entwicklung eines LLM als Richtersystem führen Sie jedoch auch viele Anfragen aus. Ich würde dies daher berücksichtigen und Schätzungen der Kosten des Methods durchführen. Wenn beispielsweise jeder LLM als Richter 10 USD kostet und Sie im Durchschnitt fünf solcher Läufe professional Tag durchführen, kostet Sie 50 USD professional Tag. Möglicherweise müssen Sie bewerten, ob dies ein akzeptabler Preis für eine effektivere Entwicklung ist oder ob Sie die Kosten des LLM als Richtersystem senken sollten. Sie können beispielsweise die Kosten senken, indem Sie billigere Modelle (GPT-4O-Mini anstelle von GPT-4O) verwenden oder die Anzahl der Testbeispiele verringern.

Abschluss

In diesem Artikel habe ich diskutiert, wie LLM als Richter funktioniert und wie Sie es nutzen können, um die Entwicklung effektiver zu gestalten. LLM als Richter ist ein oft übersehener Aspekt von LLMs, der unglaublich leistungsfähig sein kann, beispielsweise Vorabläufe, um sicherzustellen, dass Ihr Fragenbeantwortungssystem weiterhin zu historischen Fragen funktioniert.

Ich habe verschiedene Bewertungsmethoden diskutiert, wie und wann Sie sie verwenden sollten. LLM als Richter ist ein flexibles System, und Sie müssen es an das Szenario anpassen, das Sie implementieren. Zuletzt habe ich auch einige wichtige Anmerkungen diskutiert, beispielsweise den LLM -Richter mit einem menschlichen Bewerter verglichen.

👉 Finden Sie mich in Socials:

🧑‍💻 Sich in Verbindung setzen

🔗 LinkedIn

🐦 X / Twitter

✍️ Medium

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert