und Bewertungen sind entscheidend, um robuste, leistungsstarke LLM-Anwendungen sicherzustellen. Solche Themen werden jedoch im größeren Schema von LLMs oft übersehen.
Stellen Sie sich dieses Szenario vor: Sie haben eine LLM -Abfrage, die 999/1000 Mal korrekt antwortet, wenn sie aufgefordert werden. Sie müssen jedoch 1,5 Millionen Elemente ausführen, um die Datenbank zu füllen. In diesem (sehr realistischen) Szenario werden Sie erleben 1500 Fehler für diese LLM -Eingabeaufforderung allein. Skalieren Sie nun diese bis zu 10 Sekunden, wenn nicht 100er von verschiedenen Eingabeaufforderungen, und Sie haben ein echtes Skalierbarkeitsproblem zur Hand.
Die Lösung soll Ihre LLM -Ausgabe validieren und eine hohe Leistung unter Verwendung von Bewertungen sicherstellen.

Inhaltsverzeichnis
Was ist LLM -Validierung und -bewertung?
Ich denke, es ist wichtig, zunächst zu definieren, was LLM -Validierung und -bewertung sind und warum sie für Ihre Anwendung wichtig sind.
Bei der LLM -Validierung geht es darum, die Qualität Ihrer Ausgaben zu validieren. Ein häufiges Beispiel dafür ist, dass ein Stück Code ausgeführt wird, das überprüft, ob die LLM -Antwort die Frage des Benutzers beantwortet. Die Validierung ist wichtig, da Sie sicherstellen, dass Sie hochwertige Antworten liefern und Ihr LLM wie erwartet funktioniert. Die Validierung kann als etwas angesehen werden, das Sie in Echtzeit auf individuelle Antworten tun. Bevor Sie die Antwort an den Benutzer zurückgeben, überprüfen Sie beispielsweise, dass die Antwort tatsächlich von hoher Qualität ist.
Die LLM -Bewertung ist ähnlich; Es tritt jedoch normalerweise nicht in Echtzeit auf. Die Bewertung Ihrer LLM -Ausgabe kann beispielsweise alle Benutzerabfragen aus den letzten 30 Tagen betrachten und quantitativ bewerten, wie intestine Ihre LLM ausgeführt wurde.
Die Validierung und Bewertung der Leistung Ihres LLM ist wichtig, da Sie Probleme mit der LLM -Ausgabe haben. Es könnte zum Beispiel sein
- Probleme mit Eingabedaten (fehlende Daten)
- Eine Kantenhülle, die Ihre Eingabeaufforderung nicht für die Handlung ausgerüstet ist
- Daten sind nicht verteilt
- Usw.
Daher benötigen Sie eine robuste Lösung für die Behandlung von LLM -Ausgangsproblemen. Sie müssen sicherstellen, dass Sie sie so oft wie möglich vermeiden und in den verbleibenden Fällen umgehen.
Murphys Gesetz wurde an dieses Szenario angepasst:
In großem Maßstab wird alles, was schief gehen kann, schief gehen
Qualitative vs. quantitative Bewertungen
Bevor ich zu den einzelnen Abschnitten zur Durchführung von Validierungen und Bewertungen übergeht, möchte ich auch qualitative und quantitative Bewertungen von LLMs kommentieren. Bei der Arbeit mit LLMs ist es oft verlockend, die Leistung des LLM für verschiedene Eingabeaufforderungen manuell zu bewerten. Solche manuellen (qualitativen) Bewertungen unterliegen jedoch stark voreingenommenen Vorurteilen. Zum Beispiel könnten Sie sich den größten Teil Ihrer Aufmerksamkeit auf die Fälle konzentrieren, in denen die LLM erfolgreich battle, und somit die Leistung Ihres LLM überschätzen. Die potenziellen Verzerrungen bei der Arbeit mit LLMs sind wichtig, um das Risiko von Verzerrungen zu mildern, die Ihre Fähigkeit zur Verbesserung des Modells beeinflussen.
Große LLM-Ausgangsvalidierung
Nachdem ich Millionen von LLM-Anrufen ausgeführt hatte, habe ich viele verschiedene Ausgänge gesehen, wie z.
Diese Fehler sind mit manueller Inspektion unglaublich schwer zu erkennen, da sie normalerweise in weniger als 1 von 1000 API -Aufrufen des LLM auftreten. Sie benötigen jedoch einen Mechanismus, um diese Probleme zu fangen, wenn sie in Echtzeit in großem Maßstab auftreten. Daher werde ich einige Ansätze zum Umgang mit diesen Themen diskutieren.
Einfache IF-ELSE-Anweisung
Die einfachste Lösung für die Validierung besteht darin, einen Code zu haben, der eine einfache If -Anweisung verwendet, die die LLM -Ausgabe überprüft. Wenn Sie beispielsweise Zusammenfassungen für Dokumente generieren möchten, möchten Sie möglicherweise sicherstellen, dass die LLM -Ausgabe mindestens über eine minimale Länge liegt
# LLM summay validation
# first generate abstract by means of an LLM consumer akin to OpenAI, Anthropic, Mistral, and so forth.
abstract = llm_client.chat(f"Make a abstract of this doc {doc}")
# validate the abstract
def validate_summary(abstract: str) -> bool:
if len(abstract) < 20:
return False
return True
Dann können Sie die Validierung ausführen.
- Wenn die Validierung vergeht, können Sie wie gewohnt fortfahren
- Wenn es fehlschlägt, können Sie wählen Ignorieren Sie die Anfrage oder benutzen a Mechanismus wiederholen
Sie können die validate_summary -Funktion natürlich aufwändiger machen, zum Beispiel:
- Verwendung von Regex für komplexe String -Matching
- Mit a Bibliothek wie Tiktoken Um die Anzahl der Token in der Anfrage zu zählen
- Stellen Sie sicher, dass bestimmte Wörter in der Antwort vorhanden sind/nicht vorhanden sind
- usw.
LLM als Validator

Ein fortschrittlicherer und kostspieligerer Validator verwendet ein LLM. In diesen Fällen verwenden Sie eine andere LLM, um zu bewerten, ob die Ausgabe gültig ist. Dies funktioniert, da die Validierung der Korrektheit normalerweise eine einfachere Aufgabe ist als eine korrekte Antwort zu generieren. Die Verwendung eines LLM -Validators ist im Wesentlichen Mit LLM als Richter habe ich hier einen weiteren Thema in Richtung Knowledge Science geschrieben.
Ich verwende oft kleinere LLMs, um diese Validierungsaufgabe auszuführen, da sie schnellere Reaktionszeiten haben, weniger kosten und trotzdem intestine funktionieren, da die Validierungsaufgabe einfacher ist als eine korrekte Antwort zu generieren. Zum Beispiel, wenn ich benutze GPT-4.1 Um eine Zusammenfassung zu erzeugen, würde ich GPT-4.1-Mini oder GPT-4.1-Nano in Betracht ziehen, um die Gültigkeit der generierten Zusammenfassung zu bewerten.
Wenn die Validierung erfolgreich ist, setzen Sie Ihren Anwendungsfluss fort, und wenn sie fehlschlägt, können Sie die Anfrage ignorieren oder sie erneut versuchen.
Bei der Validierung der Zusammenfassung würde ich die validierende LLM auffordern, nach Zusammenfassungen zu suchen, die:
- Sind zu kurz
- Halten Sie sich nicht an das erwartete Antwortformat (z. B. Markdown)
- Und andere Regeln, die Sie möglicherweise für die generierten Zusammenfassungen haben
Quantitative LLM -Bewertungen
Es ist auch sehr wichtig, großflächige Bewertungen von LLM-Ausgängen durchzuführen. Ich empfehle entweder kontinuierlich oder in regelmäßigen Abständen. Quantitative LLM -Bewertungen sind auch in Kombination mit qualitativen Bewertungen von Datenproben effektiver. Nehmen wir beispielsweise an, dass die Bewertungsmetriken hervorheben, dass Ihre generierten Zusammenfassungen länger sind als das, was Benutzer bevorzugen. In diesem Fall sollten Sie die generierten Zusammenfassungen und die Dokumente, auf denen sie basieren, manuell untersuchen. Dies hilft Ihnen, das zugrunde liegende Drawback zu verstehen, was das Lösen des Issues erneut erleichtert.
LLM als Richter
Wie bei der Validierung können Sie LLM als Richter zur Bewertung verwenden. Der Unterschied besteht darin, dass die Validierung LLM als Richter für binäre Vorhersagen verwendet (entweder ist die Ausgabe gültig oder nicht gültig), die Bewertung verwendet sie für detailliertere Rückmeldungen. Sie können beispielsweise Suggestions vom LLM-Richter über die Qualität einer Zusammenfassung von 1 bis 10 erhalten, wodurch die Unterscheidung mittlerer Qualität (ca. 4-6) von hochwertiger Summarie (7+) einfacher wird.
Auch hier müssen Sie Kosten berücksichtigen, wenn Sie LLM als Richter verwenden. Obwohl Sie möglicherweise kleinere Modelle verwenden, verdoppeln Sie im Wesentlichen die Anzahl der LLM -Anrufe, wenn Sie LLM als Richter verwenden. Sie können daher die folgenden Änderungen berücksichtigen, um Kosten zu sparen:
- Abtastdatenpunkte, sodass Sie LLM nur als Richter auf einer Teilmenge von Datenpunkten ausführen
- Gruppieren Sie mehrere Datenpunkte in einem LLM als Richteraufforderung, um Eingabe- und Ausgabe -Token zu speichern
Ich empfehle, den LLM -Richter die Beurteilungskriterien zu beschreiben. Zum Beispiel sollten Sie angeben, was eine Punktzahl von 1, eine Punktzahl von 5 und eine Punktzahl von 10 ausmacht. Wenn Sie Beispiele verwenden Mein Artikel über die Verwendung von LLM als Richter. Ich denke oft darüber nach, wie hilfreich Beispiele für mich sind, wenn jemand ein Thema erklärt, und Sie können sich daher vorstellen, wie hilfreich es für ein LLM ist.
Benutzerfeedback
Benutzer -Suggestions ist eine großartige Möglichkeit, quantitative Metriken für die Ausgaben Ihres LLM zu erhalten. Benutzer-Suggestions kann beispielsweise eine Schaltfläche Daumen nach oben oder Daumen nach unten sein, die besagt, ob die generierte Zusammenfassung zufriedenstellend ist. Wenn Sie ein solches Suggestions von Hunderten oder Tausenden von Benutzern kombinieren, haben Sie einen zuverlässigen Suggestions -Mechanismus, den Sie verwenden können, um die Leistung Ihres LLM -Zusammenfassungsgenerators erheblich zu verbessern!
Diese Benutzer können Ihre Kunden sein. Sie sollten es ihnen einfach erleichtern, Suggestions bereitzustellen und sie zu ermutigen, so viel Suggestions wie möglich zu geben. Diese Benutzer können jedoch im Wesentlichen jeder sein, der Ihre Anwendung nicht täglich nutzt oder entwickelt. Es ist wichtig, sich daran zu erinnern, dass ein solches Suggestions unglaublich wertvoll ist, um die Leistung Ihres LLM zu verbessern, und es kostet Sie (als Entwickler der Anwendung), jederzeit, um dieses Suggestions zu sammeln.
Abschluss
In diesem Artikel habe ich besprochen, wie Sie in Ihrer LLM-Anwendung eine groß angelegte Validierung und Bewertung durchführen können. Dies ist unglaublich wichtig, um sicherzustellen, dass Ihre Anwendung wie erwartet ausgeführt wird, und Ihre Anwendung basierend auf dem Benutzer -Suggestions zu verbessern. Ich empfehle, solche Validierungs- und Bewertungsströme so bald wie möglich in Ihre Anwendung einzubeziehen, da die Wichtigkeit der von Natur aus unvorhersehbaren LLMs zuverlässig einen Wert in Ihrer Anwendung bieten kann.
Sie können meine Artikel auch lesen Wie man LLMs mit ARC AGI 3 bewertet Und So extrahieren Sie mühelos Quittungsinformationen mit OCR und GPT-4O Mini
👉 Finden Sie mich in Socials:
✍️ Medium
