In der Produktion reagieren Sie aktiv auf Benutzeranfragen. Sie möchten jedoch Ihr Modell jetzt verbessern, um einen größeren Teil der Kundenanfragen erfolgreich zu bearbeiten. Wie nähern Sie sich dem?

In diesem Artikel diskutiere ich das Szenario, in dem Sie bereits über eine laufende LLM verfügen und die Leistung analysieren und optimieren möchten. Ich werde die Ansätze diskutieren, die ich benutze, um dort aufzudecken, wo die LLM funktioniert und wo es verbessert werden muss. Darüber hinaus werde ich auch die Instruments besprechen, mit denen ich die Leistung meines LLM verbessern kann, mit Instruments wie dem schnellen Optimierer von Anthropic.

Kurz gesagt, ich verfolge einen dreistufigen Prozess, um die Leistung meines LLM schnell zu verbessern:

  1. Analysieren Sie LLM -Ausgänge
  2. Iterativ die Bereiche mit dem größten Wert für den Aufwand verbessern
  3. Bewerten und iterieren

Inhaltsverzeichnis

Motivation

Meine Motivation für diesen Artikel ist, dass ich mich oft in dem im Intro beschriebenen Szenario befinde. Ich habe bereits meine LLM in Betrieb; Es leistet jedoch nicht wie erwartet oder erreicht die Kundenerwartungen. Durch unzählige Erfahrungen bei der Analyse meiner LLMs habe ich diesen einfachen dreistufigen Prozess erstellt, mit dem ich immer LLMs verbessern kann.

Schritt 1: Analyse von LLM -Ausgängen

Der erste Schritt zur Verbesserung Ihrer LLMs sollte immer darin bestehen, ihre Ausgabe zu analysieren. Um eine hohe Beobachtbarkeit in Ihrer Plattform zu haben, empfehle ich dringend, ein LLM -Supervisor -Software zur Verfolgung zu verwenden, wie z. Langfuse oder PromptLayer. Diese Instruments machen es einfach, alle Ihre LLM -Aufrufe an einem Ort zu sammeln, um die Analyse bereitzustellen.

Ich werde jetzt verschiedene Ansätze diskutieren, die ich bewerbe, um meine LLM -Ausgänge zu analysieren.

Manuelle Inspektion der Rohausgabe

Der einfachste Ansatz zur Analyse Ihrer LLM -Ausgabe besteht darin, viele Ihrer LLM -Aufrufe manuell zu inspizieren. Sie sollten Ihre letzten 50 LLM -Aufrufe sammeln, den gesamten Kontext lesen, den Sie in das Modell eingesperrt haben, und die Ausgabe des bereitgestellten Modells. Ich finde diesen Ansatz überraschend wirksam bei der Aufdeckung von Problemen. Ich habe zum Beispiel entdeckt:

  • Duplizierter Kontext (Teil meines Kontexts wurde aufgrund eines Programmierfehlers dupliziert)
  • Fehlender Kontext (ich habe nicht alle Informationen, die ich erwartet hatte, in mein LLM gefüttert)
  • usw.

Die manuelle Überprüfung der Daten sollte niemals unterschätzt werden. Wenn Sie die Daten gründlich durchsuchen, werden Sie das Datensatz, an dem Sie arbeiten, manuell verstehen, was auf andere Weise schwer zu erhalten ist. Darüber hinaus stelle ich auch fest, dass ich mehr Datenpunkte manuell inspizieren sollte, als ich zunächst Zeit für die Bewertung verbringen möchte.

Nehmen wir beispielsweise an, es dauert 5 Minuten, um ein Beispiel für Eingabe-Output manuell zu überprüfen. Meine Instinct sagt mir oft, dass ich vielleicht 20-30 Minuten dafür verbringen und somit 4-6 Datenpunkte inspizieren soll. Ich stelle jedoch fest, dass Sie normalerweise viel länger für diesen Teil des Prozesses ausgeben sollten. Ich empfehle diesmal mindestens 5x-ing. Anstatt 30 Minuten manuell zu inspizieren, verbringen Sie 2,5 Stunden. Zunächst denken Sie, dass dies viel Zeit ist, um eine manuelle Inspektion auszugeben, aber in der Regel spart es Ihnen auf lange Sicht viel Zeit. Zusätzlich ist 2,5 Stunden im Vergleich zu einem gesamten 3-wöchigen Projekt eine unbedeutende Zeit.

Gruppenanfragen nach Taxonomie

Manchmal erhalten Sie nicht alle Ihre Antworten aus einer einfachen manuellen Analyse Ihrer Daten. In diesen Fällen würde ich zu einer quantitativeren Analyse meiner Daten übergehen. Dies ist im Gegensatz zum ersten Ansatz, den ich für qualitativ halte, da ich jeden Datenpunkt manuell inspiziere.

Die Gruppierung von Benutzeranfragen nach einer Taxonomie ist ein effizienter Ansatz, um besser zu verstehen, was Benutzer von Ihrem LLM erwarten. Ich werde ein Beispiel geben, um dies zu erleichtern, um zu verstehen:

Stellen Sie sich vor, Sie sind Amazon und haben einen Kundendienst LLM, der eingehende Kundenfragen bearbeitet. In diesem Fall wird eine Taxonomie so aussehen wie:

  • Rückerstattungsanfragen
  • Sprechen Sie mit menschlichen Anfragen
  • Fragen zu einzelnen Produkten

Ich würde mich dann die letzten 1000 Benutzeranfragen ansehen und sie manuell in diese Taxonomie kommentieren. Dies wird Ihnen zeigen, welche Fragen am häufigsten sind und welche Sie sich am meisten konzentrieren sollten. Sie werden oft feststellen, dass die Verteilung der Elemente in jeder Kategorie a folgt Pareto -Verteilungmit den meisten Elementen, die zu einigen spezifischen Kategorien gehören.

Darüber hinaus kommentieren Sie, ob eine Kundenanfrage erfolgreich beantwortet wurde oder nicht. Mit diesen Informationen können Sie nun herausfinden, mit welchen Fragen Sie zu kämpfen haben und mit welchen LLM Sie intestine sind. Vielleicht überträgt der LLM Kundenanfragen leicht an Menschen, wenn sie angefordert werden. Es hat jedoch Probleme, sich über Particulars zu einem Produkt zu befragen. In diesem Fall sollten Sie Ihre Bemühungen auf die Verbesserung der Gruppe von Fragen konzentrieren, mit denen Sie am meisten zu kämpfen haben.

LLM als Richter in einem goldenen Datensatz

Ein weiterer quantitativer Ansatz, den ich zur Analyse meiner LLM-Ausgänge verwende, besteht darin, einen goldenen Datensatz mit Eingabe-Output-Beispielen zu erstellen und LLM als Richter zu verwenden. Dies hilft, wenn Sie Änderungen an Ihrem LLM vornehmen.

Wenn Sie das Buyer -Assist -Beispiel von zuvor fortsetzen, können Sie eine Liste von 50 (realen) Benutzeranfragen und die gewünschte Antwort von jedem von ihnen erstellen. Wenn Sie Änderungen an Ihrer LLM vornehmen (Modelversion ändern, mehr Kontext hinzufügen,…), können Sie das neue LLM automatisch im goldenen Datensatz testen und eine LLM als Richter festlegen, ob die Antwort aus dem neuen Modell mindestens so intestine ist wie die Antwort aus dem alten Modell. Auf diese Weise sparen Sie viel Zeit, wenn Sie die LLM -Ausgänge manuell inspizieren, wenn Sie Ihre LLM aktualisieren.

Wenn Sie mehr über LLM als Richter erfahren möchten, können Sie lesen Mein TDS -Artikel zum Thema hier.

Schritt 2: Verbesserung Ihrer LLM iterativ

Sie sind mit Schritt eins fertig und möchten jetzt diese Erkenntnisse verwenden, um Ihre LLM zu verbessern. In diesem Abschnitt diskutiere ich, wie ich mich diesem Schritt nähere, um die Leistung meines LLM effizient zu verbessern.

Wenn ich beispielsweise erhebliche Probleme entdecke, beispielsweise bei der manuellen Überprüfung von Daten ich diese immer zuerst behebe. Dies kann beispielsweise darin bestehen, dass der Kontext des LLM oder Tippfehler in meinen Eingabeaufforderungen unnötiges Geräusch hinzugefügt wird. Wenn ich damit fertig bin, verwende ich weiterhin einige Instruments.

Ein Software, das ich verwende, sind sofortige Optimierer wie z. Anthropics sofortiger Verbesserung. Mit diesen Instruments geben Sie in der Regel Ihre Eingabeaufforderung und einige Beispiele für Eingabe-Ausgänge ein. Sie können beispielsweise die Eingabeaufforderung eingeben, die Sie für Ihre Kundendienstmitarbeiter verwenden, sowie Beispiele für Kundeninteraktionen, bei denen das LLM fehlgeschlagen ist. Der Eingabeaufforderung Optimierer analysiert Ihre Eingabeaufforderung und Beispiele und gibt eine verbesserte Model Ihrer Eingabeaufforderung zurück. Sie werden wahrscheinlich Verbesserungen wie:

  • Verbesserte Struktur in Ihrer Eingabeaufforderung beispielsweise mit dem Markdown
  • Umgang mit Randfällen. Wenn der Benutzer den Kundensupport -Agenten über völlig nicht verwandte Themen abfragt, z. Der Eingabeaufforderungoptimierer fügt möglicherweise so etwas hinzu: „Wenn die Frage nicht mit Amazon zusammenhängt, teilen Sie dem Benutzer mit, dass Sie nur so konzipiert sind, dass Sie Fragen zu Amazon beantworten“.

Wenn ich quantitativere Daten habe, wie z. Gruppierung von Benutzeranfragen oder a Goldener DatensatzIch analysiere auch diese Daten und erstelle ein Wertschöpfungsdiagramm. Die Wertschöpfungsgrafik zeigt die verschiedenen verfügbaren Verbesserungen, die Sie vornehmen können, z. B.:

  • Verbesserte Kantenfallhandhabung in der Systemaufforderung
  • Verwenden Sie ein besseres Einbettungsmodell für einen verbesserten Lappen

Anschließend zeichnen Sie diese Datenpunkte in einem 2D -Raster wie unten auf. Sie sollten die Elemente im oberen linken Quadrant natürlich priorisieren, da sie viel Wert bieten und wenig Aufwand erfordern. Normalerweise sind die Elemente jedoch auf einer Diagonale enthalten, bei der ein verbesserter Wert stark mit höheren erforderlichen Anstrengungen korreliert.

Diese Abbildung zeigt eine Wertschöpfungsgrafik. In dem Wertschöpfungsdiagramm werden unterschiedliche Verbesserungen angezeigt, die Sie Ihrem Produkt vornehmen können. Die Verbesserungen werden im Diagramm angezeigt, wie wertvoll sie sind und wie erforderlich, um sie zu erstellen. Bild von Chatgpt.

Ich stecke alle meine Verbesserungsvorschläge in ein Mehrwert-Effort-Diagramm und wähle dann nach und nach Elemente aus, die so hoch wie möglich und so niedrig wie möglich sind. Dies ist ein tremendous effektiver Ansatz, um die dringendsten Probleme mit Ihrem LLM schnell zu lösen, was sich positiv auf die größte Anzahl von Kunden auswirkt, die Sie für eine bestimmte Menge an Aufwand können.

Schritt 3: Bewerten und iterieren

Der letzte Schritt in meinem dreistufigen Prozess besteht darin, meine LLM und Iterate zu bewerten. Es gibt eine Vielzahl von Techniken, mit denen Sie Ihre LLM bewerten können, von denen ich viele abdeckte Mein Artikel zum Thema.

Vorzugsweise erstellen Sie einige quantitative Metriken für die Leistung Ihrer LLMs und stellen sicher, dass diese Metriken sich von den in Schritt 2 angewendeten Änderungen verbessert haben. Nachdem Sie diese Änderungen angewendet und verurteilt haben, dass sie Ihre LLM verbessert haben, sollten Sie überlegen, ob das Modell intestine genug ist oder ob Sie das Modell weiter verbessern sollten. Meistens arbeite ich nach dem 80% igen Prinzip, was besagt, dass die Leistung von 80% in quick allen Fällen intestine genug ist. Dies ist nicht buchstäblich 80% wie in Genauigkeit. Es unterstreicht eher den Punkt, an dem Sie kein perfektes Modell erstellen müssen, sondern nur ein Modell erstellen, das ist intestine genug.

Abschluss

In diesem Artikel habe ich das Szenario besprochen, in dem Sie bereits eine LLM in der Produktion haben, und Sie möchten Ihre LLM analysieren und verbessern. Ich nähere dieses Szenario, indem ich zuerst die Modelleingaben und -ausgänge analysiere, vorzugsweise durch die vollständige manuelle Inspektion. Nachdem ich sichergestellt habe, dass ich den Datensatz wirklich verstehe und wie sich das Modell verhält, wande ich mich auch in quantitativere Metriken ein, wie beispielsweise die Gruppierung von Abfragen in eine Taxonomie und die Verwendung von LLM als Richter. Anschließend implementiere ich Verbesserungen, die auf meinen Ergebnissen im vorherigen Schritt basieren, und bewerten schließlich, ob meine Verbesserungen wie beabsichtigt funktionieren.

👉 Finden Sie mich in Socials:

🧑‍💻 Sich in Verbindung setzen

🔗 LinkedIn

🐦 X / Twitter

✍️ Medium

Oder lesen Sie meine anderen Artikel:

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert