Das Information Science-Crew von P&F steht vor einer Herausforderung: Es muss jede Expertenmeinung gleich gewichten, kann aber nicht alle zufriedenstellen. Anstatt sich auf die subjektiven Meinungen der Experten zu konzentrieren, beschließt es, den Chatbot anhand historischer Kundenfragen zu bewerten. Jetzt müssen sich die Experten keine Fragen mehr ausdenken, um den Chatbot zu testen, wodurch die Bewertung näher an den realen Bedingungen liegt. Der ursprüngliche Grund für die Einbeziehung der Experten struggle schließlich, dass sie im Vergleich zum Information Science-Crew von P&F die Fragen echter Kunden besser verstanden.
Es stellt sich heraus, dass sich häufig gestellte Fragen an P&F auf technische Anweisungen für Büroklammern beziehen. P&F-Kunden möchten detaillierte technische Spezifikationen der Büroklammern wissen. P&F hat Tausende verschiedener Büroklammertypen im Angebot und der Kundendienst braucht lange, um die Fragen zu beantworten.
Um die testgetriebene Entwicklung zu verstehen, erstellt das Information Science-Crew einen Datensatz aus dem Gesprächsverlauf, einschließlich der Kundenfrage Und Antwort des Kundensupports:
Mit einem Datensatz aus Fragen und Antworten kann P&F die Leistung des Chatbots nachträglich testen und bewerten. Sie erstellen eine neue Spalte „Chatbot-Antwort“ und speichern die Beispielantworten des Chatbots auf die Fragen.
Wir können die Qualität der Antworten des Chatbots von Experten und GPT-4 bewerten lassen. Das ultimative Ziel ist die Automatisierung der Chatbot-Genauigkeitsbewertung durch den Einsatz von GPT-4. Dies ist möglich Wenn Experten und GPT-4 bewerten die Antworten ähnlich.
Experten erstellen mit der Bewertung jedes Experten ein neues Excel-Tabellenblatt und das Information-Science-Crew fügt die GPT-4-Bewertung hinzu.
Es gibt Konflikte darüber, wie unterschiedliche Experten beurteilen Die dieselben Chatbot-Antworten. GPT-4 wertet ähnlich aus wie Expertenmehrheitsabstimmungen, was darauf hindeutet, dass wir mit GPT-4 automatische Bewertungen durchführen könnten. Allerdings ist die Meinung jedes Experten wertvoll und es ist wichtig, die widersprüchlichen Bewertungspräferenzen der Experten zu berücksichtigen.
P&F organisiert einen Workshop mit den Experten zur Erstellung goldener Normal Antworten auf den historischen Fragendatensatz
Und Auswertung Greatest Follow-Richtliniendem alle Experten zustimmen.
Mit den Erkenntnissen aus dem Workshop kann das Information Science-Crew eine detailliertere Evaluierungsaufforderung für GPT-4 erstellen, die Randfälle abdeckt (z. B. „Chatbot sollte nicht nach Assist-Tickets fragen“). Jetzt ist der Experten können die Zeit nutzen, um die Büroklammerdokumentation zu verbessern Und Greatest Practices definieren, statt aufwändiger Chatbot-Auswertungen.
Durch die Messung des Prozentsatzes korrekter Chatbot-Antworten kann P&F entscheiden, ob der Chatbot im Assist-Kanal eingesetzt werden soll. P&F bestätigt die Genauigkeit und setzt den Chatbot ein.
Schließlich ist es an der Zeit, alle Chatbot-Antworten zu speichern und zu berechnen, wie intestine der Chatbot bei der Lösung echter Kundenanfragen abschneidet. Da der Kunde direkt auf den Chatbot antworten kann, ist es auch wichtig, die Antwort des Kunden aufzuzeichnen, um die Stimmung des Kunden zu verstehen.
Derselbe Auswertungsworkflow kann verwendet werden, um den Erfolg des Chatbots faktisch zu messen, ohne die Antworten auf der Grundlage der Wahrheit. Aber jetzt erhalten die Kunden die erste Antwort von einem Chatbot und wir wissen nicht, ob sie den Kunden gefällt. Wir sollten untersuchen, wie die Kunden auf die Antworten des Chatbots reagieren. Wir können damaging Stimmungen automatisch aus den Antworten der Kunden erkennen und Kundendienstspezialisten zuweisen, die sich um verärgerte Kunden kümmern.