Erkenntnisse aus der Umsetzung von LLM-basierten Produkten in die Produktion

Ein Foto von mir (Katherine Munro) auf der Bühne, wo ich diesen Artikel als Vortrag präsentiere. Klicken Sie hier, um die Aufzeichnung anzusehen oder anzuhören.
Der heutige Beitrag fasst meinen letzten Vortrag über Erfahrungen bei der Einführung von LLM-basierten Produkten in die Produktion zusammen. Sie können sich das Video ansehen Hier.

Was passiert, wenn Sie einen funktionierenden Chatbot, der bereits täglich Tausende von Kunden in vier verschiedenen Sprachen bedient, nehmen und versuchen, mithilfe großer Sprachmodelle ein noch besseres Erlebnis zu bieten? Gute Frage.

Es ist bekannt, dass die Bewertung und der Vergleich von LLMs schwierig ist. Benchmark-Datensätze sind schwer zu bekommen und Kennzahlen wie BLEU sind unvollkommen. Aber das sind weitgehend akademische Probleme: Wie gehen Branchendatenteams mit diesen Problemen um, wenn sie LLMs in Produktionsprojekte integrieren?

In meiner Arbeit als Conversational AI Engineer tue ich genau das. Und so landete ich kürzlich auf einer Information Science-Konferenz im Rampenlicht und hielt den (optimistisch betitelten) Vortrag „Keine Baseline? Keine Benchmarks? Kein Drawback!“ Der heutige Beitrag ist eine Zusammenfassung davon und enthält:

  • Die Herausforderungen bei der Bewertung eines sich entwickelnden, LLM-gestützten PoC im Vergleich zu einem funktionierenden Chatbot
  • Wie wir unterschiedliche Testarten in verschiedenen Phasen des PoC-to-Manufacturing-Prozesses einsetzen
  • Praktische Vor- und Nachteile verschiedener Testarten

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert