Seitdem ChatGPT von OpenAI im November 2022 die Welt im Sturm eroberte, haben Massive Language Fashions (LLMs) verschiedene Anwendungen branchenübergreifend revolutioniert, vom Verständnis natürlicher Sprache bis zur Textgenerierung. Ihre Leistung erfordert jedoch strenge und mehrdimensionale Bewertungsmaßstäbe, um sicherzustellen, dass sie die praktischen, realen Anforderungen an Genauigkeit, Effizienz, Skalierbarkeit und ethische Überlegungen erfüllen. Dieser Artikel beschreibt eine breite Palette von Metriken und Methoden zur Messung der Leistung von LLM-basierten Anwendungen und bietet Einblicke in Bewertungsrahmen, die technische Leistung mit Benutzererfahrung und Geschäftsanforderungen in Einklang bringen.
Dies soll kein umfassender Leitfaden zu allen Metriken zur Messung der Leistung von LLM-Anwendungen sein, aber es bietet einen Einblick in die wichtigsten zu betrachtenden Dimensionen und einige Beispiele für Metriken. Dies hilft Ihnen zu verstehen, wie Sie Ihr Bewertungskriterium erstellen. Die endgültige Wahl hängt von Ihrem tatsächlichen Anwendungsfall ab.
Obwohl sich dieser Artikel auf LLM-basierte Anwendungen konzentriert, lässt sich dies auch auf andere Modalitäten übertragen.
1.1. LLM-basierte Anwendungen: Definition und Umfang
An Massive Language Fashions (LLMs) mangelt es heute nicht mehr. LLMs wie GPT-4, LLaMA von Meta, Claude 3.5 Sonnet von Anthropic oder Titan Textual content Premier von Amazon sind in der Lage, menschenähnlichen Textual content zu verstehen und zu generieren, wodurch sie für mehrere nachgelagerte Anwendungen wie kundenorientierte Chatbots, kreative Inhaltsgenerierung und Sprachübersetzung geeignet sind , usw.
1.2. Bedeutung der Leistungsbewertung
LLMs sind im Gegensatz zu herkömmlichen ML-Modellen, die über ziemlich standardisierte Bewertungskriterien und Datensätze verfügen, nicht trivial zu evaluieren. Der Black-Field-Charakter von LLMs sowie die Vielzahl nachgelagerter Anwendungsfälle erfordern eine vielschichtige Leistungsmessung über mehrere Überlegungen hinweg. Eine unzureichende Evaluierung kann zu Kostenüberschreitungen, schlechter Benutzererfahrung oder Risiken für die Organisation führen, die sie einsetzt.
Es gibt drei wichtige Möglichkeiten, die Leistung von LLM-basierten Anwendungen zu betrachten: Genauigkeit, Kosten und Latenz. Darüber hinaus ist es wichtig, sicherzustellen, dass es eine Reihe von Kriterien für Accountable AI gibt, um sicherzustellen, dass die Anwendung nicht schädlich ist.
Genau wie der Kompromiss zwischen Bias und Varianz, den wir bei klassischen Anwendungen des maschinellen Lernens haben, müssen wir bei LLMs den Kompromiss zwischen Genauigkeit auf der einen Seite und Kosten + Latenz auf der anderen Seite berücksichtigen. Im Allgemeinen wird es ein Balanceakt sein, eine Anwendung zu erstellen, die „genau“ ist (wir werden gleich definieren, was das bedeutet) und gleichzeitig schnell genug und kostengünstig ist. Die Wahl des LLM sowie der unterstützenden Anwendungsarchitektur hängt stark von der Endbenutzererfahrung ab, die wir erreichen möchten.
2.1. Genauigkeit
Ich verwende den Begriff „Genauigkeit“ hier eher locker, da er eine sehr spezifische Bedeutung hat, aber den Punkt deutlich macht, wenn er als englisches Wort und nicht als mathematischer Begriff verwendet wird.
Die Genauigkeit der Anwendung hängt vom tatsächlichen Anwendungsfall ab – ob die Anwendung eine Klassifizierungsaufgabe ausführt, ob sie einen Textblob erstellt oder ob sie für spezielle Aufgaben wie Named Entity Recognition (NER) oder Retrieval Augmented Era (RAG) verwendet wird ).
2.1.1. Anwendungsfälle für die Klassifizierung
Für Klassifizierungsaufgaben wie Sentimentanalyse (positiv/negativ/impartial), Themenmodellierung und Named Entity Recognition sind klassische ML-Bewertungsmetriken geeignet. Sie messen die Genauigkeit anhand verschiedener Dimensionen in der Verwirrungsmatrix. Typische Maßnahmen sind Präzision, Rückruf, F1-Rating usw.
2.1.2. Anwendungsfälle für die Textgenerierung – einschließlich Zusammenfassung und kreativem Inhalt
BLEU, ROUGE Und METEOR Scores sind gängige Metriken zur Bewertung von Textgenerierungsaufgaben, insbesondere zur Übersetzung und Zusammenfassung. Der Einfachheit halber verwendet man auch F1-Scores, indem man BLEU- und ROUGE-Scores kombiniert. Es gibt zusätzliche Metriken wie Perplexity, die besonders nützlich für die Bewertung von LLMs selbst sind, aber weniger nützlich, um die Leistung vollständiger Anwendungen zu messen. Die größte Herausforderung bei allen oben genannten Metriken besteht darin, dass sie sich auf Textähnlichkeit und nicht auf semantische Ähnlichkeit konzentrieren. Je nach Anwendungsfall reicht die Textähnlichkeit möglicherweise nicht aus, und man sollte auch Maße für semantische Nähe verwenden, z SemScore.
2.1.3. RAG-Anwendungsfälle – einschließlich Zusammenfassung und kreativem Inhalt
In RAG-basierten Anwendungen erfordert die Auswertung erweiterte Metriken, um die Leistung über alle Abruf- und Generierungsschritte hinweg zu erfassen. Beim Abrufen kann man Rückruf und Präzision verwenden, um relevante und abgerufene Dokumente zu vergleichen. Zur Generierung können zusätzliche Metriken wie Ratlosigkeit, Halluzinationsrate, sachliche Genauigkeit oder semantische Kohärenz verwendet werden. Dieser Artikel beschreibt die wichtigsten Kennzahlen, die man möglicherweise in seine Bewertung einbeziehen möchte.
2.2. Latenz (und Durchsatz)
In vielen Situationen bestimmen Latenz und Durchsatz einer Anwendung deren Endnutzbarkeit oder Nutzungserfahrung. In der heutigen Era des blitzschnellen Internets möchten Benutzer nicht auf eine Antwort warten müssen, insbesondere wenn sie kritische Aufgaben ausführen.
Je geringer die Latenz, desto besser ist das Benutzererlebnis bei benutzerorientierten Anwendungen, die eine Reaktion in Echtzeit erfordern. Dies ist möglicherweise nicht so wichtig für Workloads, die in Stapeln ausgeführt werden, z. B. die Transkription von Kundendienstanrufen zur späteren Verwendung. Im Allgemeinen können sowohl die Latenz als auch der Durchsatz durch horizontale oder vertikale Skalierung verbessert werden, die Latenz hängt jedoch möglicherweise immer noch grundlegend von der Architektur der gesamten Anwendung ab, einschließlich der Wahl des LLM. Ein schöner Maßstab für die Nutzung der Geschwindigkeit verschiedener LLM-APIs ist Künstliche Analyse. Dies ergänzt andere Bestenlisten, die sich auf die Qualität von LLMs konzentrieren, wie LMSYS Chatbot Enviornment, die offenen LLM-Bestenlisten Hugging Face und Stanfords HELM, die sich mehr auf die Qualität der Ergebnisse konzentrieren.
Latenz ist ein Schlüsselfaktor, der uns weiterhin zu Small Language Fashions für Anwendungen drängen wird, die eine schnelle Reaktionszeit erfordern und bei denen die Bereitstellung auf Edge-Geräten eine Notwendigkeit sein könnte.
2.3. Kosten
Wir entwickeln LLM-Anwendungen, um Geschäftsprobleme zu lösen und die Effizienz zu steigern, in der Hoffnung, Kundenprobleme zu lösen und gleichzeitig constructive Auswirkungen auf das Endergebnis unserer Unternehmen zu haben. All dies ist mit Kosten verbunden, die sich bei generativen KI-Anwendungen schnell summieren könnten.
Wenn man an die Kosten von LLM-Anwendungen denkt, wird meiner Erfahrung nach viel über die Kosten der Inferenz (die auf #Tokens basiert), die Kosten für die Discover-Optimierung oder sogar die Kosten für das Vortraining eines LLM diskutiert . Es gibt jedoch nur begrenzte Diskussionen über die Gesamtbetriebskosten, einschließlich Infrastruktur- und Personalkosten.
Die Kosten können je nach Artwork der Bereitstellung (Cloud, On-Prem, Hybrid), dem Umfang der Nutzung und der Architektur variieren. Es variiert auch stark je nach Lebenszyklus der Anwendungsentwicklung.
- Infrastrukturkosten – umfasst Inferenz-, Optimierungskosten oder möglicherweise Vorschulungskosten sowie die Infrastruktur – Speicher-, Rechen-, Netzwerk- und Speicherkosten, die mit der Anwendung verbunden sind. Je nachdem, wo die Anwendung erstellt wird, müssen diese Kosten möglicherweise nicht separat verwaltet oder gebündelt werden, wenn verwaltete Dienste wie AWS Bedrock verwendet werden.
- Group- und Personalkosten– Manchmal brauchen wir eine Armee von Leuten, um diese Anwendungen zu erstellen, zu überwachen und zu verbessern. Dazu gehören die Ingenieure, die dies aufbauen (Datenwissenschaftler und ML-Ingenieure, DevOps- und MLOps-Ingenieure) sowie die funktionsübergreifenden Groups aus Produkt-/Projektmanagern, Private-, Rechts- und Risikopersonal, die an Design und Entwicklung beteiligt sind. Möglicherweise verfügen wir auch über Annotations- und Beschriftungsteams, die uns qualitativ hochwertige Daten liefern.
- Sonstige Kosten– Dazu können die Kosten für Datenerfassung und -verwaltung, Kundenbefragungen, Software program- und Lizenzkosten, Betriebskosten (MLOps/LLMOps), Sicherheit und Compliance gehören.
2.4. Ethische und verantwortungsvolle KI-Metriken
LLM-basierte Anwendungen sind immer noch neu, viele davon sind lediglich Proof of Ideas. Gleichzeitig werden sie zum Mainstream – ich sehe, dass KI in so vielen Anwendungen integriert ist, die ich täglich verwende, darunter Google, LinkedIn, die Amazon-Purchasing-App, WhatsApp, InstaCart usw. Je verschwimmender die Grenzen zwischen menschlicher und KI-Interaktion werden, desto unschärfer wird sie Umso wichtiger ist es, dass wir uns an verantwortungsvolle KI-Requirements halten. Das größere Downside besteht darin, dass diese Requirements heute nicht existieren. Weltweit werden diesbezügliche Vorschriften noch ausgearbeitet (einschließlich der Government Order des Weißen Hauses). Daher ist es von entscheidender Bedeutung, dass Anwendungsentwickler ihr bestes Urteilsvermögen anwenden. Im Folgenden sind einige der wichtigsten Dimensionen aufgeführt, die Sie im Auge behalten sollten:
- Equity und Voreingenommenheit: Misst, ob die Ergebnisse des Modells frei von Vorurteilen und Equity in Bezug auf Rasse, Geschlecht, ethnische Zugehörigkeit und andere Dimensionen sind.
- Toxizität: Misst den Grad, in dem das Modell schädliche, beleidigende oder abwertende Inhalte generiert oder verstärkt.
- Erklärbarkeit: Bewertet, wie erklärbar die Entscheidungen des Modells sind.
- Halluzinationen/Faktische Konsistenz: Stellt sicher, dass das Modell sachlich korrekte Antworten generiert, insbesondere in kritischen Branchen wie dem Gesundheitswesen und dem Finanzwesen.
- Privatsphäre: Misst die Fähigkeit des Modells, verantwortungsvoll mit PII/PHI/anderen sensiblen Daten umzugehen und Vorschriften wie die DSGVO einzuhalten.
Nun ja… nicht wirklich! Die vier von uns besprochenen Dimensionen und Metriken sind zwar wesentlich und ein guter Ausgangspunkt, sie reichen jedoch nicht immer aus, um den Kontext oder die individuellen Benutzerpräferenzen zu erfassen. Da Menschen in der Regel Endverbraucher der Ergebnisse sind, sind sie am besten in der Lage, die Leistung von LLM-basierten Anwendungen zu bewerten, insbesondere in komplexen oder unbekannten Szenarien. Es gibt zwei Möglichkeiten, menschliche Eingaben zu berücksichtigen:
- Direkt über Human-in-the-Loop: Menschliche Bewerter geben qualitatives Suggestions zu den Ergebnissen von LLMs und konzentrieren sich dabei auf Sprachkompetenz, Kohärenz und Übereinstimmung mit menschlichen Erwartungen. Dieses Suggestions ist entscheidend für die Verbesserung des menschenähnlichen Verhaltens von Modellen.
- Indirekt über sekundäre Metriken: A|B-Checks von Endbenutzern können sekundäre Kennzahlen wie Benutzerinteraktion und -zufriedenheit vergleichen. Beispielsweise können wir die Leistung von hyperpersonalisiertem Advertising and marketing mithilfe generativer KI vergleichen, indem wir Klickraten und Konversionsraten vergleichen.
Als Berater lautet die Antwort auf die meisten Fragen „Es kommt darauf an.“ Dies gilt auch für Bewertungskriterien für LLM-Bewerbungen. Je nach Anwendungsfall/Branche/Funktion muss das richtige Gleichgewicht der Metriken zwischen Genauigkeit, Latenz, Kosten und verantwortungsvoller KI gefunden werden. Dies sollte immer durch eine menschliche Bewertung ergänzt werden, um sicherzustellen, dass wir die Anwendung in einem realen Szenario testen. Beispielsweise legen medizinische und finanzielle Anwendungsfälle Wert auf Genauigkeit und Sicherheit sowie die Zuordnung zu glaubwürdigen Quellen, Unterhaltungsanwendungen legen Wert auf Kreativität und Benutzerengagement. Die Kosten bleiben ein entscheidender Faktor bei der Erstellung des Geschäftsszenarios für eine Anwendung, obwohl die schnell sinkenden Kosten für LLM-Inferenz die Eintrittsbarrieren bald verringern könnten. Latenz ist in der Regel ein limitierender Faktor und erfordert die richtige Modellauswahl sowie Infrastrukturoptimierung, um die Leistung aufrechtzuerhalten.
Alle Ansichten in diesem Artikel stammen vom Autor und stellen keine Empfehlung von Produkten oder Dienstleistungen dar.