Das gibt es derzeit in Unternehmen zu finden – es gibt ein vorgeschlagenes Produkt oder eine Funktion, die den Einsatz von KI beinhalten würde, wie etwa einen LLM-basierten Agenten, und es beginnen Diskussionen darüber, wie das Projekt geplant und aufgebaut werden soll. Produkt und Technik werden großartige Ideen haben, wie dieses Device nützlich sein könnte und wie viel Begeisterung es für das Unternehmen erzeugen kann. Wenn ich jedoch in diesem Raum bin, möchte ich nach dem Vorschlag des Projekts als Erstes wissen: „Wie werden wir das bewerten?“ Manchmal stellt sich dabei die Frage, ob die KI-Bewertung wirklich wichtig oder notwendig ist oder ob dies auf einen späteren Zeitpunkt (oder nie) warten kann.
Fakt ist: KI-Auswertungen braucht man nur, wenn man wissen will, ob es funktioniert. Wenn Sie mit der Erstellung und dem Versand zufrieden sind, ohne die Auswirkungen auf Ihr Unternehmen oder Ihre Kunden zu kennen, können Sie die Bewertung überspringen – die meisten Unternehmen wären damit jedoch eigentlich nicht einverstanden. Niemand möchte sich vorstellen, Dinge zu bauen, ohne sicher zu sein, ob sie funktionieren.
Lassen Sie uns additionally darüber sprechen, was Sie benötigen, bevor Sie mit der Entwicklung von KI beginnen, damit Sie diese bewerten können.
Das Ziel
Das magazine offensichtlich klingen, aber was soll Ihre KI tun? Was ist der Zweck davon und wie wird es aussehen, wenn es funktioniert?
Sie werden überrascht sein, wie viele Menschen sich an die Entwicklung von KI-Produkten wagen, ohne eine Antwort auf diese Frage zu haben. Aber es ist wirklich wichtig, dass wir innehalten und gründlich darüber nachdenken, denn um zu wissen, wie wir diesen Erfolg messen können, müssen wir wissen, was wir uns vorstellen, wenn wir uns den Erfolg eines Projekts vorstellen.
Es ist auch wichtig, dass Sie sich Zeit für diese Frage nehmen, bevor Sie beginnen, da Sie möglicherweise feststellen, dass Sie und Ihre Kollegen/Führungskräfte sich über die Antwort nicht wirklich einig sind. Allzu oft beschließen Unternehmen, KI auf irgendeine Weise in ihr Produkt einzubauen, ohne den Umfang des Projekts klar zu definieren, weil KI an sich als wertvoll angesehen wird. Mit fortschreitendem Projekt kommt dann der interne Konflikt darüber zum Vorschein, was Erfolg ist, wenn die Erwartungen einer Individual erfüllt werden und die einer anderen nicht. Dies kann ein echtes Durcheinander sein und wird sich erst lösen, wenn eine Menge Zeit, Energie und Mühe aufgewendet wurden. Die einzige Möglichkeit, dies zu beheben, besteht darin, sich im Voraus ausdrücklich darauf zu einigen, was Sie erreichen möchten.
KPIs
Es geht jedoch nicht nur darum, sich ein mentales Bild von einem Szenario auszudenken, in dem dieses KI-Produkt oder diese KI-Funktion funktioniert. Diese Imaginative and prescient muss in messbare Formen, beispielsweise KPIs, heruntergebrochen werden, damit wir später die für ihre Berechnung erforderlichen Bewertungstools erstellen können. Während qualitative oder Advert-hoc-Daten eine große Hilfe sein können, um Farbe zu gewinnen oder einen „Schnüffeltest“ durchzuführen, wird es nicht ausreichen, Menschen das KI-Device advert hoc, ohne einen systematischen Plan und Prozess, auszuprobieren, um genügend richtige Informationen zu liefern, um den Produkterfolg zu verallgemeinern.
Wenn wir uns bei der Beurteilung der Ergebnisse eines Projekts auf Stimmungen, „es scheint in Ordnung zu sein“ oder „niemand beschwert sich“ verlassen, ist das sowohl faul als auch ineffektiv. Das Sammeln der Daten, um ein statistisch aussagekräftiges Bild der Projektergebnisse zu erhalten, kann manchmal kostspielig und zeitaufwändig sein, aber die Various besteht darin, pseudowissenschaftliche Vermutungen darüber anzustellen, wie die Dinge funktionierten. Sie können nicht darauf vertrauen, dass die Stichproben oder das freiwillig abgegebene Suggestions wirklich repräsentativ für die umfassenden Erfahrungen sind, die die Menschen machen werden. Menschen machen sich normalerweise nicht die Mühe, uns über ihre guten oder schlechten Erfahrungen zu informieren, daher müssen Sie sie systematisch befragen. Darüber hinaus können Ihre Testfälle für ein LLM-basiertes Device nicht einfach spontan erstellt werden – Sie müssen bestimmen, welche Szenarios Sie interessieren, Checks definieren, die diese erfassen, und sie so oft ausführen, dass Sie sich über die Bandbreite der Ergebnisse sicher sein können. Das Definieren und Ausführen der Checks erfolgt später, aber Sie müssen jetzt Nutzungsszenarien identifizieren und mit der Planung beginnen.
Legen Sie die Torpfosten vor dem Spiel fest
Es ist auch wichtig, über Bewertung und Messung nachzudenken, bevor Sie beginnen, damit Sie und Ihre Groups nicht explizit oder implizit in Versuchung geraten, mit den Zahlen zu spielen. Das Ermitteln Ihrer KPIs nach der Erstellung oder Bereitstellung des Projekts kann natürlich dazu führen, dass Sie Metriken auswählen, die einfacher zu messen, leichter zu erreichen oder beides sind. In der sozialwissenschaftlichen Forschung gibt es ein Konzept, das zwischen dem, was gemessen werden kann, und dem, was tatsächlich zählt, unterscheidet und als „Messvalidität“ bezeichnet wird.
Wenn Sie beispielsweise für eine Forschungsstudie die Gesundheit von Menschen messen und feststellen möchten, ob Ihre Intervention ihre Gesundheit verbessert hat, müssen Sie definieren, was Sie in diesem Zusammenhang unter „Gesundheit“ verstehen, es aufschlüsseln und zahlreiche Messungen der verschiedenen Komponenten vornehmen, die Gesundheit umfasst. Wenn Sie, anstatt all diese Arbeit zu erledigen und Zeit und Geld aufzuwenden, nur Größe und Gewicht messen und den BMI berechnen würden, hätten Sie keine Messgültigkeit. Der BMI magazine, abhängig von Ihrer Sichtweise, einen Zusammenhang mit der Gesundheit haben, ist aber sicherlich kein umfassendes Maß für das Konzept. Gesundheit kann nicht allein anhand des BMI gemessen werden, auch wenn es kostengünstig und einfach ist, die Größe und das Gewicht von Menschen zu ermitteln.
Aus diesem Grund müssen Sie, nachdem Sie herausgefunden haben, was Ihre Erfolgsvision in der Praxis ist, diese formalisieren und Ihre Imaginative and prescient in messbare Ziele aufschlüsseln. Die von Ihnen definierten KPIs müssen später möglicherweise weiter aufgeschlüsselt oder detaillierter gestaltet werden, aber bis die Entwicklungsarbeit zur Erstellung Ihres KI-Instruments beginnt, wird es eine bestimmte Menge an Informationen geben, die Sie nicht kennen können. Bevor Sie beginnen, geben Sie Ihr Bestes, um die Ziele festzulegen, die Sie anstreben, und bleiben Sie dabei.
Denken Sie an das Risiko
Insbesondere beim Einsatz von LLM-basierter Technologie halte ich es für äußerst wichtig, vor dem Begin ein sehr ehrliches Gespräch in Ihrer Organisation über die Risikotoleranz zu führen. Ich empfehle, die Risikobesprechung an den Anfang des Prozesses zu stellen, denn genau wie bei der Definition von Erfolg kann dies zu Denkunterschieden zwischen den am Projekt beteiligten Personen führen und diese Unterschiede müssen gelöst werden, damit ein KI-Projekt fortgesetzt werden kann. Dies kann sogar Einfluss darauf haben, wie Sie Erfolg definieren, und es wirkt sich auch auf die Arten von Checks aus, die Sie später im Prozess erstellen.
LLMs sind nichtdeterministisch, was bedeutet, dass sie bei gleichen Eingaben in verschiedenen Situationen unterschiedlich reagieren können. Für ein Unternehmen bedeutet dies, dass Sie das Risiko in Kauf nehmen, dass die Artwork und Weise, wie ein LLM auf einen bestimmten Enter reagiert, von Zeit zu Zeit neuartig, unerwünscht oder einfach nur seltsam sein kann. Sie können nicht immer mit Sicherheit garantieren, dass sich ein KI-Agent oder LLM so verhält, wie Sie es erwarten. Selbst wenn es sich in 99 von 100 Fällen so verhält, wie Sie es erwarten, müssen Sie herausfinden, welchen Charakter dieser hundertste Fall haben wird, die Fehler- oder Fehlermodi verstehen und entscheiden, ob Sie das damit verbundene Risiko akzeptieren können – dazu gehört die KI-Bewertung.
Abschluss
Mir ist klar, dass sich das nach viel anfühlt. Ich gebe Ihnen eine ganze To-Do-Liste, bevor jemand eine Zeile Code geschrieben hat! Aufgrund des inhärenten nichtdeterministischen Charakters von LLMs, den ich beschrieben habe, ist die Bewertung für KI-Projekte jedoch wichtiger als für viele andere Arten von Softwareprojekten. Die Erstellung eines KI-Projekts, das Mehrwert schafft und das Unternehmen verbessert, erfordert eine genaue Prüfung, Planung und eine ehrliche Selbsteinschätzung darüber, was Sie erreichen möchten und wie Sie mit dem Unerwarteten umgehen. Wenn Sie mit der Erstellung von KI-Bewertungen fortfahren, werden Sie darüber nachdenken, welche Artwork von Problemen auftreten können (Halluzinationen, Missbrauch von Werkzeugen usw.) und wie Sie feststellen können, wann diese auftreten, damit Sie ihre Häufigkeit reduzieren und auf sie vorbereitet sein können, wenn sie auftreten.
Lesen Sie mehr über meine Arbeit unter www.stephaniekirmer.com
