Wenn ich mit KI-Groups in Unternehmen zusammenarbeite, habe ich viel gesehen: Sie geben quick immer dem Modell die Schuld, wenn etwas schief geht. Das ist verständlich, aber oft auch falsch und am Ende ziemlich kostspielig.

Das übliche Szenario ist wie folgt. Die Ausgaben sind inkonsistent; Wenn jemand es anspricht, ist die erste Reaktion, dem Modell die Schuld zu geben. Möglicherweise sind mehr Trainingsdaten, ein weiterer Feinabstimmungslauf oder ein anderes Basismodell erforderlich. Nach wochenlanger Arbeit bleibt das Drawback dasselbe oder hat sich nur geringfügig geändert. Das eigentliche Drawback, das oft in der Abrufebene, dem Kontextfenster oder der Artwork und Weise, wie Aufgaben weitergeleitet werden, liegt, wurde nie untersucht.

Ich habe es schon so oft erlebt, dass ich glaube, dass es sich lohnt, darüber zu schreiben.

Feinabstimmung ist nützlich, wird aber überstrapaziert

In vielen Fällen lohnt es sich dennoch, ein paar Anpassungen vorzunehmen. Wenn Domänenanpassung, Tonausrichtung oder Sicherheitskalibrierung erforderlich sind, sollte dies Teil des Arbeitsablaufs sein. Ich sage nicht, dass Sie es nicht verwenden sollten.

Das Drawback besteht darin, dass es die automatische Antwort auf jedes Drawback ist, auch wenn es nicht das geeignete Werkzeug ist. Teilweise, weil es sich anfühlt, als wäre es eine produktive Sache. Man beginnt mit der Feinabstimmung, es passiert eindeutig etwas, und es gibt ein Vorher und Nachher. Es scheint, dass Sie das Drawback angehen, obwohl Sie es nicht sind.

Ein Beispiel hierfür ist ein Vertragsanalysesystem, das ich einem Staff beim Debuggen beobachtet habe. Die Ergebnisse waren bei komplexen Dokumenten unzuverlässig und die ursprüngliche Idee struggle, dass es dem Modell an rechtlichen Argumentationsfähigkeiten mangelte. Additionally führten sie mehrere Tuning-Iterationen durch. Das Drawback verschwand nicht. Irgendwann bemerkte jemand, dass die Abrufebene dieselben Abrufe mehrmals durchführte und fügte sie dem Kontextfenster hinzu. Das Modell versuchte, eine Menge Textual content mit geringem Wert zu verarbeiten, der immer wieder wiederholt wurde. Sie passten das Abrufranking an und führten eine Kontextkomprimierung ein, was letztendlich viel besser wurde.

Das Modell selbst wurde nie verändert. Und das kommt ziemlich häufig vor.

Feinabstimmung vs. Inferenzschleife (Bild vom Autor)

Was passiert zur Inferenzzeit?

Lange Zeit struggle Inferenz nur der Schritt, bei dem man das Modell nutzte. Beim Coaching fielen alle interessanten Entscheidungen. Das ändert sich jetzt.

Ein Grund dafür ist, dass einige Modelle begannen mehr Rechenleistung zuweisen an die Technology weiterzugeben, anstatt es in den Trainingsprozess zu integrieren. Ein weiterer Faktor struggle, dass die Forschung gezeigt hat, dass Verhaltensweisen wie die Selbstkontrolle oder das Umschreiben einer Antwort durch verstärkendes Lernen erlernt werden können. Beides deutete darauf hin, dass Inference selbst ein Ort ist, an dem die Leistung verbessert werden könnte.

Was ich jetzt sehe, ist, dass Entwicklungsteams beginnen, Inferenz als etwas zu betrachten, das man tatsächlich entwerfen kann, und nicht nur als einen festen Schritt, den man akzeptiert. Wie viel Argumentationstiefe braucht diese Aufgabe? Wie wird der Speicher verwaltet? Wie wird der Abruf priorisiert? Dies werden eher echte Fragen als Standardvorgaben, über die Sie nicht nachdenken.

Das Drawback der Ressourcenzuteilung

Was oft unterschätzt wird, ist, dass die meisten KI-Systeme für alle ihre Abfragen einen einheitlichen Ansatz verwenden. Eine einzelne Frage zum Kontostatus folgt dem gleichen Prozess wie ein mehrstufiger Compliance-Prozess, bei dem Informationen in mehreren widersprüchlichen Dokumenten abgeglichen werden müssen. Die gleichen Kosten, der gleiche Prozess, die gleiche Rechenleistung.

Wenn man darüber nachdenkt, scheint das wenig Sinn zu ergeben. In allen anderen technischen Anwendungen würden die Ressourcen auf der Grundlage der erforderlichen Arbeit zugewiesen. Einige Groups beginnen, dies mit KI zu tun, indem sie einfachere Schlussfolgerungen auf geringere Arbeitslasten verlagern und umfangreichere Rechenleistungen auf Aufgaben umleiten, die sie wirklich erfordern. Die wirtschaftlichen Aspekte werden besser, und auch die Qualität der schwierigeren Dinge verbessert sich, da nicht mehr zu wenig Ressourcen dafür zur Verfügung stehen.

Diese Systeme sind vielschichtiger, als den Menschen bewusst ist

Wenn man heute einen Blick in ein Produktions-KI-System wirft, ist es meist nicht nur ein Modell, das Fragen beantwortet. Es wird oft von einem Abrufschritt, einem Rating-Schritt, möglicherweise einem Verifizierungsschritt und einem Zusammenfassungsschritt begleitet; Mehrere Schritte hintereinander, um die endgültige Ausgabe zu generieren. Es geht nicht nur um die Leistungsfähigkeit des zugrunde liegenden Modells, sondern auch darum, wie alle diese Teile zusammenpassen, um das Ergebnis zu erzeugen.

Wenn die Retrieval-Ranker nicht ordnungsgemäß kalibriert ist, werden Ergebnisse erzeugt, die Modellfehlern ähneln. Ein Kontextfenster, das ungehindert wachsen kann, wirkt sich auf subtile Weise auf die Qualität der Argumentation aus, aber offensichtlich wird nichts scheitern. Hierbei handelt es sich um Systemprobleme, nicht um Modellprobleme, und sie müssen mit Systemdenken angegangen werden.

Ein Beispiel für diese Artwork des Denkens in der Praxis ist die spekulative Dekodierung. Das Konzept besteht darin, dass ein kleineres Modell Kandidatenausgaben generiert und ein größeres Modell diese überprüft. Es begann als Latenzoptimierung, aber es ist wirklich ein Beispiel dafür, wie man Überlegungen auf mehrere Komponenten verteilt, anstatt zu erwarten, dass ein Modell alles erledigt. Zwei Groups, die dasselbe Basismodell, aber unterschiedliche Inferenzarchitekturen verwenden, können in der Produktion zu recht unterschiedlichen Ergebnissen führen.

Produktions-KI-Inferenzpipeline (Bild vom Autor)

Das Gedächtnis wird zu einem echten Drawback

Größere Kontextfenster waren nützlich, aber ab einem bestimmten Punkt verbessert mehr Kontext die Argumentation nicht mehr. es degradiert es. Der Abruf wird lauter, das Modell verfolgt weniger effektiv und die Inferenzkosten steigen. Die Groups, die KI in großem Maßstab betreiben, verbringen Echtzeit mit Dingen wie Paged Consideration und Kontextkomprimierung, über die man nicht unbedingt reden kann, die aber operativ von großer Bedeutung sind.

Die Idee besteht darin, den richtigen Kontext zu haben, aber nicht zu viel, und ihn intestine zu verwalten.

Wegbringen

Die Modellauswahl ist heute weniger wichtig als früher. Leistungsfähige Basismodelle sind mittlerweile von mehreren Anbietern erhältlich und die Leistungslücken haben sich für die meisten Anwendungsfälle verringert. Was tatsächlich darüber entscheidet, ob eine Bereitstellung erfolgreich ist, ist die Infrastruktur rund um das Modell, wie der Abruf optimiert wird, wie Rechenleistung zugewiesen wird und wie das System Randfälle im Laufe der Zeit behandelt.

Die Groups, die in ein paar Jahren in einer guten Place sein werden, sind diejenigen, die die Inferenzarchitektur als etwas betrachten, das es wert ist, sorgfältig entwickelt zu werden, anstatt davon auszugehen, dass ein ausreichend gutes Modell alles andere regeln wird. Meiner Erfahrung nach ist das normalerweise nicht der Fall.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert