
Agentische Workflows sind auf künstlicher Intelligenz basierende Softwaresysteme, die mehrere Modelle und externe Instruments miteinander verketten, um komplizierte Aufgaben wie die Analyse eines Movies und die Beantwortung von Fragen dazu zu bewältigen.
Doch die Artwork und Weise, wie diese stark fragmentierten Systeme entworfen und eingesetzt werden, führt oft zu Ineffizienzen, die zu Rechen-, Energie- und Kostenverschwendung führen können.
Um die Effizienz zu verbessern, haben Forscher vom MIT und Microsoft ein intelligentes System entwickelt, das den Prozess der Gestaltung von Agenten-Workflows rationalisiert und automatisch optimiert, wie diese Workflows implementiert werden.
Mit dieser neuen Methode kann ein Entwickler im Klartext beschreiben, was der Agent-Workflow tun soll, ohne im Voraus alle Particulars seiner Anwendung angeben zu müssen.
Das System ermittelt automatisch die besten zu verwendenden Modelle und Instruments sowie die ideale Hardwarekonfiguration und Rechenressourcenzuweisung, wenn der Workflow von einem Cloud-Anbieter ausgeführt wird.
Es passt diese Konfigurationen im Handumdrehen an die Prioritäten jedes Benutzers an, z. B. Kostenminimierung oder Geschwindigkeitsmaximierung.
Beim Check auf mehreren Agenten-Workloads reduzierte dieses neue System die Anzahl der für die Bereitstellung erforderlichen Recheneinheiten und senkte so den Energiebedarf und die Kosten im Vergleich zu herkömmlichen Ansätzen erheblich, ohne die Leistung zu beeinträchtigen.
„Agentische Arbeitsabläufe werden immer komplizierter und entwickeln sich schnell zum Rückgrat dessen, was Cloud-Anbieter tun. Der Energieverbrauch ist ein großes Downside, deshalb müssen wir sehr vorsichtig sein, wie effizient diese Arbeitsabläufe sind. Es ist sehr leicht, Ressourcen zu stark zuzuweisen und Energie und Geld zu verschwenden. Einen Cloud-Anbieter in die Lage zu versetzen, diese Arbeitsabläufe auf intelligente Weise ressourcenoptimaler zu gestalten, ist ein Gewinn für alle Beteiligten“, sagt Gohar Chaudhry, ein Doktorand der Elektrotechnik und Informatik (EECS) und Hauptautor von a Papier zu diesem System.
Er wird bei dem Artikel von Adam Belay unterstützt, einem außerordentlichen Professor der EECS und Mitglied des MIT Pc Science and Synthetic Intelligence Laboratory; leitender Autor Ricardo Bianchini, technischer Mitarbeiter und Company Vice President bei Microsoft Azure; und andere bei Microsoft Azure. Das Papier wird auf dem USENIX Symposium on Working Methods Design and Implementation vorgestellt.
Ein Konfigurationsrätsel
Ein Agenten-Workflow ist ein System, das aus mehreren autonomen KI-Agenten besteht, die gemeinsam verschiedene Modelle und Instruments wie Datenbanken oder Python-Programme nutzen, um eine mehrstufige Aufgabe wie Datenverarbeitung oder Codegenerierung dynamisch abzuschließen.
Diese Workflows können als Prozesse hinter den Kulissen dienen, die benutzerorientierte Anwendungen unterstützen.
Normalerweise müssen Entwickler alle technischen Entscheidungen im Voraus fest programmieren. Sie müssen definieren, welche KI-Agenten, Modelle und Instruments verwendet werden sollen und in welcher Reihenfolge sie verwendet werden sollen. Sie müssen auch die {Hardware} angeben, die den Workflow ausführt, und wie Kompromisse wie Geschwindigkeit und Kosten in Einklang gebracht werden können.
Dies stellt eine besondere Herausforderung dar, da Agenten-Workflows mehrere Black-Field-Modelle und verschiedene Instruments mit jeweils eigenen Konfigurationsoptionen vereinen, die möglicherweise von verschiedenen Unternehmen angeboten werden.
Wenn ein neues KI-Modell veröffentlicht wird, das die Genauigkeit oder Effizienz der Anwendung verbessern würde, müsste der Entwickler bei der Implementierung bei Null anfangen.
„Selbst wenn Sie das alles manuell erledigen wollten, ist es unwahrscheinlich, dass Sie den Workflow optimum konfigurieren können, weil der Raum für mögliche Konfigurationen so groß ist“, sagt Chaudhry.
Darüber hinaus hat das Cloud-Rechenzentrum, das die Anwendung für Kunden bereitstellt, keinen Einblick in den Workflow, um seine Hardwareressourcen zum Zeitpunkt der Benutzeranfrage auf die effizienteste Weise zuzuweisen.
Mit diesem neuen System namens Murakkab (ein Urdu-Wort, das eine Zusammensetzung von Dingen bedeutet) versuchten die Forscher, den gesamten Agenten-Workflow-Prozess zu optimieren.
Dynamische Entscheidungsfindung
Erstens ermöglicht Murakkab Entwicklern die Erstellung eines Agenten-Workflows, indem sie ihre Absicht für die Anwendung auf allgemeiner Ebene beschreiben, anstatt detailliert zu beschreiben, wie Die vielen Komponenten dieses Workflows sollten kombiniert werden.
Beispielsweise könnte ein Entwickler eine Video-Q&A-Anwendung beschreiben, die Schlüsselbilder extrahiert, ein Transkript generiert und dann Benutzerfragen zum Video beantwortet.
„Es gibt viele Möglichkeiten, dies zu tun, und all diese unterschiedlichen Modelle und Instruments haben Auswirkungen darauf, wie schnell die Anwendung die Aufgabe erledigen kann“, sagt er.
Murakkab übernimmt die unkomplizierten Spezifikationen des Entwicklers und identifiziert automatisch die besten vorhandenen Modelle und Instruments, die in den Workflow integriert werden sollen.
Außerdem wird bestimmt, welche Komponenten nacheinander ausgeführt werden müssen und welche parallel ausgeführt werden können, um die Leistung zu steigern.
„Die Plattform trifft Konfigurationsentscheidungen dynamisch im Laufe der Zeit. Wenn additionally morgen ein neues Modell oder ein neuer GPU-Beschleuniger herauskommt, muss sich der Entwickler darüber keine Sorgen machen“, sagt er.
Wenn der Cloud-Anbieter diese Anwendung für einen Kunden bereitstellt, optimiert Murakkab den Arbeitsablauf, indem es seine Komponenten so konfiguriert, dass sie den Einschränkungen des Benutzers entsprechen, z. B. der Priorisierung der Genauigkeit bei gleichzeitiger Einhaltung einer Latenzanforderung.
Es identifiziert adaptiv die ideale Hardwarezuteilung und Bereitstellungspläne, um die Effizienz in Echtzeit zu maximieren, und generiert dann einen Workflow, der vom Cloud-Anbieter ausgeführt werden kann.
„Unser System bietet Cloud-Anbietern außerdem Einblick in mehrere Arbeitslasten, sodass der Anbieter Rechenressourcen auf die effizienteste Weise teilen und gleichzeitig den Einschränkungen der Benutzer gerecht werden kann“, sagt er.
Bei Exams mit verschiedenen Agenten-Workflows für Video-Fragen und -Antworten und Codegenerierung erfüllte Murakkab die Benutzeranforderungen und verbrauchte dabei nur etwa 35 Prozent der für andere Methoden erforderlichen Berechnungen. Es verbrauchte nur etwa 27 Prozent so viel Energie bei weniger als 25 Prozent der Kosten.
Die dynamische Natur von Murakkab ermöglicht es Benutzern auch, Kompromisse auszugleichen. In einem Fall senkte das System den Energieverbrauch eines Agenten-Workflows um mehr als eine Größenordnung, wobei die Genauigkeit für den Kunden nur um etwa 2 Prozent sank.
Das System konnte außerdem eine unerwartet ideale Konfiguration für ein Modell identifizieren, das Videobilder auswählt und so die Leistung für eine Video-Frage-und-Antwort-Aufgabe optimiert. Diese Artwork der Optimierung wäre für einen Entwickler manuell nahezu unmöglich, sagt Chaudhry.
Als nächstes planen die Forscher, ihr System auf komplexere Arbeitsabläufe und größere Computercluster zu erweitern und gleichzeitig Möglichkeiten zur Optimierung neuer Agentenanwendungen zu erkunden.
„Es gibt viel Potenzial, diese Arbeitsabläufe ressourcenoptimierter zu gestalten, sodass sie weitaus weniger Energie verbrauchen, aber wir müssen darüber auf der Ebene der großen Cloud-Plattformen nachdenken“, sagt Chaudhry.
Diese Forschung wurde teilweise von der Semiconductor Analysis Company und der US Protection Superior Analysis Initiatives Company unterstützt.
