Laut Daten von Google Tendencies hat die Verwendung des Begriffs „KI-Agent“ im letzten Jahr um das Zehnfache zugenommen. Dieser Anstieg spiegelt einen umfassenderen Wandel wider: Menschen und Organisationen wollen immer mehr KI-Systeme die nicht nur Fragen beantworten, sondern auch in ihrem Namen Maßnahmen ergreifen. Von der Vereinfachung alltäglicher Aufgaben bis hin zur Rationalisierung von Geschäftsabläufen erregt das Versprechen von Agentic AI weltweite Aufmerksamkeit.

Trend zu KI-Agenten
Pattern für KI-Agenten im Laufe der Zeit (Bild: Google Tendencies)

Was bedeutet das nun wirklich in der Praxis? Beginnen wir mit einem nachvollziehbaren Szenario, wie KI-Agenten in naher Zukunft alltägliche Aufgaben verändern können. Stellen Sie sich vor, Sie planen einen Urlaub, bei dem Sie Resorts, Flüge und Mietwagen buchen müssen. Heutzutage ist dieser Prozess fragmentiert und zeitaufwändig. In einer Agentic AI-Welt könnten wir jedoch einfach eine einfache Eingabeaufforderung bereitstellen, die maßgeschneiderte Reisepakete mit Reiserouten, Eating places und Buchungen erstellen kann.

Hier ist eine Beispielaufforderung, die in einem solchen Szenario funktionieren würde:

„Ich möchte einen Familienausflug mit zwei Kindern in den Monaten Juni/Juli für ein Wochenende plus 2 Tage buchen. Die 2. und 3. Juniwoche nicht einrechnen. Ich müsste nur zwei Handgepäckstücke mitnehmen und bevorzuge es, das beste lokale Essen zu probieren. Planen Sie eine Reiseroute ein, die nicht länger als 2-3 Stunden Fahrt von der Stadt entfernt ist.“

In diesem Artikel gehen wir über das eigentliche Schlagwort hinaus KI-Agenten. Sie werden zunächst die Grundlagen von KI-Agenten verstehen und dann die Plattformen erkunden, die sie ermöglichen. Abschließend werden wir ein praktisches Projekt erstellen: einen YouTube Summarizer Agent unter Verwendung des Phidata-Frameworks. Am Ende wissen Sie, was Agentic AI ist und wie Sie mit den SOTA-Instruments mit der Erstellung einer solchen beginnen können.

Notiz: Dies ist der erste Artikel einer zweiteiligen Serie über den Aufbau von KI-Agenten von Grund auf. In diesem Artikel werden wir den Wert von KI-Agenten untersuchen, beliebte Agenten-KI-Plattformen vorstellen und ein praktisches Tutorial zum Erstellen eines einfachen KI-Agenten durchgehen. Der nächste Teil der Serie wird mit einem praktischen Tutorial tiefer in die Materie eintauchen. Dort werden wir Agenten erstellen, die Aufgaben automatisieren und mit externen Instruments und APIs interagieren können.

Grundlagen von KI-Agenten

Vereinfacht ausgedrückt sind KI-Agenten Systeme, die Aufgaben autonom ausführen können, indem sie die Daten aus der Umgebung interpretieren. KI-Agenten können auf der Grundlage dieser Daten Entscheidungen treffen, um die Ziele zu erreichen. Betrachten Sie sie als Orchestratoren, die verschiedene Instruments verbinden und Giant Language Fashions (LLM) verwenden, um Aufgaben zu begründen, zu planen und auszuführen. Für eine detaillierte Einführung in LLMs können Sie hier klicken siehe diesen Artikel.

Lassen Sie uns diese Definition anhand des obigen Beispiels für die Urlaubsplanung aufschlüsseln:

  • Aufgaben selbstständig erledigen: Buchen Sie Flug-, Resort- und Mietwagenreservierungen über die jeweiligen Anbieter.
  • Interpretation der Daten: Berücksichtigen Sie Faktoren wie Wetter, Verkehr und lokale Ereignisse, um die besten Aktivitäten vorzuschlagen, die zum Tempo passen.
  • Entscheidungen treffen: Bedenken Sie, dass es Dutzende von Eating places gibt. Agenten können Empfehlungen basierend auf der angegebenen Präferenz und früheren Bewertungen abgeben.
  • Ziele erreichen: Stellen Sie einen Reiseplan zusammen, der den Anforderungen entspricht – Daten, Dauer, Vorlieben und Familienbedürfnisse.

Agentische KI-Plattformen

Ein Agentisches KI-Framework ist ein Toolkit, das die Erstellung von KI-Systemen ermöglicht, die durch Werkzeugnutzung und Gedächtnis autonom oder halbautonom schlussfolgern, planen und Maßnahmen ergreifen können. Kurz gesagt, diese Frameworks stellen die Struktur bereit, die zum Erstellen von Agenten erforderlich ist.

Es gibt mehrere beliebte Agentic AI-Plattformen wie LangChain, CrewAI und Phidata. Für dieses Tutorial verwenden wir Phidata – eine leichte und entwicklerfreundliche Plattform. Phidata bietet integrierten Zugriff auf eine Vielzahl von Instruments und LLMs. Dadurch können wir KI-Agenten mit nur wenigen Codezeilen erstellen und bereitstellen.

integrierte Tools und Modell-Wrapper in Phidata
Beliebte integrierte Instruments und Modell-Wrapper in Phidata (Eine vollständige Liste finden Sie hier – Hyperlinks) Modelle, Werkzeuge.)

Erstellen Sie einen YouTube-Zusammenfassungsagenten

Der YouTube Summarizer Agent wurde entwickelt, um wichtige Erkenntnisse und Hauptpunkte aus jedem YouTube-Video zu extrahieren. Es spart Zeit, indem es prägnante Zusammenfassungen bereitstellt, ohne dass man sich den gesamten Inhalt ansehen muss. Für die Zwecke des Tutorials verwenden wir das Google Colab-Pocket book zum Schreiben und Ausführen des Codes und die Phidata Agentic AI Platform zur Stromversorgung des Agenten.

Modell: Innerhalb Phidatwerden wir die Internet hosting-Plattform des Groq-Modells nutzen. Es handelt sich um einen Inferenzdienst, der LLMs auf einer dedizierten GPU-Infrastruktur ausführt. Beachten Sie, dass es sich von unterscheidet Grokein LLM von xAI. Da LLMs ressourcenintensiv sind, hilft die Verwendung von Groq dabei, Berechnungen von der lokalen {Hardware} oder der von Colab bereitgestellten {Hardware} auszulagern. Dies sorgt für eine schnellere und effizientere Ausführung. Groq hat Zugriff auf mehrere Modelle verschiedener LLM-Anbieter. (sehen vollständige Liste hier)

Werkzeuge: Um YouTube-Videodaten abzurufen, verwenden wir das integrierte Device des Phidata-Frameworks (genannt YouTube-Instruments). Dieses Device hilft uns beim Zugriff auf Videometadaten und Untertitel. Der Agent leitet diese dann an das ausgewählte LLM weiter, um genaue und aufschlussreiche Zusammenfassungen zu erstellen.

Hier ist der Code für einen YouTube-Zusammenfassungsagenten:

from phi.agent import Agent
from phi.mannequin.groq import Groq
from phi.mannequin.openai import OpenAIChat
from phi.instruments.youtube_tools import YouTubeTools


agent = Agent(
    # mannequin=Groq(id="llama3-8b-8192"),
    mannequin=Groq(id="llama-3.3-70b-versatile"),  ## Toggle with completely different LLM mannequin
    instruments=(YouTubeTools()),
    show_tool_calls=True,
    # debug_mode=True,
    description="You're a YouTube agent. Receive the captions of a YouTube video and reply questions.",
)


agent.print_response("Summarize this video https://www.youtube.com/watch?v=vStJoetOxJg", markdown=True, stream=True)

Es folgt die vom YouTube Summarizer-Agent generierte Ausgabe (obiger Code). Der YouTube-Hyperlink im obigen Code ist ein Video von Andrew Ng über die Spezialisierung auf maschinelles Lernen. Wie unten gezeigt, fasst es den Videoinhalt genau zusammen. Beachten Sie, dass die Reaktion aufgrund der probabilistischen Natur von LLMs für jeden Lauf unterschiedlich sein kann.

YouTube-Zusammenfassungsausgabe

Ausführliches Tutorial

Hier finden Sie die Schritt-für-Schritt-Anleitung zum Erstellen des YouTube Summarizer-Agenten.

1. Notizbuch klonen

  • Klonen Sie das Colab-Notizbuch Hier (es ist ein Google-Konto erforderlich)
  • Abhängigkeiten installieren (erste Zelle mit Code)

2. Holen Sie sich den API-Schlüssel für Groq

Um den Agenten ausführen zu können, benötigen wir ein Konto bei Groq, da wir die Internet hosting-Plattform des Groq-Modells verwenden. Führen Sie die folgenden Schritte aus, um sich bei Groq anzumelden/anzumelden und einen API-Schlüssel zu erhalten.

– Besuchen Sie das Groq Developer Portal: Öffnen Sie Ihren Browser und gehen Sie zu: https://console.groq.com

– Registrieren oder anmelden

  • Wenn Sie bereits ein Konto haben, klicken Sie auf Anmelden.
  • Wenn Sie neu sind, klicken Sie auf „Registrieren“ und befolgen Sie die Anweisungen zum Erstellen eines Kontos (möglicherweise müssen Sie Ihre E-Mail-Adresse bestätigen).

– Greifen Sie auf den API-Bereich zu

  • Sobald Sie angemeldet sind, landen Sie auf der Groq-Konsole.
  • Navigieren Sie in der Seitenleiste oder im Dashboard zum Abschnitt „API-Schlüssel“.

– Generieren Sie einen neuen API-Schlüssel

  • Klicken Sie auf die Schaltfläche „API-Schlüssel erstellen“.
  • Geben Sie Ihrem Schlüssel einen Namen (z. B. „Werkstattschlüssel“).
  • Klicken Sie auf Erstellen oder Generieren.

– Kopieren Sie den Schlüssel und bewahren Sie ihn sicher auf

  • Ihr API-Schlüssel wird nur einmal angezeigt – kopieren Sie ihn sofort und bewahren Sie ihn an einem sicheren Ort auf.
  • Legen Sie Ihren API-Schlüssel niemals im clientseitigen Code oder in öffentlichen Repositorys offen.

3. Fügen Sie den API-Schlüssel im Secret Supervisor hinzu

  • Klicken Sie im linken Bereich von Colab auf Secrets and techniques (Schlüsselzeichen).
  • Geben Sie den Namen als GROQ_API_KEY und den Wert als den in Schritt 5 oben kopierten API-Schlüssel an
  • Schalten Sie den Pocket book-Zugriff auf „EIN“.

Abschluss

In diesem Artikel haben wir die steigende Nachfrage nach einem KI-Agenten untersucht und ein Beispiel aus der Praxis gezeigt, wie er alltägliche Aufgaben vereinfachen kann. Wir haben die Grundlagen von KI-Agenten und einigen beliebten Agentic AI Frameworks aufgeschlüsselt. Wir haben auch ein praktisches Projekt erstellt: einen YouTube Summarizer Agent, der von Phidata unterstützt wird.

Das ist erst der Anfang. Im zweiten Artikel dieser Serie werden wir tiefer gehen und einen Studienplaner-Agenten entwickeln, der nicht nur Pläne erstellt, sondern auch Maßnahmen ergreift. Es wird Aufgaben in Jira erstellen, Kalendereinladungen versenden und demonstrieren, wie KI-Agenten nahtlos in externe Instruments und APIs integriert werden können, um reale Arbeitsabläufe zu automatisieren.

Schauen Sie sich hier Teil 2 dieser Serie an – Constructing Examine Planner Agent: KI-Agent-Tutorial Teil 2

Co-Autor des Artikels: Abhishek Agrawal

Praveen ist ein erfahrener Datenwissenschaftler mit über einem Jahrzehnt Erfahrung in der Analytik. Er hat komplexe geschäftliche Herausforderungen gemeistert und Innovationen durch datengesteuerte Entscheidungsfindung vorangetrieben. Sein Fachwissen erstreckt sich über Bereiche wie maschinelles Lernen, Statistik und skalierbare Analysen und half bei der Einführung mehrerer revolutionärer Produkte.

Melden Sie sich an, um weiterzulesen und von Experten kuratierte Inhalte zu genießen.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert