10 LLM-Engineering-Konzepte in 10 Minuten erklärt
Bild vom Herausgeber

# Einführung

Wenn Sie verstehen möchten, wie LLM-Systeme (Giant Language Mannequin) heute tatsächlich funktionieren, ist es hilfreich, nicht nur an Eingabeaufforderungen zu denken. Bei den meisten realen LLM-Anwendungen handelt es sich nicht nur um eine Aufforderung und eine Antwort. Dabei handelt es sich um Systeme, die den Kontext verwalten, sich mit Instruments verbinden, Daten abrufen und mehrere Schritte hinter den Kulissen abwickeln. Hier findet der Großteil der eigentlichen Arbeit statt. Anstatt sich ausschließlich auf schnelle technische Tips zu konzentrieren, ist es sinnvoller, die Bausteine ​​hinter diesen Systemen zu verstehen. Sobald Sie diese Konzepte verstanden haben, wird klar, warum sich einige LLM-Anwendungen zuverlässig anfühlen und andere nicht. Hier sind 10 wichtige LLM-Engineering-Konzepte, die veranschaulichen, wie moderne Systeme tatsächlich aufgebaut sind.

# 1. Context Engineering verstehen

Beim Context Engineering geht es darum, genau zu entscheiden, was das Modell zu einem bestimmten Zeitpunkt sehen soll. Dies geht über das Schreiben einer guten Aufforderung hinaus; Es umfasst die Verwaltung von Systemanweisungen, Gesprächsverlauf, abgerufenen Dokumenten, Tooldefinitionen, Speicher, Zwischenschritten und Ausführungsspuren. Im Wesentlichen geht es darum, auszuwählen, welche Informationen in welcher Reihenfolge und in welchem ​​Format angezeigt werden sollen. Dies ist oft wichtiger als nur die Formulierung von Prompts, was viele zu der Annahme veranlasst, dass Context Engineering das neue Immediate Engineering ist. Viele LLM-Fehler treten nicht auf, weil die Eingabeaufforderung schlecht ist, sondern weil der Kontext fehlt, veraltet, redundant, schlecht geordnet oder mit Rauschen gesättigt ist. Für einen tieferen Einblick habe ich einen separaten Artikel zu diesem Thema geschrieben: Sanfte Einführung in das Context Engineering in LLMs.

# 2. Device-Aufruf implementieren

Der Toolaufruf ermöglicht es einem Modell, eine externe Funktion aufzurufen, anstatt zu versuchen, eine Antwort ausschließlich aus seinen Trainingsdaten zu generieren. In der Praxis durchsucht ein LLM auf diese Weise das Internet, fragt eine Datenbank ab, führt Code aus, sendet eine API-Anfrage (Software Programming Interface) oder ruft Informationen aus einer Wissensdatenbank ab. In diesem Paradigma generiert das Modell nicht mehr nur Textual content, sondern wählt zwischen Denken, Sprechen und Handeln. Aus diesem Grund ist der Device-Aufruf das Herzstück der meisten LLM-Anwendungen für die Produktion. Viele Praktiker bezeichnen dies als die Funktion, die einen LLM in einen „Agenten“ verwandelt, da er die Fähigkeit erhält, Maßnahmen zu ergreifen.

# 3. Übernahme des Mannequin Context Protocol

Während der Device-Aufruf es einem Modell ermöglicht, eine bestimmte Funktion zu verwenden, ist die Mannequin Context Protocol (MCP) ist ein Normal, der die gemeinsame Nutzung und Wiederverwendung von Instruments, Daten und Arbeitsabläufen über verschiedene Systeme der künstlichen Intelligenz (KI) hinweg wie ein universeller Konnektor ermöglicht. Vor MCP waren für die Integration von N Modellen mit M Instruments möglicherweise N×M benutzerdefinierte Integrationen erforderlich, von denen jede ihr eigenes Fehlerpotenzial birgt. MCP löst dieses Downside, indem es eine konsistente Möglichkeit bietet, Instruments und Daten bereitzustellen, damit jeder KI-Consumer sie nutzen kann. Es entwickelt sich schnell zu einem branchenweiten Normal und dient als Schlüsselelement für den Aufbau zuverlässiger Großsysteme.

# 4. Aktivieren der Agent-zu-Agent-Kommunikation

Im Gegensatz zu MCP, das sich darauf konzentriert, Instruments und Daten auf wiederverwendbare Weise verfügbar zu machen, konzentriert sich die Agent-zu-Agent-Kommunikation (A2A) darauf, wie mehrere Agenten Aktionen koordinieren. Dies ist ein klarer Indikator dafür, dass die LLM-Technik über Einzelagentenanwendungen hinausgeht. Google hat A2A als Protokoll eingeführt, mit dem Agenten sicher kommunizieren, Informationen austauschen und Aktionen über Unternehmenssysteme hinweg koordinieren können. Der Kerngedanke besteht darin, dass viele komplexe Arbeitsabläufe nicht mehr in einen einzigen Assistenten passen. Stattdessen müssen möglicherweise ein Analysis-Agent, ein Planungsagent und ein Ausführungsagent zusammenarbeiten. A2A bietet diesen Interaktionen eine Standardstruktur, sodass Groups keine Advert-hoc-Nachrichtensysteme erfinden müssen. Weitere Einzelheiten finden Sie unter: KI-Agenten bauen? A2A vs. MCP einfach erklärt.

# 5. Nutzung von semantischem Caching

Wenn sich Teile Ihrer Eingabeaufforderung – wie Systemanweisungen, Werkzeugdefinitionen oder stabile Dokumente – nicht ändern, können Sie sie wiederverwenden, anstatt sie erneut an das Modell zu senden. Dies wird als promptes Caching bezeichnet und trägt dazu bei, sowohl Latenz als auch Kosten zu reduzieren. Die Strategie besteht darin, stabile Inhalte zuerst und dynamische Inhalte später zu platzieren und Eingabeaufforderungen als modulare, wiederverwendbare Blöcke zu behandeln. Semantisches Caching geht noch einen Schritt weiter, indem es dem System ermöglicht, frühere Antworten für semantisch ähnliche Fragen wiederzuverwenden. Wenn ein Benutzer beispielsweise eine Frage etwas anders stellt, müssen Sie nicht unbedingt eine neue Antwort generieren. Die größte Herausforderung besteht darin, ein Gleichgewicht zu finden: Wenn die Ähnlichkeitsprüfung zu locker ist, kann es sein, dass Sie eine falsche Antwort zurückgeben. Wenn es zu streng ist, gehen die Effizienzgewinne verloren. Ich habe dazu ein Tutorial geschrieben, das Sie hier finden: Erstellen Sie einen Inferenz-Cache, um Kosten in LLM-Apps mit hohem Datenverkehr zu sparen.

# 6. Verwendung kontextbezogener Komprimierung

Manchmal findet ein Retriever erfolgreich relevante Dokumente, gibt aber viel zu viel Textual content zurück. Auch wenn das Dokument related sein kann, benötigt das Modell oft nur das spezifische Section, das die Benutzeranfrage beantwortet. Wenn Sie einen 20-seitigen Bericht haben, ist die Antwort möglicherweise in nur zwei Absätzen verborgen. Ohne kontextbezogene Komprimierung muss das Modell den gesamten Bericht verarbeiten, was zu mehr Lärm und Kosten führt. Bei der Komprimierung extrahiert das System nur die nützlichen Teile, wodurch die Reaktion schneller und genauer erfolgt. Dies ist ein wichtiges Umfragepapier für diejenigen, die sich eingehend damit befassen möchten: Kontextkomprimierung bei der Retrieval-Augmented Technology für große Sprachmodelle: Eine Umfrage.

# 7. Reranking anwenden

Das Reranking ist eine sekundäre Prüfung, die nach dem ersten Abruf erfolgt. Zunächst ruft ein Retriever eine Gruppe von Kandidatendokumenten ab. Anschließend wertet ein Reranker diese Ergebnisse aus und platziert die relevantesten oben im Kontextfenster. Dieses Konzept ist von entscheidender Bedeutung, da viele RAG-Systeme (Retrieval-Augmented Technology) nicht deshalb scheitern, weil der Abruf nichts gefunden hat, sondern weil die besten Beweise auf einem niedrigeren Rang vergraben wurden, während weniger relevante Teile die Spitze der Eingabeaufforderung belegten. Durch das Reranking wird dieses Sortierproblem behoben, wodurch die Antwortqualität häufig erheblich verbessert wird. Sie können ein Reranking-Modell aus einem Benchmark wie dem auswählen Huge Textual content Embedding Benchmark (MTEB)das Modelle über verschiedene Abruf- und Reranking-Aufgaben hinweg bewertet.

# 8. Implementierung des Hybrid-Retrievals

Hybrid Retrieval ist ein Ansatz, der die Suche durch die Kombination verschiedener Methoden zuverlässiger macht. Anstatt sich ausschließlich auf die semantische Suche zu verlassen, die die Bedeutung durch Einbettungen versteht, kombinieren Sie sie mit Schlüsselwortsuchmethoden wie Finest Matching 25 (BM25). BM25 eignet sich hervorragend zum Auffinden exakter Wörter, Namen oder seltener Bezeichner, die bei der semantischen Suche möglicherweise übersehen werden. Indem Sie beides nutzen, nutzen Sie die Stärken beider Systeme. Ich habe in meiner Forschung ähnliche Probleme untersucht: Modellierung von Abfrageattributen: Verbesserung der Suchrelevanz durch semantische Suche und Metadatenfilterung. Ziel ist es, die Suche intelligenter zu gestalten, indem verschiedene Signale kombiniert werden, anstatt sich auf eine einzige vektorbasierte Methode zu verlassen.

# 9. Entwerfen von Agentenspeicherarchitekturen

Große Verwirrung rund um „Speicher“ entsteht dadurch, dass man es als monolithisches Konzept betrachtet. In modernen Agentensystemen ist es besser, den kurzfristigen Arbeitszustand vom Langzeitgedächtnis zu trennen. Das Kurzzeitgedächtnis stellt dar, was der Agent gerade verwendet, um eine bestimmte Aufgabe zu erledigen. Das Langzeitgedächtnis funktioniert wie eine Datenbank mit gespeicherten Informationen, organisiert nach Schlüsseln oder Namensräumen, und wird nur dann in das Kontextfenster gebracht, wenn es related ist. Das Gedächtnis ist in der KI im Wesentlichen ein Downside des Abrufs und der Zustandsverwaltung. Sie müssen entscheiden, was gespeichert, wie organisiert und wann abgerufen werden soll, um sicherzustellen, dass der Agent effizient bleibt und nicht mit irrelevanten Daten überschwemmt wird.

# 10. Verwalten von Inferenz-Gateways und intelligentem Routing

Beim Inferenz-Routing wird jede Modellanforderung als Verkehrsverwaltungsproblem behandelt. Anstatt jede Anfrage über denselben Pfad zu senden, entscheidet das System basierend auf Benutzeranforderungen, Aufgabenkomplexität und Kostenbeschränkungen, wohin sie weitergeleitet werden soll. Einfache Anfragen werden möglicherweise an ein kleineres, schnelleres Modell weitergeleitet, während komplexe Argumentationsaufgaben an ein leistungsfähigeres Modell weitergeleitet werden. Dies ist für LLM-Anwendungen im großen Maßstab von entscheidender Bedeutung, bei denen Geschwindigkeit und Effizienz ebenso wichtig sind wie Qualität. Effektives Routing sorgt für bessere Reaktionszeiten für Benutzer und eine optimalere Ressourcenzuweisung für den Anbieter.

# Zusammenfassung

Die wichtigste Erkenntnis ist, dass moderne LLM-Anwendungen am besten funktionieren, wenn man in Systemen und nicht nur in Eingabeaufforderungen denkt.

  • Priorisieren Sie zuerst das Kontext-Engineering.
  • Fügen Sie Werkzeuge nur hinzu, wenn das Modell eine Aktion ausführen muss.
  • Verwenden Sie MCP und A2A, um sicherzustellen, dass Ihr System sauber skaliert und verbunden wird.
  • Nutzen Sie Caching, Komprimierung und Reranking, um den Abrufprozess zu optimieren.
  • Behandeln Sie Speicher und Routing als zentrale Designprobleme.

Wenn Sie LLM-Anwendungen durch diese Linse betrachten, wird es viel einfacher, sich in diesem Bereich zurechtzufinden. Echte Fortschritte sind nicht nur in der Entwicklung größerer Modelle zu verzeichnen, sondern auch in den darauf aufbauenden hochentwickelten Systemen. Wenn Sie diese Bausteine ​​beherrschen, denken Sie bereits wie ein spezialisierter LLM-Ingenieur.

Kanwal Mehreen ist ein Ingenieur für maschinelles Lernen und ein technischer Redakteur mit einer großen Leidenschaft für Datenwissenschaft und die Schnittstelle zwischen KI und Medizin. Sie ist Mitautorin des E-Books „Maximizing Productiveness with ChatGPT“. Als Google Technology Scholar 2022 für APAC setzt sie sich für Vielfalt und akademische Exzellenz ein. Sie ist außerdem als Teradata Variety in Tech Scholar, Mitacs Globalink Analysis Scholar und Harvard WeCode Scholar anerkannt. Kanwal ist ein leidenschaftlicher Verfechter von Veränderungen und hat FEMCodes gegründet, um Frauen in MINT-Bereichen zu stärken.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert