ist seit der Einführung von LLMs im Jahr 2022 weit verbreitet. Abrufenvergrößerungssysteme (RAG) -Systeme (Abruf Augmented Technology) wurden schnell an die Verwendung dieser effizienten LLMs für eine bessere Beantwortung von Fragen angepasst. Die AI -Suche ist äußerst leistungsfähig, da der Benutzer einen schnellen Zugriff auf große Informationsmengen ermöglicht. Sie sehen beispielsweise KI -Suchsysteme mit

  • Chatgpt
  • Legale KI, wie z. Harvey
  • Immer wenn Sie eine Google -Suche ausführen und Gemini reagiert

Im Wesentlichen ist Lappen normalerweise das Rückgrat, wo immer Sie eine KI -Suche haben. Die Suche mit KI ist jedoch viel mehr als nur die Verwendung von Lappen.

In diesem Artikel werde ich diskutieren, wie Sie die Suche mit KI durchführen und wie Sie Ihr System sowohl in Bezug auf Qualität als auch Skalierbarkeit skalieren können.

Diese Infografik unterstreicht den Inhalt dieses Artikels. Ich werde Systeme mit KI -Suche, Lappen, Skalierbarkeit und Bewertung im gesamten Artikel diskutieren. Bild von Chatgpt.

Inhaltsverzeichnis

Sie können auch etwas lernen So verbessern Sie Ihren Lappen 50% mit kontextuellem Abrufoder Sie können darüber lesen Gewährleistung der Zuverlässigkeit in LLM -Anwendungen.

Motivation

Meine Motivation zum Schreiben dieses Artikels ist, dass die Suche mit AI schnell zu einem Standardbestandteil unseres Alltags geworden ist. Sie sehen KI -Suche überall, zum Beispiel, wenn Sie etwas googeln, und Gemini gibt Ihnen eine Antwort. Die Verwendung von KI auf diese Weise ist extrem zeitlich effizient, da ich als Individual, die abfragt, keine Hyperlinks eingeben muss und einfach eine zusammengefasste Antwort direkt vor mir habe.

Wenn Sie additionally eine Anwendung aufbauen, ist es wichtig zu wissen, wie man ein solches System aufbaut und seine inneren Funktionen versteht.

Erstellen Sie Ihr KI -Suchsystem

Beim Aufbau Ihres Suchsystems sind mehrere wichtige Aspekte zu berücksichtigen. In diesem Abschnitt werde ich die wichtigsten Aspekte behandeln.

LAPPEN

Diese Abbildung zeigt den Blaupause von Nvidia für RAG unter Verwendung ihrer internen Werkzeuge und Modelle. In der Abbildung gibt es viele Informationen, aber der Hauptpunkt ist, dass der Lappen die wichtigsten Dokumente mit der Vektorähnlichkeit abgerufen und sie an eine LLM füttert, um eine Antwort auf die Frage des Benutzers zu erhalten. Bild von https://github.com/nvidia-ai-blueprints/rag (Apache 2.0 Lizenz)

Zuerst müssen Sie die Grundlagen aufbauen. Die Kernkomponente einer KI -Suche ist normalerweise ein Lappensystem. Der Grund dafür ist, dass RAG eine äußerst effiziente Möglichkeit für den Zugriff auf Daten ist und relativ einfach eingerichtet ist. Im Wesentlichen können Sie mit sehr wenig Aufwand eine ziemlich gute KI -Suche durchführen. Deshalb empfehle ich immer, mit der Implementierung von Lappen zu beginnen.

Sie können Finish-to-Finish-Lag-Anbieter verwenden, z. Elysia; Wenn Sie jedoch mehr Flexibilität wünschen, ist es oft eine gute Choice, eine eigene Lag -Pipeline zu erstellen. Im Wesentlichen besteht Lag aus den folgenden Kernschritten:

  1. Betten Sie alle Ihre Daten ein, damit wir Einbettungs -Ähnlichkeitsberechnungen darauf durchführen können. Wir teilen die Daten in Stücke von festgelegten Größen (z. B. 500 Token).
  2. Wenn ein Benutzer eine Abfrage eingibt, haben wir die Abfrage (mit derselben Einbettungsmotor wie in Schritt 1 verwendet) eingebettet und finden die ähnlichsten Stücke mit Vektorähnlichkeit.
  3. Zuletzt füttern wir diese Brocken zusammen mit der Benutzerfrage in ein LLM wie GPT-4O, was uns eine Antwort gibt.

Und das struggle’s. Wenn Sie dies implementieren, haben Sie bereits eine KI -Suche durchgeführt, die in den meisten Szenarien relativ intestine funktioniert. Wenn Sie jedoch wirklich eine gute Suche durchführen möchten, müssen Sie fortgeschrittenere Rag -Techniken einbeziehen, die Ich werde später in diesem Artikel behandeln.

Skalierbarkeit

Skalierbarkeit ist ein wichtiger Aspekt beim Aufbau Ihres Suchsystems. Ich habe den Skalierbarkeitaspekt in zwei Hauptbereiche unterteilt:

  • Antwortzeit (wie lange der Benutzer auf eine Antwort warten muss) sollte so niedrig wie möglich sein.
  • Verfügbarkeit (der Prozentsatz der Zeit, die Ihre Plattform in Betrieb ist) sollte so hoch wie möglich sein.

Ansprechzeit

Sie müssen sicherstellen, dass Sie schnell auf Benutzeranfragen antworten. Bei einem Standardlag -System ist dies normalerweise kein Drawback, wenn man bedenkt:

  • Ihr Datensatz ist vorher eingebettet (während einer Benutzerabfrage dauert es keine Zeit).
  • Das Einbetten der Benutzerabfrage ist nahezu sofort.
  • Die Durchführung der Vektor -Ähnlichkeitssuche ist ebenfalls nahe (weil die Berechnung sein kann parallelisiert)

Daher ist die LLM -Reaktionszeit normalerweise der entscheidende Faktor dafür, wie schnell Ihr Lappen ausgeführt wird. Um diese Zeit zu minimieren, sollten Sie Folgendes berücksichtigen:

  • Verwenden Sie ein LLM mit einer schnellen Reaktionszeit.
    • Gpt-4o/GPT-4.1 struggle etwas langsamer, aber Openai hat die Geschwindigkeit mit massiv verbessert GPT-5.
    • Der Gemini Flash 2.0 Modelle waren schon immer sehr schnell (die Reaktionszeit hier ist lächerlich schnell).
    • Mistral bietet auch einen schnellen LLM -Service.
  • Implementieren StreamingSie müssen additionally nicht darauf warten, dass alle Ausgangs -Token generiert werden, bevor Sie eine Antwort anzeigen.

Der letzte Punkt beim Streaming ist sehr wichtig. Als Benutzer hasse ich es, auf eine Anwendung zu warten, ohne Suggestions zu dem zu erhalten, was passiert. Stellen Sie sich zum Beispiel vor, darauf zu warten, dass der Cursoragent eine große Anzahl von Änderungen vornimmt, ohne etwas auf dem Bildschirm zu sehen, bevor es fertig ist.

Deshalb ist das Streaming oder zumindest dem Benutzer ein gewisses Suggestions während des Wartens. Ich habe dies in einem Zitat unten zusammengefasst.

Es geht normalerweise nicht um die Antwortzeit als Zahl, sondern um die wahrgenommene Reaktionszeit des Benutzers. Wenn Sie die Wartezeit der Benutzer mit Suggestions füllen, wird der Benutzer die Antwortzeit als schneller wahrgenommen.

Es ist auch wichtig zu berücksichtigen, dass Sie bei der Erweiterung und Verbesserung Ihrer KI -Suche in der Regel weitere Komponenten hinzufügen. Diese Komponenten werden zwangsläufig mehr Zeit in Anspruch nehmen. Sie sollten jedoch immer nach parallelisierten Operationen suchen. Die größte Bedrohung für Ihre Reaktionszeit ist sequentiell Operationenund sie sollten auf ein absolutes Minimal reduziert werden.

Betriebszeit

Die Verfügbarkeit ist auch wichtig, wenn eine KI -Suche gehostet wird. Sie müssen im Wesentlichen jederzeit einen Service in Betrieb haben, was beim Umgang mit unvorhersehbaren LLMs schwierig sein kann. Ich habe einen Artikel über die Gewährleistung der Zuverlässigkeit in LLM -Anwendungen geschrieben. Wenn Sie mehr darüber erfahren möchten, wie Ihre Bewerbung sturdy wird:

Dies sind die wichtigsten Aspekte, die berücksichtigt werden müssen, um eine hohe Verfügbarkeit für Ihren Suchdienst zu gewährleisten:

  • Haben Sie Fehlerbehandlungen für alles, was sich mit LLMs befasst. Wenn Sie Millionen von LLM -Anrufen tätigen, werden die Dinge schief gehen. Es könnte sein
    • OpenAI -Inhaltsfilterung
    • Token -Grenzen (die bei einigen Anbietern notorisch schwer zu erhöhen sind)
    • Der LLM -Dienst ist langsam oder sein Server ist nicht mehr ausgefallen
  • Backups haben. Wo immer Sie einen LLM -Anruf haben, sollten Sie ein oder zwei Sicherungsanbieter einsetzen, wenn etwas schief geht.
  • Richtige Checks vor der Bereitstellung

Auswertung

Wenn Sie ein KI -Suchsystem erstellen, sollten Bewertungen eine Ihrer obersten Prioritäten sein. Es macht keinen Sinn, weiterhin Funktionen zu erstellen, wenn Sie Ihre Suche nicht testen und herausfinden können, wo Sie gedeihen und wo Sie zu kämpfen haben. Ich habe zwei Artikel zu diesem Thema geschrieben: Wie man leistungsstarke interne LLM -Benchmarks entwickelt Und So verwenden Sie LLMs für leistungsstarke automatische Bewertungen.

Zusammenfassend empfehle ich Folgendes, um Ihre KI -Suche zu bewerten und eine hohe Qualität beizubehalten:

  • Integrieren Sie eine schnelle technische Plattform für die Model Ihrer Eingabeaufforderungen, testen Sie, bevor neue Eingabeaufforderungen veröffentlicht werden, und führen Sie groß angelegte Experimente durch.
  • Führen Sie die regelmäßigen Analyse der Benutzeranfragen des letzten Monats durch. Annotate, welche erfolgreich waren, welche fehlgeschlagen sind, zusammen mit einem Grund, warum dies der Fall ist.

Ich würde dann die Anfragen gruppieren, die aus ihrem Grund schief gelaufen sind. Zum Beispiel:

  • Benutzerabsicht struggle unklar
  • Probleme mit dem LLM -Anbieter
  • Der abgerufene Kontext enthielt nicht die erforderlichen Informationen, um die Abfrage zu beantworten.

Und dann beginnen Sie an den dringendsten Problemen zu arbeiten, die die erfolglosen Benutzeranfragen verursachen.

Es gibt eine Vielzahl von Techniken, die Sie verwenden können, um Ihre KI -Suche zu verbessern. In diesem Abschnitt bedecke ich einige von ihnen.

Kontextabruf

Diese Technik wurde zuerst eingeführt von Anthopric im Jahr 2024. Ich habe auch einen umfangreichen Artikel über das Kontextabruf geschrieben Wenn Sie weitere Particulars erfahren möchten.

Die folgende Abbildung zeigt die Pipeline für das Kontextabruf. Was Sie tun, ist, dass Sie die Vektor -Datenbank, die Sie in Ihrem Lappensystem hatten, weiterhin verwalten, aber jetzt enthalten Sie auch einen BM25 -Index (eine Schlüsselwortsuche), um nach relevanten Dokumenten zu suchen. Dies funktioniert intestine, da Benutzer manchmal mit bestimmten Schlüsselwörtern abfragen und BM25 für eine solche Schlüsselwortsuche besser geeignet ist als bei der Suche nach Vektorähnlichkeit.

Diese Abbildung zeigt ein kontextbezogenes Abrufsystem. Sie geben weiterhin die Vektordatenbank aus dem herkömmlichen Lappen ein, fügen jedoch zusätzlich BM25 hinzu, um relevante Dokumente abzurufen. Anschließend kombinieren Sie die abgerufenen Dokumente aus der Vektorähnlichkeit und BM25 und füttern schließlich die Frage und abgerufene Dokumente für eine Antwort in eine LLM. Bild des Autors.

BM25 außerhalb von Lappen

Eine andere Choice ist dem kontextuellen Abruf ziemlich ähnlich. In diesem Fall führen Sie jedoch BM25 außerhalb des Lags durch (im kontextuellen Abruf führen Sie BM25 durch, um die wichtigsten Dokumente für Lappen abzurufen). Dies kann auch eine leistungsstarke Technik sein, wenn man bedenkt, dass Benutzer Ihre KI -Suche manchmal als grundlegende Key phrase -Suche nutzen.

Bei der Implementierung empfehle ich jedoch, einen Router -Agenten zu entwickeln, der erkennt, ob wir RAG oder BM25 direkt verwenden sollten, um die Benutzerabfrage zu beantworten. Wenn Sie mehr über die Erstellung von AI -Router -Agenten erfahren möchten oder im Allgemeinen wirksame Agenten aufbauen möchten. Anthopric hat einen umfangreichen Artikel geschrieben zum Thema.

Agenten

Agenten sind der neueste Hype im LLM -Bereich. Sie sind jedoch nicht nur ein Hype; Sie können auch verwendet werden, um Ihre KI -Suche effektiv zu verbessern. Sie können beispielsweise Subagenten erstellen, die relevantes Materials finden, ähnlich wie das Abrufen relevanter Dokumente mit RAG, aber anstatt einen Agenten selbst durchzuschauen. Dies ist teilweise, wie tiefe Forschungsinstrumente von OpenAI, Gemini und anthropischer Arbeit und eine äußerst effektive (wenn auch teuer) Artwork der KI -Suche sind. Sie können mehr darüber lesen Wie anthropisch seine tiefe Forschung mit Agenten mit Agenten aufgebaut hat.

Abschluss

In diesem Artikel habe ich behandelt, wie Sie Ihre KI -Suchfunktionen erstellen und verbessern können. Ich habe zuerst ausgearbeitet, warum es wichtig ist, zu wissen, wie man solche Anwendungen erstellt und warum Sie sich darauf konzentrieren sollten. Darüber hinaus habe ich hervorgehoben, wie Sie eine effektive KI -Suche mit Primary Rag entwickeln und anschließend mithilfe von Techniken wie dem kontextuellen Abruf sie verbessern können.

👉 Finden Sie mich in Socials:

🧑‍💻 Sich in Verbindung setzen

🔗 LinkedIn

🐦 X / Twitter

✍️ Medium

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert