Mit einem riesigen Korpus von Textdaten, in dem sie während ihrer Voraussetzung im Wesentlichen das gesamte Web verbrauchen. LLMs gedeihen, wenn sie Zugriff auf alle relevanten Daten haben, um auf Benutzerfragen angemessen zu antworten. In vielen Fällen begrenzen wir jedoch die Fähigkeiten unserer LLMs, indem wir ihnen nicht genügend Daten bereitstellen. In diesem Artikel werde ich diskutieren, warum Sie sich darum kümmern sollten, unsere LLM -weiteren Daten zu füttern, wie diese Daten abgerufen werden und spezifische Anwendungen.
Ich werde auch mit einer neuen Funktion in meinen Artikeln beginnen: Mein Hauptziel schreiben, was ich mit dem Artikel erreichen möchte und was Sie nach dem Lesen wissen sollten. Wenn er erfolgreich ist, werde ich es in jeden meiner Artikel schreiben:
Mein Ziel Für diesen Artikel soll die Bedeutung der Bereitstellung von LLMs mit relevanten Daten hervorgehoben werden und wie Sie sie für eine verbesserte Leistung in Ihre LLMs einspeisen können

Sie können meine Artikel auch lesen So analysieren und optimieren Sie Ihre LLMs in 3 Schritten Und Dokumentieren Sie die QA mit multimodalen LLMs.
Inhaltsverzeichnis
Warum mehr Daten zu LLMs hinzufügen?
Ich werde meinen Artikel beginnen, indem ich darauf hinweist, warum es wichtig ist. LLMs sind unglaublich datenhungrig, was bedeutet, dass sie viele Daten benötigen, um intestine zu arbeiten. Dies zeigt sich häufig im vor-Coaching-Korpus von LLMs, das aus Billionen von Textual content-Token besteht, die zum Coaching der LLM verwendet werden.
Das Konzept der Verwendung vieler Daten gilt jedoch auch für LLMs während der Inferenzzeit (wenn Sie die LLM in der Produktion verwenden). Sie müssen dem LLM alle erforderlichen Daten zur Beantwortung einer Benutzeranforderung zur Verfügung stellen.
In vielen Fällen reduzieren Sie versehentlich die Leistung des LLM, indem Sie keine relevanten Informationen bereitstellen.
Wenn Sie beispielsweise ein Fragenbeantwortersystem erstellen, in dem Benutzer Dateien hochladen und mit ihnen sprechen können. Natürlich geben Sie den Textinhalt jeder Datei an, damit der Benutzer mit dem Dokument chatten kann. Sie können jedoch zum Beispiel vergessen, das hinzuzufügen Dateinamen der Dokumente zum Kontext, mit dem der Benutzer chatten. Dies wirkt sich auf die Leistung des LLM aus, beispielsweise, wenn einige Informationen nur im Dateinamen vorhanden sind oder der Benutzer auf den Dateinamen im Chat verweist. Einige andere spezifische LLM -Anwendungen, bei denen zusätzliche Daten nützlich sind:
- Einstufung
- Informationsextraktion
- Key phrase -Suche nach Finden relevanter Dokumente, die an LLM gefüttert werden können
Im Relaxation des Artikels werde ich diskutieren, wo Sie solche Daten, Techniken zum Abrufen zusätzlicher Daten und einige spezifische Anwendungsfälle für die Daten finden können.
In diesem Abschnitt werde ich Daten diskutieren, die Sie wahrscheinlich bereits in Ihrer Anwendung zur Verfügung haben. Ein Beispiel ist meine letzte Analogie, bei der Sie ein Fragenbeantwortungssystem für Dateien haben. Vergessen Sie jedoch, den Dateinamen dem Kontext hinzuzufügen. Einige andere Beispiele sind:
- Dateierweiterungen (.pdf, .docx, .xlsx)
- Ordnerpfad (wenn der Benutzer einen Ordner hochgeladen hat)
- Zeitstempel (zum Beispiel, wenn ein Benutzer nach dem neuesten Dokument fragt, ist dies erforderlich)
- Seitenzahlen (der Benutzer kann das LLM bitten, bestimmte Informationen auf Seite 5 zu holen)

Es gibt eine Menge anderer Beispiele für Daten, die Sie wahrscheinlich bereits zur Verfügung haben oder die Sie schnell abholen und in den Kontext Ihrer LLM hinzufügen können.
Die Artwork der verfügbaren Daten, die Sie zur Verfügung haben, variieren stark von der Anwendung bis zur Anwendung. Viele der Beispiele, die ich in diesem Artikel angegeben habe, sind auf textbasierte KI zugeschnitten, da dies der Raum ist, in dem ich die meiste Zeit verbringe. Wenn Sie beispielsweise mehr an visuellen KI- oder Audio-basierten KI arbeiten, fordere ich Sie auf, ähnliche Beispiele in Ihrem Raum zu finden.
Für die visuelle KI könnte es sein:
- Standortdaten dafür, wo das Bild/Video aufgenommen wurde
- Der Dateiname der Bild-/Videodatei
- Der Autor der Bild-/Videodatei
Oder für Audio -KI könnte es sein
- Metadaten darüber, wer spricht, wenn
- Zeitstempel für jeden Satz
- Standortdaten aus dem Ort, an dem das Audio aufgezeichnet wurde
Mein Punkt ist, dass es da draußen eine Vielzahl verfügbarer Daten gibt. Alles, was Sie tun müssen, ist, danach zu suchen und zu überlegen, wie es für Ihre Anwendung nützlich sein kann.
Manchmal reichen die Daten, die Sie bereits zur Verfügung haben, nicht aus. Sie möchten Ihrem LLM noch mehr Daten zur Verfügung stellen, um Fragen angemessen zu beantworten. In diesem Fall müssen Sie zusätzliche Daten abrufen. Da wir uns im Alter von LLMs befinden, verwenden wir natürlich LLMs, um diese Daten abzurufen.
Vorab rufen Informationen ab
Der einfachste Ansatz besteht darin, zusätzliche Daten abzurufen, indem Sie sie vor der Bearbeitung von Dwell -Anfragen abrufen. Für Dokument AI bedeutet dies, spezifische Informationen aus Dokumenten während der Verarbeitung zu extrahieren. Sie könnten das extrahieren Artwork des Dokuments (Rechtsdokument, Steuerdokument oder Verkaufsbroschüre) oder spezifische Informationen, die im Dokument (Daten, Namen, Standorte,…) enthalten sind.
Der Vorteil des Voraussagens der Informationen im Voraus ist:
- Geschwindigkeit (in der Produktion müssen Sie nur den Wert aus Ihrer Datenbank abrufen)
- Sie können die Vorteile nutzen Stapelverarbeitung Kosten senken
Heute ist es ziemlich einfach, diese Artwork von Informationen zu holen. Sie richten ein LLM mit einer bestimmten Systemaufforderung ein, um Informationen abzurufen und die Eingabeaufforderung zusammen mit dem Textual content in die LLM zu füttern. Das LLM verarbeitet dann den Textual content und extrahiert die relevanten Informationen für Sie. Möglicherweise möchten Sie in Betracht ziehen, die Leistung Ihrer Informationsextraktion zu bewerten. In diesem Fall können Sie meinen Artikel über lesen Bewertung von 5 Millionen LLM -Anfragen mit automatisierten Evalen.
Sie möchten wahrscheinlich auch alle Informationen zum Abrufen nachordnen, z. B.:
Wenn Sie diese Liste erstellt haben, können Sie alle Ihre Metadaten abrufen und in der Datenbank speichern.
Der Hauptabnutzung von Informationen im Voraus ist jedoch vorhanden, dass Sie vorbestimmen müssen, welche Informationen extrahieren sollen. Dies ist in vielen Szenarien schwierig. In diesem Fall können Sie Dwell -Informationsabruf durchführen, die ich im nächsten Abschnitt abdecke.
On-Demand-Informationsabruf
Wenn Sie nicht feststellen können, welche Informationen vorher abgerufen werden sollen, können Sie sie bei Bedarf abrufen. Dies bedeutet, eine generische Funktion einzurichten, die einen Datenpunkt zum Extrahieren und den Textual content zum Extrahieren aufnimmt. Zum Beispiel
import json
def retrieve_info(data_point: str, textual content: str) -> str:
immediate = f"""
Extract the next knowledge level from the textual content under and return it in a JSON object.
Knowledge Level: {data_point}
Textual content: {textual content}
Instance JSON Output: {{"consequence": "instance worth"}}
"""
return json.masses(call_llm(immediate))
Sie definieren diese Funktion als Werkzeug, auf das Ihr LLM zugreifen kann und auf die sie aufrufen kann, wenn sie Informationen benötigt. So ist dies im Wesentlichen wie Anthropic hat ihr tiefes Forschungssystem eingerichtetwo sie einen Orchestrator-Agenten erstellen, der Subagenten hervorbringen kann, um zusätzliche Informationen zu holen. Beachten Sie, dass das Erhalten Ihres LLM -Zugriffs für die Verwendung zusätzlicher Eingabeaufforderungen zu viel Token -Nutzung führen kann. Sie sollten additionally auf Ihre LLM -Token -Ausgaben achten.
Bis jetzt habe ich besprochen, warum Sie zusätzliche Daten verwenden sollten und wie Sie sie erhalten. Um den Inhalt dieses Artikels vollständig zu erfassen, werde ich auch spezifische Anwendungen bereitstellen, in denen diese Daten die LLM -Leistung verbessert.
Metadatenfiltersuche

In dieser Abbildung wird hervorgehoben, wie die Suche nach Metadatenfilterung durchgeführt wird, wobei Sie irrelevante Dokumente mithilfe der Metadatenfilterung abfiltern können. Bild von Google Gemini.
Mein erstes Beispiel ist, dass Sie eine Suche mit Metadatenfilterung durchführen können. Bereitstellung von Informationen wie:
- Dateityp (PDF, XLSX, DOCX,…)
- Dateigröße
- Dateiname
Es kann Ihrer Anwendung helfen, relevante Informationen abzurufen. Dies kann beispielsweise Informationen erhalten, die in den Kontext Ihres LLM eingespeist werden können, wie bei der Ausführung von Lappen. Sie können die zusätzlichen Metadaten verwenden, um irrelevante Dateien abzufiltern.
Ein Benutzer hat möglicherweise eine Frage gestellt, die sich nur auf Excel -Dokumente bezieht. Die Verwendung von Lappen zum Abholen von Stücken aus anderen Dateien als Excel -Dokumenten ist daher eine schlechte Verwendung des Kontextfensters des LLM. Sie sollten stattdessen verfügbare Brocken filtern, um nur Excel -Dokumente zu finden, und Stücke aus Excel -Dokumenten verwenden, um die Abfrage des Benutzers am besten zu beantworten. Sie können mehr über den Umgang mit LLM -Kontexten erfahren Mein Artikel über den Aufbau effektiver KI -Agenten.
AI Agent Web -Suche
Ein weiteres Beispiel ist, wenn Sie Ihren AI-Agenten Fragen zur jüngsten Geschichte stellen, die nach dem Cutoff vor dem Coaching für die LLM stattgefunden haben. LLMs verfügt normalerweise über einen Trainingsdatenausschnitt für die Daten vor dem Coaching, da die Daten sorgfältig kuratiert werden müssen, und es ist eine Herausforderung, sie vollständig auf dem neuesten Stand zu halten.
Dies stellt ein Drawback dar, wenn Benutzer beispielsweise Fragen zur jüngsten Geschichte zu jüngsten Ereignissen in den Nachrichten stellen. In diesem Fall benötigt der AI -Agent, der die Abfrage beantwortet, zu Zugriff auf eine Internetsuche (im Wesentlichen Informationen zur Informationsextraktion im Web). Dies ist ein Beispiel für die Informationsextraktion On-Demand.
Abschluss
In diesem Artikel habe ich diskutiert, wie Sie Ihre LLM erheblich verbessern können, indem Sie zusätzliche Daten bereitstellen. Sie können diese Daten entweder in Ihren vorhandenen Metadaten (Dateinamen, Dateigröße, Standortdaten) finden oder die Daten über Informationsextraktion abrufen (Dokumenttyp, in einem Dokument erwähnte Namen usw.). Diese Informationen sind häufig für die Fähigkeit eines LLM von entscheidender Bedeutung, Benutzeranfragen erfolgreich zu beantworten, und in vielen Fällen garantiert das Fehlen dieser Daten im Wesentlichen das Versäumnis des LLM, eine Frage korrekt zu beantworten.
👉 Finden Sie mich in Socials:
✍️ Medium
