Erstellen Sie mithilfe von LLMs automatisch domänenspezifische Datensätze in jeder Sprache

Die HuggingFace-Datensatzkarte zeigt einen Beispiel-RAG-Bewertungsdatensatz, den wir generiert haben.
Unser automatisch generierter RAG-Bewertungsdatensatz auf dem Hugging Face Hub (PDF-Eingabedatei von der Europäischen Union lizenziert unter CC BY 4.0). Bild vom Autor

In diesem Artikel zeige ich Ihnen, wie Sie Ihren eigenen RAG-Datensatz erstellen, der aus Kontexten, Fragen und Antworten aus Dokumenten in einer beliebigen Sprache besteht.

Retrieval-Augmented Technology (RAG) (1) ist eine Technik, die LLMs den Zugriff auf eine externe Wissensdatenbank ermöglicht.

Durch das Hochladen von PDF-Dateien und deren Speicherung in einer Vektordatenbank können wir dieses Wissen über eine Vektorähnlichkeitssuche abrufen und den abgerufenen Textual content dann als zusätzlichen Kontext in die LLM-Eingabeaufforderung einfügen.

Dadurch erhält der LLM neues Wissen und verringert die Möglichkeit, dass der LLM Tatsachen erfindet (Halluzinationen).

Ein Überblick über die RAG-Pipeline. Für die Dokumentenspeicherung: Eingabedokumente -> Textblöcke -> Encodermodell -> Vektordatenbank. Für LLM-Eingabeaufforderung: Benutzerfrage -> Encoder-Modell -> Vektordatenbank -> Prime-Okay-relevante Chunks -> Generator-LLM-Modell. Der LLM beantwortet die Frage dann mit dem abgerufenen Kontext.“ class=“bh mt nz c“ width=“700″ peak=“608″ loading=“lazy“/></picture></div><figcaption class=Die grundlegende RAG-Pipeline. Bild des Autors aus dem Artikel „So erstellen Sie mit RAG einen lokalen Open-Supply-LLM-Chatbot“

Es gibt jedoch viele Parameter, die wir in einer RAG-Pipeline festlegen müssen, und Forscher schlagen ständig neue Verbesserungen vor. Woher wissen wir, welche Parameter wir wählen müssen und welche Methoden die Leistung für unseren speziellen Anwendungsfall wirklich verbessern?

Aus diesem Grund benötigen wir einen Validierungs-/Entwicklungs-/Testdatensatz, um unsere RAG-Pipeline zu bewerten. Der Datensatz sollte aus der Domäne stammen, die uns interessiert …

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert