In diesem Artikel zeige ich Ihnen, wie Sie Ihren eigenen RAG-Datensatz erstellen, der aus Kontexten, Fragen und Antworten aus Dokumenten in einer beliebigen Sprache besteht.
Retrieval-Augmented Technology (RAG) (1) ist eine Technik, die LLMs den Zugriff auf eine externe Wissensdatenbank ermöglicht.
Durch das Hochladen von PDF-Dateien und deren Speicherung in einer Vektordatenbank können wir dieses Wissen über eine Vektorähnlichkeitssuche abrufen und den abgerufenen Textual content dann als zusätzlichen Kontext in die LLM-Eingabeaufforderung einfügen.
Dadurch erhält der LLM neues Wissen und verringert die Möglichkeit, dass der LLM Tatsachen erfindet (Halluzinationen).
Es gibt jedoch viele Parameter, die wir in einer RAG-Pipeline festlegen müssen, und Forscher schlagen ständig neue Verbesserungen vor. Woher wissen wir, welche Parameter wir wählen müssen und welche Methoden die Leistung für unseren speziellen Anwendungsfall wirklich verbessern?
Aus diesem Grund benötigen wir einen Validierungs-/Entwicklungs-/Testdatensatz, um unsere RAG-Pipeline zu bewerten. Der Datensatz sollte aus der Domäne stammen, die uns interessiert …