Erstellen Sie mithilfe von LLMs automatisch domänenspezifische Datensätze in jeder Sprache
In diesem Artikel zeige ich Ihnen, wie Sie Ihren eigenen RAG-Datensatz erstellen, der aus Kontexten, Fragen und Antworten aus Dokumenten in einer beliebigen Sprache besteht.
Retrieval-Augmented Technology (RAG) (1) ist eine Technik, die LLMs den Zugriff auf eine externe Wissensdatenbank ermöglicht.
Durch das Hochladen von PDF-Dateien und deren Speicherung in einer Vektordatenbank können wir dieses Wissen über eine Vektorähnlichkeitssuche abrufen und den abgerufenen Textual content dann als zusätzlichen Kontext in die LLM-Eingabeaufforderung einfügen.
Dadurch erhält der LLM neues Wissen und verringert die Möglichkeit, dass der LLM Tatsachen erfindet (Halluzinationen).