In diesem Artikel werden wir untersuchen, warum Modelle mit 128.000 Token (und mehr) die Verwendung von RAG nicht vollständig ersetzen können.
Wir beginnen mit einer kurzen Erinnerung an die Probleme, die mit RAG gelöst werden können, bevor wir uns mit den Verbesserungen bei LLMs und deren Auswirkungen befassen brauchen RAG verwenden.
RAG ist nicht wirklich neu
Die Idee, einen Kontext einzufügen, um einem Sprachmodell Zugriff auf aktuelle Daten zu ermöglichen, ist ziemlich „alt“ (auf LLM-Ebene). Es wurde erstmals vom Fb-KI/Meta-Forscher in diesem Artikel aus dem Jahr 2020 vorgestellt „Retrieval-Augmented Era für wissensintensive NLP-Aufgaben“. Im Vergleich dazu wurde die erste Model von ChatGPT erst im November 2022 veröffentlicht.
In dieser Arbeit unterscheiden sie zwei Arten von Gedächtnis:
- Die parametrisch eins, das dem LLM innewohnt, was es gelernt hat während man während des Trainings mit vielen, vielen Texten gefüttert wird,
- Die nicht parametrisch Eins, das ist der Speicher, den Sie bereitstellen können Einspeisen eines Kontexts in die Eingabeaufforderung.