Der! Es gab mir gute Antworten und dann fing es gerade an zu halluzinierend. Wir haben es alle gehört oder erlebt.
Modelle für natürliche Sprachgenerierung können manchmal halluzinieren, dh sie generieren Textual content, die für die bereitgestellte Eingabeaufforderung nicht ganz genau sind. In den Laien -Begriffen beginnen sie Sachen machen Das hängt nicht streng mit dem Kontext zusammen, der angegeben ist oder eindeutig ungenau ist. Einige Halluzinationen können verständlich sein, beispielsweise etwas Verwandte, aber nicht genau das fragliche Thema. In anderen Fällen kann es wie legitime Informationen aussehen, aber es ist einfach nicht korrekt, es ist erfunden.
Dies ist eindeutig ein Drawback, wenn wir generative Modelle verwenden, um Aufgaben zu erledigen, und wir beabsichtigen, die Informationen zu konsumieren, die sie generiert haben, um Entscheidungen zu treffen.
Das Drawback hängt nicht unbedingt daran, wie das Modell den Textual content generiert, sondern in den Informationen, die es verwendet, um eine Antwort zu generieren. Sobald Sie eine LLM trainieren, die in den Trainingsdaten codierten Informationen werden kristallisiert, wird sie zu einer statischen Darstellung von allem, was das Modell bis zu diesem Zeitpunkt weiß. Um das Modell zu aktualisieren, wird es aktualisiert Weltanschauung oder seine Wissensbasis muss umgeschrieben werden. Das Coaching von großsprachigen Modellen erfordert jedoch Zeit und Geld.
Eine der Hauptmotivationen für die Entwicklung von Rags.
Wenn man über einen Weg nachdenkt, um generative Modelle auf die Fülle neuer Informationen aufmerksam zu machen, die täglich erstellt wurden, begannen die Forscher, wirksame Möglichkeiten zu untersuchen, um diese Modelle auf dem Laufenden zu halten, für die keine kontinuierlich erneuten Ausdauermodelle erforderlich waren.
Sie kamen auf die Idee für Hybridmodellewas bedeutet, generative Modelle, die eine Möglichkeit haben, externe Informationen zu holen, die die Daten ergänzen können, die die LLM bereits kennt und auf die geschult wurde. Diese Modella verfügen über eine Informationsabrufkomponente, mit der das Modell auf aktuelle Daten zugreifen kann, und die generativen Funktionen, für die sie bereits bekannt sind. Ziel ist es, bei der Erzeugung von Textual content sowohl fließend als auch sachliche Korrektheit zu gewährleisten.
Diese Hybridmodellarchitektur heißt Abrufener Augmented -Era oder Lappen kurz.
Die Lappenzeit
Angesichts der kritischen Notwendigkeit, Modelle in zeitlich und kostengünstiger Weise auf dem Laufenden zu halten, ist Rag zu einer immer beliebteren Architektur geworden.
Sein Abrufmechanismus zieht Informationen aus externen Quellen, die in der LLM nicht codiert sind. Zum Beispiel können Sie Rag in Aktion in der realen Welt sehen, wenn Sie Gemini etwas über die Brooklyn Bridge fragen. Unten sehen Sie die externen Quellen, aus denen sie Informationen abgerufen haben.

Durch die Erde der endgültigen Ausgabe von Informationen, die aus dem Abrufmodul erhalten wurden, ist das Ergebnis dieser generativen AI-Anwendungen weniger wahrscheinlich, dass alle Verzerrungen aus der veralteten Sichtweise der von ihnen verwendeten Trainingsdaten stammen.
Das zweite Stück der Lappenarchitektur ist für uns, Verbraucher, das Generationsmodell am besten. Dies ist in der Regel ein LLM, das die abgerufenen Informationen verarbeitet und menschlichähnlichen Textual content erzeugt.
RAG kombiniert Abrufmechanismen mit generativen Sprachmodellen, um die Genauigkeit von Outputs zu verbessern (1)
In Bezug auf die interne Architektur beruht das Abrufmodul auf dichten Vektoren, um die zu verwendenden Dokumente zu identifizieren, während das generative Modell die typische LLM -Architektur basierend auf Transformatoren verwendet.

Diese Architektur befasst sich mit sehr wichtigen Schmerzpunkten von generativen Modellen, ist jedoch keine Silberkugel. Es kommt auch mit einigen Herausforderungen und Einschränkungen.
Das Abrufmodul kann Schwierigkeiten haben, die aktuellsten Dokumente zu erhalten.
Dieser Teil der Architektur stützt sich stark auf dichte Durchgangsabruf (DPR) (2, 3). Im Vergleich zu anderen Techniken wie BM25, die auf TF-IDF basieren, ist DPR viel besser, um die semantische Ähnlichkeit zwischen Abfrage und Dokumenten zu finden. Es nutzt die semantische Bedeutung, anstatt einfaches Schlüsselwort-Matching ist besonders nützlich für Open-Area wissen Ein bisschen über alles.
DPR hat jedoch auch ihre Mängel. Die dichte Vektordarstellung kann zu irrelevanten oder außerfeiligen Dokumenten führen. DVR -Modelle scheinen Informationen basierend auf Kenntnissen abzurufen, die bereits in ihren Parametern vorhanden sind, dh Fakten müssen bereits codiert sein, um durch Abrufen (2) zugänglich zu sein.
(…) Wenn wir unsere Definition des Abrufens erweitern, um auch die Fähigkeit zu erfassen, Konzepte zu navagieren und aufzuklären, die bisher unbekannt oder uneingeschränkt vom Modell gestoßen sind – eine Fähigkeit, die mit der Artwork und Weise, wie Menschen Informationen erforschen und abrufen – implizieren, dass DVR -Modelle nicht hinter dieser Marke liegen (2)
Um diese Herausforderungen zu mildern, überlegten die Forscher darüber nach, ausgefeiltere Abfragenerweiterung und kontextbezogene Disambiguation hinzuzufügen. Die Abfrageerweiterung ist eine Reihe von Techniken, die die ursprüngliche Benutzerabfrage durch Hinzufügen relevanter Begriffe ändern, um eine Verbindung zwischen der Absicht der Abfrage des Benutzers mit relevanten Dokumenten herzustellen (4).
Es gibt auch Fälle, in denen die Generatives Modul berücksichtigt nicht vollständig in seine Antworten, die in der Abrufphase gesammelten Informationen. Um dies anzugehen, gab es neue Verbesserungen zu Aufmerksamkeits- und hierarchischen Fusionstechniken (5).
Die Modellleistung ist eine wichtige Metrik, insbesondere wenn das Ziel dieser Anwendungen darin besteht, nahtlos Teil unseres täglichen Lebens zu sein und die alltäglichsten Aufgaben quick mühelos zu erledigen. Jedoch, Das Ausführen von Lappen Finish-to-Finish kann rechenintensiv sein. Für jede Abfrage, die der Benutzer macht, muss es einen Schritt zum Abrufen von Informationen und für einen anderen zur Textgenerierung geben. Hier kommen neue Techniken wie Modellschneidemaschine (6) und Wissensdestillation (7) ins Spiel, um sicherzustellen, dass das Gesamtsystem auch mit dem zusätzlichen Schritt der Suche nach aktuellen Informationen außerhalb der geschulten Modelldaten nach wie vor Leistung ist.
Während das Informationsabrufmodul in der Lag-Architektur die Verzerrung durch den Zugriff auf externe Quellen, die aktueller sind, abschwächen sollen als die Daten, auf denen das Modell trainiert wurde. Es kann tatsächlich nicht vollständig die Verzerrung beseitigen. Wenn die externen Quellen nicht sorgfältig ausgewählt werden, können sie weiterhin Verzerrungen hinzufügen oder vorhandene Verzerrungen aus den Trainingsdaten verstärken.
Abschluss
Die Verwendung von Lappen in generativen Anwendungen bietet eine signifikante Verbesserung der Fähigkeit des Modells, auf dem neuesten Stand zu bleiben, und bietet ihren Benutzern genauere Ergebnisse.
Bei domänenspezifischen Anwendungen ist sein Potenzial noch klarer. Mit einem engeren Umfang und einer externen Bibliothek von Dokumenten, die nur auf einen bestimmten Bereich betreffen, können diese Modelle eine effektivere Abrufung neuer Informationen durchführen.
Es ist jedoch weit entfernt von einem gelösten Drawback, dass generative Modelle ständig auf dem neuesten Stand sind.
Technische Herausforderungen wie die Behandlung unstrukturierter Daten oder die Gewährleistung der Modellleistung sind weiterhin aktive Forschungsthemen.
Ich hoffe, Sie haben es genossen, ein bisschen mehr über Rag zu lernen, und die Rolle, die diese Artwork von Architektur bei der Aufrechterhaltung generativer Anwendungen auf dem neuesten Stand spielt, ohne das Modell zu überholen.
Danke fürs Lesen!
- Eine umfassende Übersicht über die Era von Abrufen (RAG): Evolution, aktuelle Landschaft und zukünftige Richtungen. (2024). Shailja Gupta und Rajesh Ranjan und Surya Narayan Singh. (Arxiv)
- Retrieval-Augmented-Era: Ist eine dichte Durchgangsabnahme. (2024). Benjamin Reichman und Larry Heck – (Hyperlink)
- Karpukhin, V., Oguz, B., Min, S., Lewis, P., Wu, L., Edunov, S., Chen, D. & Yih, WT (2020). Dichte Durchgangsabnahme für die Beantwortung von Fragen zur Beantwortung offener Domänen. In Proceedings der Konferenz 2020 über empirische Methoden in der Verarbeitung natürlicher Sprache (EMNLP) (S. 6769-6781). ((Arxiv)
- Hamin Koo und Minseon Kim und Sung Ju Hwang. (2024). Optimierung der Abfragegenerierung für ein verbessertes Dokumentenabruf in Lappen. (Arxiv)
- Izacard, G. & Grave, E. (2021). Nutzung des Passage Abrufs mit generativen Modellen für die Beantwortung offener Domänen. In Proceedings of the 16. Konferenz des Europäischen Kapitels des Vereins für Pc-Linguistik: Hauptvolumen (S. 874-880). (Arxiv)
- Han, S., Pool, J., Tran, J. & Dally, WJ (2015). Lernen sowohl Gewichte als auch Verbindungen für ein effizientes neuronales Netzwerk. In Fortschritten in neuronalen Informationsverarbeitungssystemen (S. 1135-1143). (Arxiv)
- Sanh, V., Debüt, L., Chaumond, J. & Wolf, T. (2019). Distilbert, eine destillierte Model von Bert: kleiner, schneller, billiger und leichter. Arxiv. /abs/1910.01108 (Arxiv)
