Die ungelehrten Lektionen des RAG-Retrievals: Kosinus ist nicht die Grundlage


Begleiter zu Enterprise Doc Intelligencedie Serie, deren Philosophie in dargelegt ist Stärken Sie den Experten. Es zoomt heran Stein 3 (Abruf) der Vier-Stein-Architektur und der Oberflächen sind die Lektionen, die in den meisten Tutorials übersprungen werden.

Die Mainstream-Geschichte hat Retrieval als Betten Sie die Frage ein, geben Sie top-k per Kosinus zurück und ordnen Sie sie optionally available neu. Wir sind mit quick jedem Teil davon nicht einverstanden. Abruf ist Filtern nach strukturierten Tabellenkeine Suche nach Freitext. Einbettungen sind der optionale Fallback, nicht die Grundlage. Anker und Kontext sind zwei Granularitäten, nicht eine. Jede dieser Positionen ist eine Place, die wir verteidigen können, mit absehbaren Konsequenzen.

Wo dieser Artikel in der Reihe steht: Ziegelstein 7 (Abruf) hervorgehoben – Bild vom Autor

📓 Ausführbare Begleit-Notebooks finden Sie auf GitHub: doc-intel/notebooks-vol1.

Das öffentliche Companion-Code-Repo unter doc-intel/notebooks-vol1 – Bild vom Autor

Die naive Grundlinie, auf die dieser Artikel zurückgreift

Der architektonische Kontrast: ein einzelnes Kosinussignal über Chunks im Vergleich zu drei Signalen parallel auf strukturierten Tabellen – Bild vom Autor

Die naive Pipeline zerlegt das Dokument in Stücke, bettet jeden Teil ein, bettet die Frage ein und ordnet sie nach dem Kosinus. Dieses einzelne Sign ist undurchsichtig und zerstört die Struktur des Dokuments. Wir behalten das Dokument als line_df + toc_df und lassen Sie drei Abrufsignale parallel laufen (Schlüsselwort auf Zeilen, TOC-Argumentation, Einbettungskosinus), und lassen Sie dann einen LLM-Arbiter am Ende einmal rangieren, wobei alle drei Treffermengen im Blick sind.

Schlüsselwörter werden immer ausgeführt, das Inhaltsverzeichnis immer Begründungen, Einbettungen werden nur ausgelöst, wenn das Vokabular nicht übereinstimmt – Bild vom Autor

Nachfolgend sind die sechs ungelehrten Lektionen dieses Bausteins aufgeführt.

Lektion 1 – Beim Abrufen handelt es sich um Filtern, nicht um Suchen

Sobald das Parsen abgeschlossen ist, ist das Abrufen mit einem SQL-ähnlichen Filterproblem erledigt line_df Und toc_dfdie Umkehrung des Chunk-Embed-Cosine-High-Okay-Frameworks. Der Wechsel ist einfach zu erklären: Die Frage hat Spalten, das Dokument hat Spalten und der Abruf ist der Be a part of.

Warum es wichtig ist. Suchen Und Filter sind keine Synonyme, die beiden Operationen haben unterschiedliche Mechanismen. Suchen Bewertet jeden Kandidaten anhand einer kontinuierlichen Ähnlichkeit (cosine , BM25), erzwingt a top-k Cutoff und gibt immer etwas zurück, auch wenn die Antwort nicht im Dokument enthalten ist. Filter wendet eine boolesche Bedingung an (line.accommodates("X") , toc.title in (...)), behält jede Zeile, die übereinstimmt, und nicht mehr, und kann zurückkehren null Zeilen, wenn das Dokument die Antwort nicht enthält. Die Audit-Konsequenz ist der größte Teil der Lücke: Der Zustand eines Filters ist eine Zeile überprüfbaren Codes, der in sechs Monaten auf die gleiche Weise ausgeführt wird; Das Rating einer Suche hängt davon ab, welche Dimensionen der Einbettung wichtig sind, und Sie können dieses Urteil nicht wiederholen, ohne das Modell erneut auszuführen.

Konkreter Kontrast. Der Benutzer fragt „Welche Positionskodierung verwendet das Papier?“. Naive RAG bettet die Frage ein, bewertet mehr als 300 Blöcke und gibt die High 5 zurück. Filter der Serie RAG line_df wo die Zeile enthält "positional encoding" (4 Treffer), Filter toc_df wo der Abschnittstitel enthält "positional" (1 Abschnitt, 3.5 Positionskodierung), und der Schiedsrichter sieht beides, Anker: die Linie; Geltungsbereich: der Abschnitt. Kein Kosinus erforderlich.

Artikel 7A: Beim Abrufen handelt es sich um eine Filterung, nicht um eine Suche legt das mentale Modell dar.

Lektion 2 – Anker und Kontext, getrennt gehalten

Sie verankern sich in der einzelnen Zeile, in der „premium“ (präzise) erwähnt wird, übergeben aber den gesamten umgebenden Abschnitt an era (ausreichender Kontext); Wenn man sie zusammenführt, werden Präzision und Deckung in einem Zug beeinträchtigt. High-k zwingt Sie zur Auswahl: Kleine Teile verlieren den Kontext, große Teile verlieren die Präzision. Wir bekommen beides, indem wir sie auseinanderhalten.

Konkreter Kontrast. Bei einer Definitionsfrage ist der Anker die eine Zeile ( "the deductible is the quantity the insured pays earlier than protection begins" ), der Geltungsbereich ist der Absatz um ihn herum (drei Kontextsätze, die der LLM benötigt, um die Antwort zu formulieren). Naive top-k gibt entweder die Zeile (kein Kontext) oder den Absatz (Anker unklar) zurück. Rückgabe von Serienabrufen Anker + Umfang als typisiertes Paar.

Artikel 7A: Beim Abrufen handelt es sich um eine Filterung, nicht um eine Suche zieht die Grenze zwischen Anker und Kontext.

Lektion 3 – Einbettungen kommen an letzter Stelle, nicht an erster Stelle

Schlüsselwörter werden immer ausgeführt (billig, deterministisch); Das eigene Inhaltsverzeichnis des Dokuments ist eine erstklassige Retrieval-Methode. Einbettungen sind das optionale Endsignal, nur wenn eine Nichtübereinstimmung des Wortschatzes zu erwarten ist. Der Reflex der Ära 2024 beginnt mit Einbettungen; Wir belassen sie für die Fälle, in denen die billigeren Signale ausgefallen sind.

Konkreter Kontrast. Eine sachliche Recherche zur Versicherungspolice: „Datum des Inkrafttretens?“. Naive RAG bettet ein und gibt 5 Chunks zurück. Serie läuft Schlüsselwort weiter "efficient" Und "date" → 1 Zeile gefunden → erledigt. Einbettungen wurden nie ausgeführt. Kosten: ein regulärer Ausdruck line_df; ein paar Millisekunden. Die 2-Cent-Cosinus-Suche fand nicht statt.

Artikel 7B: Die richtigen Anker finden baut die Drei-Sign-Pipeline auf.

Lektion 4 – Schlüsselwörter beweisen Abwesenheit; Einbettungen können nicht

Eine Null bei der Stichwortsuche bedeutet, dass die Antwort tatsächlich nicht vorhanden ist; Eine Null bei der Einbettung von Ähnlichkeit könnte Abwesenheit oder einfach nur unterschiedliche Wörter sein, Einbettungen sind additionally eine Verfeinerung und kein Entscheidungspunkt. Diese Asymmetrie gilt für Schlüsselwörter als primäres Sign in Unternehmens-RAG.

Konkreter Kontrast. Der Benutzer fragt „Deckt dieser Vertrag Erdbebenschäden ab?“ auf einer Nur-Überschwemmungs-Politik. Stichwortsuche nach "earthquake" gibt null Übereinstimmungen zurück line_df . Die Pipeline kann versendet werden answer_found = False selbstbewusst. Das Einbetten des Kosinus ergibt 5 Blöcke (die thematisch am nächsten stehenden Zeilen). Naturkatastrophen ) und der LLM könnte, wenn er sie sieht, auf ein falsches Ja schließen. Schlüsselwörter haben den Tag gerettet.

Artikel 7B: Die richtigen Anker finden erklärt die Schlüsselwort-First-Disziplin.

Lektion 5 – Kookkurrenz schlägt BM25 bei schmalen Korpora

BM25 rangiert nach Begriffshäufigkeit, aber die Enterprise-Antwortform besteht aus einer Erwähnung eines Themas neben einem bestimmten Wert, sodass Kookkurrenz-Boosts und hochwertige Regex-Anker die statistische IDF bei engen Korpora übertreffen. Die IDF-Annahmen stimmen nicht mit einem Korpus aus 20 Dokumenten überein, in dem jeder Begriff nach Wikipedia-Requirements „selten“ ist.

Konkreter Kontrast. Die Frage ist „Wie hoch ist der abzugsfähige Betrag?“. BM25 rangiert nach Häufigkeit von "deductible"; Die Zeile, die zwölfmal in einem Glossarabschnitt vorkommt, steht an erster Stelle. Die Suche nach Kookkurrenz ordnet Zeilen, die enthalten beide "deductible" und eine Zahl; die eigentliche Politiklinie ( "the deductible is $1000" ) steht an erster Stelle, weil es gemeinsam mit auftritt $1000 und der LLM kann den Wert sauber extrahieren.

Artikel 7B: Die richtigen Anker finden misst das gleichzeitige Auftreten von BM25.

Lektion 6 – Ein LLM-Durchgang über das Inhaltsverzeichnis

Übergabe der Reihe 20-100 toc_df Einem kleinen Modell zuzuordnen und zu fragen, welche Abschnitte die Frage beantworten, kostet einen zwischengespeicherten Aufruf und fängt die Paraphrasen („frühzeitig verlassen“ ≈ „Beendigung“) bei der Schlüsselwortübereinstimmung ab.

TOC-Argumentation ist eines der am wenigsten genutzten Abrufsignale in der Produktions-RAG.

Konkreter Kontrast. Der Benutzer fragt „Wann kann ich die Police vorzeitig verlassen?“. Teilstring-Übereinstimmung aktiviert "depart" gibt null TOC-Einträge zurück. Ein LLM-Aufruf für den gesamten TOC-Rückgabeabschnitt (28 Zeilen, passt in eine einzelne kleine Eingabeaufforderung). „Kündigung und Stornierung“die richtige Umschreibung. Ein zwischengespeicherter LLM-Aufruf, danach deterministisch, und der richtige Anker.

Artikel 7B Gründe über das Inhaltsverzeichnis und Artikel 7C: Ein LLM als Schiedsrichter fügt der Schiedsrichter hinzu.

Den sechs Lektionen ist ein einziger Schritt gemeinsam: Verzichten Sie auf den Chunk-Embed-Cosine-Reflex und behandeln Sie das Abrufen stattdessen als Filterung auf strukturierten Tabellen. Schlüsselwörter werden immer ausgeführt, weil sie Abwesenheit beweisen; Das Inhaltsverzeichnis ist ein erstklassiges Sign, da das Dokument seine Struktur bereits deklariert hat. Einbettungen sind die optionale Verfeinerung, nicht die Grundlage. Die Deep-Dives (7A, 7B, 7C, 7bis) liefern ausführbaren Code auf echten Dokumenten; Dieses Stück ist der Katalog, der auf sie verweist.

Branchen- und berufsübergreifend

Das gleiche Drei-Sign-Abrufmuster (Schlüsselwort on line_df + Argumentation weiter toc_df + Einbettung von Fallback) gilt in jeder Area. Der Wortschatz und die TOC-Tiefe sind unterschiedlich; die Signalhierarchie nicht. Fünf Sektoren unten, ein Abrufmuster, eine Prüfverfolgung professional Anruf.

Einbettungen erfolgen nur in der medizinischen Zeile, wenn das Vokabular vom Dokument abweicht – Bild vom Autor

Einbettungen werden nur in der medizinischen Zeile ausgelöst, in der das Vokabular des Benutzers ( „Tachykardie“ ) weicht von der des Dokuments ab ( „schnelle Herzfrequenz“ ). Die anderen vier Zeilen werden vollständig nach Schlüsselwort + Inhaltsverzeichnis aufgelöst. Schlüsselwörter beweisen Abwesenheit (Lektion 4), das Inhaltsverzeichnis fängt Paraphrasen auf (Lektion 6) und die Aufteilung zwischen Anker und Geltungsbereich hält Präzision und Kontext in jeder Zeile auseinander (Lektion 2). Der Kostengradient ist actual: Die vier nach Schlüsselwörtern aufgelösten Zeilen werden in Millisekunden mit null LLM-Tokens ausgeführt; Die medizinische Reihe zahlt für einen Einbettungsdurchgang und einen Schiedsrichteranruf.

Quellen und weiterführende Literatur

Die Mainstream-Literatur zum Thema Retrieval ist geprägt von webbasierter Suche und kürzeren Verbraucherkorpora. Der Serienansatz geht von einem Kleinunternehmenskorpus aus, dessen Struktur bekannt ist und das Vokabular den Trumpf darstellt.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert