Einführung
Stellen Sie sich vor, Sie suchen in einer Buchhandlung nach dem perfekten Buch. Sie möchten Empfehlungen, die nicht nur Ihrem Lieblingsgenre entsprechen, sondern auch abwechslungsreich genug sind, um Ihnen neue Autoren vorzustellen. Retrieval-Augmented Technology Systeme funktionieren ähnlich, indem sie die Stärken des Findens relevanter Informationen und des Generierens kreativer Antworten kombinieren. Um zu messen, wie intestine diese Systeme funktionieren, verwenden wir Kennzahlen wie die Trefferquote, die prüft, wie oft die richtigen Empfehlungen angezeigt werden, und den mittleren reziproken Rang (MRR), der die Reihenfolge dieser Empfehlungen untersucht. Die maximale marginale Relevanz (MMR) hilft sicherzustellen, dass die Vorschläge sowohl related als auch vielfältig sind. Durch die Verwendung dieser Kennzahlen können wir sicherstellen, dass die Empfehlungen nicht nur genau, sondern auch vielfältig und interessant sind.
Überblick
- Erhalten Sie Einblick in Trefferquote, MMR und ihre Rolle bei der Bewertung Retrieval-Augmented Technology (RAG)-Systeme.
- Erfahren Sie, wie Sie mithilfe der maximalen Randrelevanz Relevanz und Vielfalt in den abgerufenen Ergebnissen ausbalancieren.
- Beherrschen Sie die Berechnung der Trefferquote und des mittleren reziproken Rangs (MRR) zur Beurteilung der Effektivität der Informationsbeschaffung.
- Entwickeln Sie Fähigkeiten zur Analyse und Verbesserung von RAG-Systemen anhand verschiedener Leistungskennzahlen.
Wie hoch ist die Trefferquote?
Die Trefferquote ist eines der Maße, mit denen beurteilt wird, wie intestine Empfehlungssysteme funktionieren. Gemessen wird die Häufigkeit des Auftretens des gewünschten Artikels in den High-N-Empfehlungen. Im Rahmen von RAG bezeichnet die Trefferquote die Häufigkeit, mit der relevante Daten erfolgreich in die erstellte Ausgabe aufgenommen werden.
Wie berechnet man die Trefferquote?
Zur Berechnung der Trefferquote wird die Gesamtzahl der Abfragen durch die Häufigkeit geteilt, mit der das betreffende Ingredient in den High-N-Empfehlungen vorkommt. Mathematisch ausgedrückt lautet dies:
Lassen Sie uns das anhand eines Beispiels besser verstehen. Wir haben drei Abfragen Q1, Q2, Q3. Wir kennen auch den genauen Knoten, der für diese Abfragen ausgewählt werden soll. Die tatsächlichen Knoten für diese Abfragen sind N1, N2, N3. Wenn wir diese Abfragen senden, erhalten wir nun Knoten von unserem Retriever. Die abgerufenen Knoten für diese Abfragen sind wie unten aufgeführt:
Wir können sehen, dass unser Retriever den richtigen Knoten für Q1 und Q2 abgerufen hat. Bei Q3 warfare die Leistung nicht intestine. Daher beträgt die Trefferquote 1 für Q1, Q2 und 0 für Q3. Mithilfe unserer Formel können wir die Trefferquote berechnen:
Nachdem wir nun die Trefferquote als Bewertungsmaßstab kennen, werden wir uns nun die Herausforderungen ansehen, die sich bei der Verwendung der Trefferquote als Bewertungsmaßstab ergeben.
Herausforderung mit Trefferquote
Die größte Herausforderung bei der Verwendung der Trefferquote als Bewertungsmaßstab besteht darin, dass die Place des abgerufenen Knotens nicht berücksichtigt wird. Um dies besser zu verstehen, sehen wir uns ein Beispiel an. Nehmen wir an, wir haben zwei Abrufer – Abrufer 1 und Abrufer 2. Und das folgende Bild zeigt die von beiden Abrufern abgerufenen Knoten.
Aus dem obigen Bild können wir erkennen, dass beide Retriever den richtigen Knoten für Q1 und Q2 abgerufen haben, aber nicht für Q3. Daher erzielen beide die gleiche Trefferquote.
Bei genauerer Betrachtung können wir jedoch feststellen, dass Retriever 1 den richtigen Knoten von Q1 an Place drei und Retriever 2 den richtigen Knoten von Q1 an Place eins abgerufen hat. Daher sollte Retriever 2 eine höhere Punktzahl als Retriever 1 erhalten, aber die Trefferquote berücksichtigt nicht die Place der abgerufenen Knoten. Hier kommt nun die neue Metrik MRR (Imply Reciprocal Rank) ins Spiel.
Mittlerer reziproker Rang (MRR)
Eine statistische Kennzahl zur Bewertung der Wirksamkeit eines Informationsabrufsystems ist der Imply Reciprocal Rank (MRR). Er ist besonders hilfreich in Situationen, in denen eine Abfrage vom System beantwortet wird, indem es eine Rangliste von Dingen (wie Dokumenten oder Antworten) zurückgibt. MRR wird verwendet, um die Abrufkomponente der Systemleistung beim Abrufen relevanter Dokumente zu bewerten, die die Entwicklung genauer und relevanter Antworten im Rahmen der Retrieval-Augmented Improvement (RAG) erleichtern.
Wie berechnet man MRR?
N: Anzahl der Abfragen, Rangi ist die Rangposition des ersten relevanten Dokuments für die i-te Abfrage.
Sehen wir uns ein Beispiel für MRR an.
Im obigen Bild sehen wir, dass der MRR für Q1 ⅓ beträgt, da der korrekt abgerufene Knoten an dritter Stelle steht. Daher wird der MRR wie folgt berechnet:
Wir können sehen, dass die Trefferquote zwar 66,66 % beträgt, der MRR jedoch immer noch bei 44,4 % liegt und dass Abrufer, die die richtigen Knoten an den Startpositionen abrufen, mehr Gewicht erhalten.
Maximale marginale Relevanz (MMR)
Most Marginal Relevance (MMR) ordnet Ergebnisse neu, um sowohl ihre Relevanz als auch ihre Vielfalt zu verbessern. Um zu gewährleisten, dass die zurückgegebenen Elemente sowohl related als auch ausreichend vielfältig sind, um alle Facetten der Abfrage abzudecken, versucht MMR, ein Gleichgewicht zwischen Neuheit und Relevanz zu finden.
Wie berechnet man MMR?
Dabei ist D die Menge aller Kandidatendokumente, R die Menge der bereits ausgewählten Dokumente, q die Abfrage, Sim1 die Ähnlichkeitsfunktion zwischen einem Dokument und der Abfrage und Sim2 die Ähnlichkeitsfunktion zwischen zwei Dokumenten. di und dj sind Dokumente in D bzw. R.
Der Parameter λ (mmr_threshold) steuert den Kompromiss zwischen Relevanz (erster Begriff) und Vielfalt (zweiter Begriff). Wenn der mmr_threshold nahe bei 1 liegt, priorisiert das System die Relevanz; wenn er nahe bei 0 liegt, priorisiert es die Vielfalt.
Schauen wir uns ein einfaches Beispiel an, das MMR veranschaulicht. Wir verwenden dasselbe Beispiel wie bei der Trefferquote, um zu demonstrieren, wie MMR die abgerufenen Knoten neu einstuft.
Um mit MMR fortzufahren, nehmen wir einige Variablen wie den Relevanz-Rating an:
- Rel(N2,Q1)=0,7
- Rel(N3,Q1)=0,6
- Rel(N1,Q1)=0,9
- Rel(N3,Q2)=0,9
- Rel(N5,Q2)=0,3
- Rel(N1,Q2)=0,6
- Rel(N1,Q3)=0,8
- Rel(N2,Q3)=0,5
- Rel(N4,Q3)=0,4
Ähnlichkeitsbewertung:
- Sim(N2,N3)=0,2
- Sim(N2,N1)=0,5
- Sim(N3,N1)=0,3
- Sim(N3,N5)=0,4
- Sim(N5,N1)=0,6
- Sim(N1,N2)=0,3
- Sim(N1,N4)=0,4
- Sim(N2,N4)=0,5
Der Einfachheit halber setzen wir λ=0,5lambda = 0,5λ=0,5, um Relevanz und Diversität gleich zu gewichten.
Berechnung des MMR
Die maximale marginale Relevanz (MMR) wird berechnet, indem die abgerufenen Dokumente neu eingestuft werden, um Relevanz und Vielfalt auszugleichen und so eine relevante und abwechslungsreiche Ergebnisliste sicherzustellen.
Für Q1:
- Anfänglich abgerufene Knoten: (N2, N3, N1)
- Erste Auswahl basierend auf der höchsten Relevanz: N1 (Rel = 0,9)
- Als nächstes berechnen wir den MMR für die verbleibenden Knoten (N2 und N3):
- MMR(N2)=0,5×0,7−0,5×max(0,5,0,2)=0,1
- MMR(N3)=0,5×0,6−0,5×max(0,3,0,2)=0,15
- Wählen Sie als Nächstes N3 aus, da es den höheren MMR-Rating hat.
- Es bleibt nur N2 übrig.
Endgültige Reihenfolge für Q1: (N1,N3,N2)
Für Q2:
- Ursprünglich abgerufene Knoten: (N3, N5, N1)
- Erste Auswahl basierend auf der höchsten Relevanz: N3 (Rel = 0,9)
- Als nächstes berechnen wir den MMR für die verbleibenden Knoten (N5 und N1):
- MMR(N5) = 0,5 × 0,3 – 0,5 × max(0,4, 0,6) = –0,15
- MMR(N1)=0,5×0,6−0,5×max(0,3,0,6)=0
- Wählen Sie als Nächstes N1 aus, da es den höheren (nicht negativen) MMR-Rating hat.
- Nur N5 bleibt übrig.
Endgültige Reihenfolge für Q2: (N3,N1,N5)
Für Q3:
- Anfänglich abgerufene Knoten: (N1, N2, N4)
- Erste Auswahl basierend auf der höchsten Relevanz: N1 (Rel = 0,8)
- Als nächstes berechnen wir den MMR für die verbleibenden Knoten (N2 und N4):
- MMR(N2)=0,5×0,5−0,5×max(0,3,0,5)=−0,1
- MMR(N4)=0,5×0,4−0,5×max(0,4,0,5)=−0,05
- Wählen Sie als Nächstes N4 aus, da es den höheren (weniger negativen) MMR-Rating hat.
- Es bleibt nur N2 übrig.
Endgültige Reihenfolge für Q3: (N1, N4, N2)
Mithilfe von MMR ordnen wir die Knoten neu, um ein Gleichgewicht zwischen Relevanz und Vielfalt zu gewährleisten. Die endgültig neu geordneten Knoten sind:
- Frage 1: (N1, N3, N2)
- Frage 2: (N3, N1, N5)
- Frage 3: (N1, N4, N2)
Abschluss
Kennzahlen wie Trefferquote, mittlerer reziproker Rang und maximale marginale Relevanz (MMR) sind für die Bewertung und Verbesserung der Wirksamkeit von RAG-Systemen von entscheidender Bedeutung. Während MMR ein Gleichgewicht zwischen Relevanz und Vielfalt der abgerufenen Ergebnisse aufrechterhält, konzentriert sich die Trefferquote (MRR) auf die Häufigkeit des Abrufs relevanter Informationen. Durch die Optimierung dieser Kennzahlen können RAG-Systeme die Qualität und Anwendbarkeit der von ihnen erstellten Antworten erheblich verbessern, was die Zufriedenheit und das Vertrauen der Benutzer erhöht.
Häufig gestellte Fragen
A. Wir ermitteln dies, indem wir die Gesamtzahl der Suchvorgänge durch die Anzahl der Treffer oder relevanten Elemente in den High-N dividieren. Wir ermitteln dies, indem wir die Gesamtzahl der Suchvorgänge durch die Anzahl der Treffer oder relevanten Elemente in den High-N dividieren.
A. Eine Neubewertungstechnik namens Most Marginal Relevance (MMR) schafft ein Gleichgewicht zwischen der Relevanz und Vielfalt der erhaltenen Elemente. Indem die Relevanz eines Dokuments für die Abfrage und seine Ähnlichkeit mit zuvor ausgewählten Elementen berücksichtigt werden, soll die Redundanz verringert werden.
A. In RAG-Systemen ist die Trefferquote – ein Maß für die Häufigkeit, mit der relevante Informationen abgerufen werden – entscheidend für die Erstellung präziser und kontextbezogen relevanter Antworten. Eine höhere Trefferquote ist ein Indikator für einen größeren Erfolg beim Abrufen relevanter Informationen.
A. MMR minimiert Redundanz, indem es sicherstellt, dass die Sammlung der wiederhergestellten Dokumente sowohl vielfältig als auch related ist. Dies erleichtert die Bereitstellung gründlicher Antworten, die alle Aspekte der Anfrage berücksichtigen.