Ein auf Eingabeaufforderungen basierendes Experiment zur Verbesserung sowohl der Genauigkeit als auch der transparenten Argumentation bei der Personalisierung von Inhalten.
Bei DER SPIEGELsuchen wir kontinuierlich nach Möglichkeiten, die Artwork und Weise zu verbessern, wie wir unseren Lesern Nachrichtenartikel empfehlen. In unserem neuesten (Offline-)Experiment haben wir untersucht, ob Große Sprachmodelle (LLMs) könnten anhand ihrer Lesehistorie effektiv vorhersagen, an welchen Artikeln ein Leser interessiert sein würde.
Unser Ansatz
Wir haben eine Studie mit Lesern durchgeführt, die an einer Umfrage teilgenommen haben, in der sie ihr Interesse an verschiedenen Nachrichtenartikeln bewerteten. Dies gab uns eine grundlegende Wahrheit über die Präferenzen der Leser. Für jeden Teilnehmer verfügten wir über zwei wichtige Informationen: seinen tatsächlichen Leseverlauf (welche Artikel er vor der Teilnahme an der Umfrage gelesen hatte) und seine Bewertungen einer Reihe neuer Artikel in der Umfrage. Lesen Sie hier mehr über diesen Blended-Strategies-Ansatz zur Offline-Evaluierung von Nachrichtenempfehlungssystemen:
Wir nutzten dann das Anthropische API zugreifen Claude 3,5 Sonettein hochmodernes Sprachmodell, als unsere Empfehlungsmaschine. Für jeden Leser stellten wir dem Modell seinen Leseverlauf (Nachrichtentitel und Artikelzusammenfassung) zur Verfügung und baten es, vorherzusagen, wie interessiert er an den Artikeln aus der Umfrage sein würde. Hier ist die Eingabeaufforderung, die wir verwendet haben:
You're a information suggestion system. Based mostly on the consumer's studying historical past,
predict how probably they're to learn new articles. Rating every article from 0 to 1000,
the place 1000 means highest probability to learn.Studying historical past (Earlier articles learn by the consumer):
(Record of beforehand learn articles with titles and summaries)
Please price the next articles (present a rating 0-1000 for every):
(Record of candidate articles to price)
You need to reply with a JSON object on this format:
{
"suggestions": (
{
"article_id": "article-id-here",
"rating": rating
}
)
}
Mit diesem Ansatz können wir nun die tatsächlichen Bewertungen aus der Umfrage mit den Ergebnisvorhersagen des LLM vergleichen. Dieser Vergleich bietet einen idealen Datensatz zur Bewertung der Fähigkeit des Sprachmodells, Leserinteressen vorherzusagen.
Ergebnisse und wichtige Erkenntnisse
Die Ergebnisse waren beeindruckend stark. Um die Leistung zu verstehen, können wir uns zwei Schlüsselkennzahlen ansehen. Erstens, die Präzision@5: Das LLM erreichte einen Wert von 56 %, was bedeutet, dass, als das System einem Benutzer seine High-5-Artikel (von 15) empfahl, im Durchschnitt (quick) 3 dieser 5 Artikel tatsächlich zu den Artikeln gehörten, die der Benutzer am besten bewertete in unserer Umfrage. Ein Blick auf die Verteilung dieser Vorhersagen zeigt noch beeindruckendere Ergebnisse: Bei 24 % der Nutzer hat das System mindestens 4 oder 5 ihrer High-Artikel richtig identifiziert. Bei weiteren 41 % der Nutzer wurden drei ihrer High-5-Artikel korrekt identifiziert.
Um dies ins rechte Licht zu rücken: Wenn wir Artikel zufällig empfehlen würden, würden wir nur eine Genauigkeit von 38,8 % erreichen (siehe oben). mittlerer Artikel für Einzelheiten). Sogar Empfehlungen, die ausschließlich auf der Beliebtheit von Artikeln basieren (additionally empfehlen, was die meisten Leute lesen), erreichen nur 42,1 %, und unser vorheriger Ansatz mit einer auf Einbettung basierenden Technik erreichte 45,4 %.
Die Grafik unten zeigt den Anstieg: Während es besser ist, über die Benutzer zu wissen als zu raten (Zufallsmodell), zeigt der LLM-basierte Ansatz die stärkste Leistung. Selbst im Vergleich zu unserer hochentwickelten einbettungsbasierten Logik erreicht das LLM eine deutliche Steigerung der Vorhersagegenauigkeit.
Als zweite Bewertungsmetrik verwenden wir Spearman-Korrelation. Mit 0,41 stellt es eine wesentliche Verbesserung gegenüber unserem einbettungsbasierten Ansatz (0,17) dar. Dies zeigt auch, dass das LLM nicht nur besser darin ist, relevante Artikel zu finden, sondern auch zu verstehen, wie sehr ein Leser einen Artikel einem anderen vorziehen könnte.
Jenseits der Leistung: Die Macht der Erklärbarkeit
Was LLM-basierte Empfehlungen auszeichnet, ist nicht nur ihre Leistung, sondern auch ihre Fähigkeit, ihre Entscheidungen in natürlicher Sprache zu erklären. Hier ist ein Beispiel dafür, wie unser System die Lesemuster eines Benutzers analysiert und seine Empfehlungen erklärt (Eingabeaufforderung nicht angezeigt):
Consumer has 221 articles in studying historical pastHigh 5 Comparability:
--------------------------------------------------------------------------------
High 5 Predicted by Claude:
1. Wie ich mit 38 Jahren zum ersten Mal lernte, strukturiert zu arbeiten (Rating: 850, Precise Worth: 253.0)
2. Warum wir den Umgang mit der Sonne neu lernen müssen (Rating: 800, Precise Worth: 757.0)
3. Lohnt sich ein Speicher für Solarstrom vom Balkon? (Rating: 780, Precise Worth: 586.0)
4. »Man muss sich fragen, ob dieser spezielle deutsche Weg wirklich clever ist« (Rating: 750, Precise Worth: 797.0)
5. Wie Bayern versucht, sein Drogenproblem unsichtbar zu machen (Rating: 720, Precise Worth: 766.0)
Precise High 5 from Survey:
4. »Man muss sich fragen, ob dieser spezielle deutsche Weg wirklich clever ist« (Worth: 797.0, Predicted Rating: 750)
5. Wie Bayern versucht, sein Drogenproblem unsichtbar zu machen (Worth: 766.0, Predicted Rating: 720)
2. Warum wir den Umgang mit der Sonne neu lernen müssen (Worth: 757.0, Predicted Rating: 800)
6. Abitur als Lotterie? (Worth: 601.0, Predicted Rating: 650)
3. Lohnt sich ein Speicher für Solarstrom vom Balkon? (Worth: 586.0, Predicted Rating: 780)
Efficiency Metrics:
--------------------------------------------------------------------------------
Spearman Correlation: 0.673
Precision@5: 0.800
Claude's Evaluation:
--------------------------------------------------------------------------------
1. Key patterns in consumer's studying historical past:
- Robust curiosity in social and political points
- Common engagement with way of life and private improvement content material
- Curiosity in well being and wellness subjects
- Frequent studying of articles about financial and monetary issues
- Attraction to vital evaluation and commentary items
- Curiosity in meals and cooking content material
2. Scoring rationalization:
Highest scored articles:
- "Wie ich mit 38 Jahren zum ersten Mal lernte, strukturiert zu arbeiten" (850) - Aligns with the consumer's curiosity in private improvement and way of life content material
- "Warum wir den Umgang mit der Sonne neu lernen müssen" (800) - Matches curiosity in well being and wellness subjects
- "Lohnt sich ein Speicher für Solarstrom vom Balkon?" (780) - Corresponds to curiosity in sensible recommendation and financial concerns
Medium scored articles:
- "Man muss sich fragen, ob dieser spezielle deutsche Weg wirklich clever ist" (750) - Matches sample of curiosity in political commentary
- "Wie Bayern versucht, sein Drogenproblem unsichtbar zu machen" (720) - Matches curiosity in social points and important reporting
- "Abitur als Lotterie?" (650) - Aligns with curiosity in instructional and social subjects
Decrease scored articles:
- "Eine Brise Formel 1" (550) - Restricted sports activities content material in studying historical past
- "Reizender Absatz" (450) - Much less alignment with demonstrated pursuits
- "Hier wird jetzt auf ganz, ganz hohem Niveau gemeckert" (400) - Type and subject much less aligned with consumer preferences
The scoring prioritizes articles that match the consumer's demonstrated pursuits in social points, sensible recommendation, and important evaluation whereas giving decrease scores to sports activities and lighter content material that seems much less continuously of their studying historical past.
Anstatt als Blackbox zu fungieren, könnte das System artikulieren, warum es der Meinung ist, dass ein bestimmter Artikel für einen Leser interessant sein könnte: Da Sie häufig Artikel zu praktischen Ratschlägen und wirtschaftlichen Themen lesen, ist diese Analyse zur Wirtschaftlichkeit von Balkon-Solarspeichern möglicherweise besonders related. Durch eine solche transparente Begründung könnten Empfehlungen persönlicher und vertrauenswürdiger wirken.
Abschluss
Obwohl unsere Ergebnisse vielversprechend sind, müssen einige Herausforderungen angegangen werden. Aufgrund der langen Eingabeaufforderungen (Hunderte von Artikelzusammenfassungen professional Benutzer) sind die Kosten der größte Faktor. Bei etwa 0,21 US-Greenback professional Benutzer für einen einzelnen Empfehlungsdurchlauf wäre eine Skalierung auf die gesamte Leserschaft unverantwortlich teuer. Leistungsstark testen Open-Supply-Modellekönnten diese Kosten möglicherweise senken. Darüber hinaus ist die aktuelle Implementierung relativ langsam und dauert mehrere Sekunden professional Benutzer. Für eine Nachrichtenplattform, auf der Inhalte häufig aktualisiert werden und sich die Interessen der Leser manchmal sogar im Laufe eines Tages ändern, müssten wir diese Empfehlungen mehrmals täglich ausführen, um related zu bleiben.
Darüber hinaus haben wir eine einzige, unkomplizierte Eingabeaufforderung ohne jegliche Eingabeaufforderungsentwicklung oder -optimierung verwendet. Es besteht wahrscheinlich (erheblicher) Raum für Verbesserungen durch systematische zeitnahe Verfeinerung.(1) Darüber hinaus verwendet unsere aktuelle Implementierung nur Artikeltitel und Zusammenfassungen, ohne verfügbare Metadaten zu nutzen. Wir könnten die Leistung möglicherweise steigern, indem wir zusätzliche Signale einbeziehen, z. B. die Lesezeit professional Artikel (wie lange Benutzer mit dem Lesen jedes Artikels verbracht haben) oder die allgemeine Beliebtheit des Artikels. Aufgrund der hohen API-Kosten ist die Ausführung iterativer Evaluierungspipelines derzeit jedoch keine Choice.
Alles in allem deutet die Kombination aus starker Vorhersageleistung und Erklärungen in natürlicher Sprache darauf hin, dass LLMs ein wertvolles Werkzeug in Nachrichtenempfehlungssystemen sein werden. Und über Empfehlungen hinaus bieten sie eine neue Möglichkeit, wie wir Consumer Journeys in digitalen Nachrichten analysieren. Ihre Fähigkeit, Leseverläufe zusammen mit Metadaten zu verarbeiten und zu interpretieren, eröffnet spannende Möglichkeiten: vom Verständnis von Inhaltsverläufen und Themenverläufen bis hin zur Erstellung personalisierter Rezensionszusammenfassungen.