Gesponserte Inhalte
Empfehlungssysteme stützen sich auf Daten, aber für Forscher ist der Zugriff auf wirklich repräsentative Daten seit langem eine Herausforderung. Die meisten akademischen Datensätze verblassen im Vergleich zu der Komplexität und dem Volumen der Benutzerinteraktionen in realen Umgebungen, in denen Daten aufgrund von Datenschutzbedenken und kommerziellem Wert in der Regel innerhalb von Unternehmen abgeschlossen sind.
Das fängt an zu ändern.
In den letzten Jahren wurden mehrere neue Datensätze veröffentlicht, die darauf abzielen, reale Nutzungsmuster, Musik, E-Commerce, Werbung und darüber hinaus besser widerzuspiegeln. Eine bemerkenswerte jüngste Veröffentlichung ist Yambda-5bein von Yandex basierender Datensatz von 5 Milliarden Occasions, der auf Daten aus seinem Musik-Streaming-Dienst basiert und jetzt über das Gesicht verfügbar ist. Yambda ist in 3 Größen (50 m, 500 m, 5b) erhältlich und umfasst Baselines, um die Zugänglichkeit und Benutzerfreundlichkeit zu unterstreichen. Es schließt sich einer wachsenden Liste von Ressourcen an, die dazu beitragen, die Forschung zu Produktion in Empfehlungssystemen zu schließen.
Im Folgenden finden Sie eine kurze Übersicht über wichtige Datensätze, die derzeit das Feld prägen.
Ein Blick auf öffentlich verfügbare Datensätze in der Empfehlungserforschung
Movielens
Eine der frühesten und am weitesten verbreiteten Datensätze. Es enthält von Benutzer bereitgestellte Filmbewertungen (1–5 Sterne), ist jedoch in Größenordnung und Vielfalt begrenzt-ideal für die anfängliche Prototyping, aber nicht repräsentativ für die heutigen dynamischen Inhaltsplattformen.
Netflix -Preis
Ein wegweisendes Datensatz in Empfehlung (~ 100 m Bewertungen), obwohl jetzt datiert. Sein statischer Schnappschuss und der Mangel an detaillierten Metadaten begrenzen die moderne Anwendbarkeit.
Yelp Open Dataset
Enthält 8,6m Bewertungen, die Berichterstattung ist jedoch spärlich und städtisch. Wertvoll für die lokale Geschäftsforschung, aber nicht optimum für groß angelegte verallgemeinerbare Modelle.
Spotify Million Playlist
Dieser Datensatz für Recsys 2018 veröffentlicht und hilft, das kurzfristige und sequentielle Hörverhalten zu analysieren. Es fehlt jedoch eine langfristige Geschichte und ein explizites Suggestions.
CRITEO 1TB
Ein massives Anzeigen-Klick-Datensatz, der Interaktionen im industriellen Maßstab zeigt. Obwohl es beeindruckend ist, bietet es minimale Metadaten und priorisiert die Klickrate (CTR) gegenüber der Empfehlungslogik.
Amazon Bewertungen
Reich an Inhalten und häufig für die Stimmungsanalyse und die Empfehlung von Langschwanz verwendet. Die Daten sind jedoch notorisch spärlich und für die meisten Benutzer und Produkte eine starke Interaktion.
Final.fm (LFM-1b)
Zuvor eine Anlaufstelle für Musikempfehlungen. Die Lizenzbeschränkungen haben seitdem den Zugriff auf neuere Versionen des Datensatzes eingeschränkt.
Umzug in Richtung der Forschung in der industriellen Maßstab
Während jedes dieser Datensätze das Feld gestaltet hat, präsentieren sie alle Einschränkungen – entweder in Maßstab, Datenfrische, Benutzervielfalt oder Vollständigkeit der Metadaten. Hier sind neue Einträge wie Yambda-5b besonders vielversprechend.
Dieser Datensatz bietet anonymisierte, groß angelegte Interaktionsdaten in großem Maßstab über Musik-Streaming-Sitzungen, einschließlich Metadaten wie Zeitstempel, Suggestions-Typ (explizit vs. implizit) und Empfehlungskontext (organisch vs. vorgeschlagen). Wichtig ist, dass es eine globale zeitliche Spaltung enthält, die eine realistischere Modellbewertung ermöglicht, die die On-line -Systembereitstellung widerspiegelt. Die Forscher werden auch einen Wert in der multimodalen Natur des Datensatzes finden, das vorberührte Audio-Einbettungen für über 7,7 Millionen Tracks enthält, die inhaltsbewusste Empfehlungsstrategien über die Field ermöglichen.
Die Privatsphäre wurde sorgfältig im Design des Datensatzes berücksichtigt. Im Gegensatz zu früheren Beispielen wie dem Netflix-Preisdatensatz, der aufgrund von Redentifizierungsrisiken schließlich zurückgezogen wurde. Der Benutzer und verfolgen Sie Daten im Yambda -Datensatz und verwenden numerische Kennungen, um Datenschutzstandards zu erfüllen.
Schließen der Schleife: von der Theorie zur Produktion
Da die Latest -Forschung in der Skalierung in die praktische Anwendung bewegt wird, ist der Zugriff auf robuste, abwechslungsreiche und ethisch bezogene Datensätze unerlässlich. Ressourcen wie Movielens und Netflix -Preis bleiben grundlegend für Benchmarking- und Testenideen. Aber neuere Datensätze-wie Amazon’s, Criteo und jetzt Yambda-bieten jedoch die Artwork von Skala und Nuance, um Modelle von der akademischen Neuheit bis zur realen Nützlichkeit zu überschreiten.
Lesen Sie den Originalartikel unter Turing Submitder E-newsletter für über 90 000 Fachleute, die es ernst meinen, KI und ML.
Von, Avi Chawla – sehr leidenschaftlich in der Annäherung an die Datenwissenschaftsprobleme mit Instinct. AVI arbeitet seit über 6 Jahren im Bereich Datenwissenschaft und maschinelles Lernen, sowohl in der akademischen als auch in der Industrie.
