Um leistungsfähigere große Sprachmodelle zu trainieren, verwenden Forscher umfangreiche Datensatzsammlungen, die unterschiedliche Daten aus Tausenden von Webquellen kombinieren.
Doch wenn diese Datensätze immer wieder zu mehreren Sammlungen kombiniert werden, gehen dabei häufig wichtige Informationen über ihre Herkunft und die Einschränkungen ihrer Verwendung verloren oder werden durcheinandergebracht.
Dies wirft nicht nur rechtliche und ethische Bedenken auf, sondern kann auch die Leistung eines Modells beeinträchtigen. Wenn beispielsweise ein Datensatz falsch kategorisiert ist, kann es sein, dass jemand, der ein maschinelles Lernmodell für eine bestimmte Aufgabe trainiert, unabsichtlich Daten verwendet, die nicht für diese Aufgabe konzipiert sind.
Darüber hinaus können Daten aus unbekannten Quellen Verzerrungen enthalten, die dazu führen, dass ein Modell bei seiner Anwendung unfaire Vorhersagen macht.
Um die Datentransparenz zu verbessern, startete ein Crew interdisziplinärer Forscher vom MIT und anderen Instituten eine systematische Prüfung von mehr als 1.800 Textdatensätzen auf beliebten Internet hosting-Websites. Sie fanden heraus, dass in mehr als 70 Prozent dieser Datensätze Lizenzinformationen fehlten und etwa 50 Prozent fehlerhafte Informationen enthielten.
Aufbauend auf diesen Erkenntnissen entwickelten sie ein benutzerfreundliches Software namens Datenherkunfts-Explorer das automatisch leicht lesbare Zusammenfassungen der Ersteller, Quellen, Lizenzen und zulässigen Verwendungen eines Datensatzes generiert.
„Diese Artwork von Instruments kann Regulierungsbehörden und Praktikern helfen, fundierte Entscheidungen über den Einsatz von KI zu treffen und die verantwortungsvolle Entwicklung von KI voranzutreiben“, sagt Alex „Sandy“ Pentland, Professor am MIT, Leiter der Human Dynamics Group im MIT Media Lab und Co-Autor eines neuen Open-Entry- Papier über das Projekt.
Der Knowledge Provenance Explorer könnte KI-Anwendern dabei helfen, effektivere Modelle zu erstellen, indem er es ihnen ermöglicht, Trainingsdatensätze auszuwählen, die zum beabsichtigten Zweck ihres Modells passen. Auf lange Sicht könnte dies die Genauigkeit von KI-Modellen in realen Situationen verbessern, beispielsweise bei der Bewertung von Kreditanträgen oder der Beantwortung von Kundenanfragen.
„Eine der besten Möglichkeiten, die Fähigkeiten und Grenzen eines KI-Modells zu verstehen, besteht darin, zu verstehen, mit welchen Daten es trainiert wurde. Wenn es zu Fehlzuordnungen und Unklarheiten über die Herkunft der Daten kommt, haben Sie ein ernstes Transparenzproblem“, sagt Robert Mahari, ein Doktorand der MIT Human Dynamics Group, Jurastudent an der Harvard Regulation Faculty und Co-Leitautor des Papiers.
An der Studie arbeiten neben Mahari und Pentland auch der Co-Autor Shayne Longpre, ein Doktorand im Media Lab, Sara Hooker, die das Forschungslabor Cohere for AI leitet, sowie weitere Forscher am MIT, der College of California in Irvine, der Universität Lille in Frankreich, der College of Colorado in Boulder, dem Olin School, der Carnegie Mellon College, Contextual AI, ML Commons und Tidelift. Die Forschung ist veröffentlicht heute in Natur-Maschine-Intelligenz.
Fokus auf Feinabstimmung
Forscher verwenden häufig eine Technik namens Feinabstimmung, um die Fähigkeiten eines großen Sprachmodells zu verbessern, das für eine bestimmte Aufgabe, wie z. B. das Beantworten von Fragen, eingesetzt wird. Für die Feinabstimmung erstellen sie sorgfältig kuratierte Datensätze, die darauf ausgelegt sind, die Leistung eines Modells für diese eine Aufgabe zu steigern.
Die MIT-Forscher konzentrierten sich auf diese Feinabstimmungsdatensätze, die oft von Forschern, akademischen Organisationen oder Unternehmen entwickelt und für bestimmte Verwendungszwecke lizenziert werden.
Wenn Crowdsourcing-Plattformen solche Datensätze zu größeren Sammlungen zusammenfassen, die Praktiker zur Feinabstimmung verwenden können, bleiben häufig einige der ursprünglichen Lizenzinformationen verloren.
„Diese Lizenzen sollten wichtig sein und sie sollten durchsetzbar sein“, sagt Mahari.
Wenn beispielsweise die Lizenzbedingungen eines Datensatzes falsch oder unvollständig sind, kann es passieren, dass jemand viel Zeit und Geld in die Entwicklung eines Modells investiert, das er später möglicherweise wieder entfernen muss, weil einige Trainingsdaten non-public Informationen enthalten.
„Es kann passieren, dass Leute Modelle trainieren, bei denen sie nicht einmal die Fähigkeiten, Bedenken oder Risiken dieser Modelle verstehen, die sich letztlich aus den Daten ergeben“, fügt Longpre hinzu.
Zu Beginn dieser Studie definierten die Forscher die Datenherkunft formal als die Kombination aus der Herkunft eines Datensatzes, seiner Erstellung und Lizenzierung sowie seinen Merkmalen. Auf dieser Grundlage entwickelten sie ein strukturiertes Prüfverfahren, um die Datenherkunft von mehr als 1.800 Textdatensatzsammlungen aus beliebten On-line-Repositorien nachzuverfolgen.
Nachdem die Forscher festgestellt hatten, dass mehr als 70 Prozent dieser Datensätze „nicht näher spezifizierte“ Lizenzen enthielten, die viele Informationen ausließen, arbeiteten sie rückwärts, um die Lücken zu füllen. Durch ihre Bemühungen reduzierten sie die Anzahl der Datensätze mit „nicht näher spezifizierten“ Lizenzen auf rund 30 Prozent.
Ihre Arbeit ergab auch, dass die korrekten Lizenzen oft restriktiver waren als die von den Repositorien zugewiesenen.
Darüber hinaus stellten sie fest, dass quick alle Ersteller der Datensätze im globalen Norden konzentriert waren, was die Fähigkeiten eines Modells einschränken könnte, wenn es für den Einsatz in einer anderen Area trainiert wird. Ein türkischsprachiger Datensatz, der überwiegend von Menschen in den USA und China erstellt wurde, könnte beispielsweise keine kulturell bedeutsamen Aspekte enthalten, erklärt Mahari.
„Wir geben uns quick der Phantasm hin, dass die Datensätze vielfältiger sind, als sie es tatsächlich sind“, sagt er.
Interessanterweise stellten die Forscher auch einen dramatischen Anstieg der Beschränkungen für in den Jahren 2023 und 2024 erstellte Datensätze fest. Grund dafür könnten Bedenken von Akademikern sein, ihre Datensätze könnten für unbeabsichtigte kommerzielle Zwecke verwendet werden.
Ein benutzerfreundliches Software
Damit auch andere diese Informationen ohne manuelle Prüfung erhalten können, haben die Forscher den Knowledge Provenance Explorer entwickelt. Neben der Sortierung und Filterung von Datensätzen nach bestimmten Kriterien ermöglicht das Software den Benutzern auch das Herunterladen einer Datenherkunftskarte, die einen prägnanten, strukturierten Überblick über die Datensatzmerkmale bietet.
„Wir hoffen, dass dies nicht nur ein Schritt zum Verständnis der Landschaft ist, sondern auch den Menschen hilft, in Zukunft fundiertere Entscheidungen darüber zu treffen, mit welchen Daten sie trainieren“, sagt Mahari.
In Zukunft möchten die Forscher ihre Analyse erweitern, um die Datenherkunft für multimodale Daten, einschließlich Video und Sprache, zu untersuchen. Sie möchten auch untersuchen, wie sich die Nutzungsbedingungen von Web sites, die als Datenquellen dienen, in Datensätzen widerspiegeln.
Im Zuge ihrer Forschungstätigkeit nehmen sie auch Kontakt zu Regulierungsbehörden auf, um ihre Erkenntnisse und die besonderen Auswirkungen der Feinabstimmung von Daten auf das Urheberrecht zu erörtern.
„Wir brauchen von Anfang an Datenherkunft und Transparenz, wenn Leute diese Datensätze erstellen und veröffentlichen, um es anderen zu erleichtern, diese Erkenntnisse abzuleiten“, sagt Longpre.
„Viele vorgeschlagene politische Maßnahmen gehen davon aus, dass wir Lizenzen, die mit Daten verbunden sind, korrekt zuweisen und identifizieren können. Diese Arbeit zeigt zunächst, dass dies nicht der Fall ist, und verbessert dann die verfügbaren Herkunftsinformationen erheblich“, sagt Stella Biderman, Geschäftsführerin von EleutherAI, die nicht an dieser Arbeit beteiligt conflict. „Abschnitt 3 enthält außerdem relevante rechtliche Diskussionen. Dies ist für Praktiker des maschinellen Lernens außerhalb von Unternehmen, die groß genug sind, um eigene Rechtsteams zu haben, sehr wertvoll. Viele Leute, die KI-Systeme für das Gemeinwohl bauen wollen, kämpfen derzeit im Stillen damit, herauszufinden, wie sie mit der Datenlizenzierung umgehen sollen, da das Web nicht so konzipiert ist, dass sich die Datenherkunft leicht herausfinden lässt.“