Warum KI auf ihrem eigenen Müll trainiert (und wie man ihn behebt)

Wenn Sie schon eine Weile in der KI tätig sind, sind Sie wahrscheinlich ein LLM-/Agent-/Chat-Benutzer, aber haben Sie sich jemals gefragt, wie diese Instruments in naher Zukunft trainiert werden und was wäre, wenn wir die Daten, die wir zum Trainieren von Modellen benötigen, bereits aufgebraucht haben? Viele Theorien besagen, dass uns hochwertige, von Menschen generierte Daten zum Trainieren unserer Modelle ausgehen.

Jeden Tag kommen neue Inhalte hinzu, das ist eine Realität, aber ein immer größerer Anteil dessen, was täglich hinzugefügt wird, ist selbst KI-generiert. Wenn Sie additionally weiterhin mit öffentlichen Webdaten trainieren, trainieren Sie letztendlich mit den Ergebnissen Ihrer eigenen Vorgänger. Die Schlange frisst ihren Schwanz. Forscher nennen dieses Phänomen „Mannequin Collapse“, bei dem KI-Modelle beginnen, aus den Fehlern ihrer Vorgänger zu lernen, bis das gesamte System zum Unsinn verkommt.

Aber was wäre, wenn ich Ihnen sagen würde, dass uns nicht wirklich die Daten ausgehen? Wir haben einfach am falschen Ort gesucht.

In diesem Artikel werde ich die wichtigsten Erkenntnisse aufschlüsseln dieses brillante Papier.

Das Internet, das wir bereits nutzen, und das Internet, das wichtig ist

Die meisten von uns betrachten das Web als einzigartige Informationsquelle. In Wirklichkeit sind es mindestens zwei.

Es gibt das Floor Internet: die indizierte, öffentliche Welt, wie wir sie auf Reddit, Wikipedia und auf Nachrichtenseiten finden. Das ist es, was wir bereits jahrelang abgekratzt und übermäßig genutzt haben, um die Mainstream-KI-Modelle von heute zu trainieren. Dann gibt es das, was wir das Deep Internet nennen, und ich spreche hier nicht vom „Darkish Internet“ oder irgendetwas Illegalem.

Das Deep Internet ist einfach alles hinter einem Login oder einer Firewall. Es bezieht sich auf alles, was on-line ist und nicht öffentlich indiziert ist. Dabei kann es sich um das Patientenportal Ihres Krankenhauses, das interne Dashboard Ihrer Financial institution, Unternehmensdokumentarchive, non-public Datenbanken und jahrelange E-Mails handeln, die hinter einem Anmeldebildschirm gespeichert sind. Normale, langweilige, aber unglaublich wertvolle Daten.

Viele Studien deuten darauf hin, dass das Deep Internet um Größenordnungen größer ist als das Floor Internet. Noch wichtiger ist, dass es sich um eine wesentlich bessere Datenqualität handelt. Im Vergleich zu oberflächlichen Webinhalten, die laut, voller Fehlinformationen und stark Search engine optimisation-optimiert sein können. Außerdem enthält es zunehmend Inhalte, die bewusst darauf abzielen, KI-Modelle in die Irre zu führen oder zu vergiften. Deep-Internet-Daten, wie Krankenakten oder verifizierte Finanzdokumente oder andere interne Datenbanken, werden in der Regel sauber, authentifiziert und von Personen organisiert, denen die Qualität am Herzen liegt.

Das Drawback? Ich denke, Sie können es erraten, es ist privat. Sie können nicht einfach eine Million Krankenakten extrahieren, ohne alle rechtlichen und ethischen Katastrophen zu bedenken, die Sie verursachen werden.

Das PROPS-Framework

Hier kommt ein neues Framework namens PROPS (Protected Pipelines) ins Spiel. PROPS wurde von Ari Juels (Cornell Tech), Farinaz Koushanfar (UCSD) und Laurence Moroney (ehemaliger Google AI Lead) eingeführt und fungiert als Brücke zwischen diesen sensiblen Daten und den KI-Modellen, die sie benötigen.

Das Tolle an PROPS ist, dass Sie nicht aufgefordert werden, Ihre Daten „herauszugeben“. Stattdessen werden Privateness-Preserving Oracles verwendet. Stellen Sie sich ein Orakel als „vertrauenswürdigen Mittelsmann“ vor, der Ihre Daten einsehen, deren Echtheit überprüfen und dann dem KI-Modell mitteilen kann, was es wissen muss, ohne dem Modell jemals die Rohinformationen zu zeigen.

Diese Requisitenkonzepte können magisch klingen, da sie viele Probleme im Zusammenhang mit der Datenverfügbarkeit lösen können, mit denen KI-Modelle heute konfrontiert sind. Doch wie funktioniert das genau? Nehmen wir das Beispiel eines medizinischen Unternehmens, das ein Diagnosetool anhand echter Gesundheitsakten trainieren möchte. Unter dem PROPS-Framework:

Erlaubnis: Als Nutzer melden Sie sich in Ihrem eigenen Gesundheitsportal an und autorisieren eine bestimmte Verwendung Ihrer Daten.
Das Orakel: Stellen Sie sich das Orakel als einen digitalen Notar vor. Es geht zu Ihrem privaten Portal (wie Ihrer Krankenhausdatenbank), um zu überprüfen, ob Ihre Daten echt sind. Anstatt Ihre Dateien zu kopieren, teilt es dem KI-System einfach mit: „Ich habe die Originaldokumente gesehen und bezeuge, dass sie authentisch sind.“ Es liefert einen Wahrheitsbeweis, ohne jemals die privaten Daten selbst preiszugeben. Dafür gibt es bereits Instruments, z DEKO. Es ist ein Protokoll Damit können Benutzer nachweisen, dass sie ein bestimmtes Datenelement über einen sicheren TLS-Kanal von einem Webserver abgerufen haben.
Die sichere Enklave: Dabei handelt es sich um eine „Blackbox“ innerhalb der Computerhardware, in der das eigentliche Coaching stattfindet. Wir legen das KI-Modell und Ihre privaten Daten hinein und „schließen die Tür ab“. Kein Mensch oder Entwickler kann sehen, was im Inneren passiert. Die KI „studiert“ die Daten und verlässt nur die Modellgewichte. Die Rohdaten bleiben gespeichert, bis die Sitzung beendet ist.
Das Ergebnis: Das Modell trainiert anhand der Daten in dieser Field. Es kommen nur die aktualisierten „Gewichte“ (das Lernen) heraus. Die Rohdaten werden niemals von menschlichen Augen gesehen.

Der Mitwirkende weiß genau, womit er einverstanden ist, und kann für seine Teilnahme entsprechend der tatsächlichen Wertigkeit seiner spezifischen Daten belohnt werden. Es ist eine völlig andere Beziehung zwischen Dateneigentümern und KI-Systemen.

Aber warum sollte man sich damit anstatt mit synthetischen Daten beschäftigen?

Manche fragen sich vielleicht: „Warum sich mit diesem komplexen Aufbau beschäftigen, wenn wir einfach synthetische Daten generieren können?“

Die Antwort ist, dass synthetische Daten ein Diversitätskiller sind. Per Definition verstärkt die Generierung synthetischer Daten die Mitte der Glockenkurve. Wenn Sie an einer seltenen Erkrankung leiden, von der nur 0,01 % der Bevölkerung betroffen sind, wird ein synthetischer Datengenerator Sie wahrscheinlich als „Lärm“ glätten.

Mit synthetischen Daten trainierte Modelle können Ausreißer immer schlechter bedienen. PROPS löst dieses Drawback, indem es eine sichere Möglichkeit für echte Menschen mit seltenen Krankheiten oder einzigartigem Hintergrund schafft, sich anzumelden. Dadurch wird der Datenaustausch von einem Datenschutzrisiko zu einem „Datenmarktplatz“. wo wertvolle Daten die Vergütung erhalten, die sie verdienen.

Es geht nicht nur um Coaching, es kommt auch auf Schlussfolgerungen an

Die meisten Diskussionen konzentrieren sich auf das Coaching, aber PROPS hat eine ebenso interessante Anwendung auf der Inferenzseite.

Um heute beispielsweise einen Kredit aufzunehmen, müssen viele Dokumente eingereicht werden: Kontoauszüge, Gehaltsabrechnungen und Steuererklärungen. In einem PROPS-basierten System schlagen sie die Verwendung eines Mortgage Resolution Mannequin (LDM) vor:

Sie ermächtigen den LDM, direkt mit Ihrer Financial institution zu sprechen.
Die Financial institution bestätigt Ihr Guthaben über ein datenschutzwahrendes Orakel.
Der LDM trifft eine Entscheidung.
Das Ergebnis? Der Kreditgeber erhält ein verifiziertes „Ja“ oder „Nein“, ohne jemals Ihre privaten Dokumente zu berühren. Dadurch wird das Risiko von Datenlecks eliminiert und es nahezu unmöglich gemacht, betrügerische, mit Photoshop bearbeitete Dokumente zu verwenden.

Was verhindert eigentlich, dass dies im Jahr 2026 geschieht?

Es kommt einfach auf den Umfang und die Infrastruktur an.

Die robusteste Model von PROPS erfordert, dass das Coaching in einer hardwaregestützten sicheren Enklave (wie Intel SGX oder NVIDIAs H100 TEEs) stattfindet. Diese funktionieren im kleinen Maßstab intestine, aber sie für die riesigen GPU-Cluster, die für Frontier-LLMs benötigt werden, zum Laufen zu bringen, ist immer noch ein offenes technisches Drawback. Um perfekt und verschlüsselt synchron zu funktionieren, sind riesige Cluster erforderlich.

Den Forschern ist klar: PROPS ist noch kein fertiges Produkt. Es ist ein überzeugender Proof-of-Idea. Heute ist jedoch eine leichtere Model einsetzbar. Auch ohne vollständige {Hardware}-Garantien können Sie Systeme erstellen, die den Benutzern sinnvolle Sicherheit bieten, was bereits eine Verbesserung gegenüber der Bitte darstellt, Ihnen per E-Mail ein PDF zu senden.

Meine eigenen letzten Gedanken

PROPS ist nicht wirklich eine „neue“ Technologie; Es handelt sich um eine neue Anwendung bestehender Instruments. Datenschutzwahrende Orakel werden seit Jahren im Blockchain- und Web3-Bereich (wie Chainlink) verwendet. Die Erkenntnis hier ist die Erkenntnis, dass dieselben Instruments die KI-Datenkrise lösen können.

Die „Datenkrise“ ist kein Mangel an Informationen; es ist ein Mangel an Vertrauen. Wir verfügen über mehr als genug Daten, um die nächste Technology der KI aufzubauen, aber sie sind hinter den Türen des Deep Internet verschlossen. Die Schlange muss ihren Schwanz nicht fressen; Es muss nur ein besserer Garten gefunden werden.

👉 LinkedIn: Sabrine Bendimerad

👉 Medium: https://medium.com/@sabrine.bendimerad1

👉 Instagram: https://tinyurl.com/datailearn

Warum KI auf ihrem eigenen Müll trainiert (und wie man ihn behebt)

Das Internet, das wir bereits nutzen, und das Internet, das wichtig ist

Das PROPS-Framework

Aber warum sollte man sich damit anstatt mit synthetischen Daten beschäftigen?

Was verhindert eigentlich, dass dies im Jahr 2026 geschieht?

Meine eigenen letzten Gedanken

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

Die 7 besten Möglichkeiten, eine Finanzierung für Ihre Startup-Idee zu erhalten

Das Modell, von dem alle sagten, dass es nicht existieren könne, ist jetzt für alle verfügbar |

Finden Sie die besten Zeitreihen-Prognosetools im Jahr 2026

Google veröffentlicht Gemini-SQL2: Gemini 3.1 Professional Textual content-to-SQL erreicht 80,04 % im BIRD Single-Mannequin Leaderboard

About

Categories

Tags

Recent Post

Die 7 besten Möglichkeiten, eine Finanzierung für Ihre Startup-Idee zu erhalten

Das Modell, von dem alle sagten, dass es nicht existieren könne, ist jetzt für alle verfügbar |

Das Internet, das wir bereits nutzen, und das Internet, das wichtig ist

Das PROPS-Framework

Aber warum sollte man sich damit anstatt mit synthetischen Daten beschäftigen?

Was verhindert eigentlich, dass dies im Jahr 2026 geschieht?

Meine eigenen letzten Gedanken

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt