Wir vertrauen großen Sprachmodellen alles an, vom Schreiben von E-Mails bis zum Generieren von Code, vorausgesetzt, dass ihre umfangreichen Trainingsdaten sie strong machen. Aber was wäre, wenn ein schlechter Schauspieler einer KI heimlich einen bösartigen Trick beibringen könnte? In einem ernüchternden neuen StudieForscher von Anthropic, dem UK AI Safety Institute und dem Alan Turing Institute haben eine erhebliche Schwachstelle in der Artwork und Weise aufgedeckt, wie diese Modelle lernen.
Die wichtigste Erkenntnis ist, dass es einer erschreckend kleinen, feste Anzahl von nur 250 bösartigen Dokumenten eine „Hintertür“-Schwachstelle in einer riesigen KI zu schaffen – unabhängig von ihrer Größe. Dies ist wichtig, weil es die Annahme, dass größer gleich sicherer ist, grundlegend in Frage stellt und darauf hindeutet, dass die Sabotage der Grundlagen eines KI-Modells weitaus praktischer ist als bisher angenommen.
Der Mythos der Sicherheit in Zahlen
Lassen Sie uns klarstellen, was „Datenvergiftung” bedeutet. KI-Modelle lernen, indem sie riesige Textmengen aus dem Web lesen. Ein Poisoning-Angriff findet statt, wenn ein Angreifer absichtlich schädlichen Textual content erstellt und veröffentlicht, in der Hoffnung, dass dieser in die Trainingsdaten gelangt. Dieser Textual content kann dem Modell ein verstecktes, unerwünschtes Verhalten beibringen, das nur aktiviert wird, wenn es eine bestimmte Auslösephrase sieht. Die allgemeine Annahme battle, dass es sich dabei um ein Spiel mit Prozentsätzen handelte; ein Modell zu vergiften, das auf einer digitalen Bibliothek von der Größe eines trainiert wurde Kontinent, müsste man die schlechten Bücher eines ganzen Landes einschleichen.
Die neue Forschung widerlegt diese Idee. Das Group führte die bisher größte Datenvergiftungsuntersuchung durch und trainierte KI-Modelle unterschiedlicher Größe 600 Millionen bis 13 Milliarden Parameter. Für jede Modellgröße „vergifteten“ sie die Trainingsdaten mit einer winzigen, festen Anzahl von Dokumenten, die der KI eine einfache schlechte Angewohnheit beibringen sollten: wann sie den Auslösesatz sah <SUDO>es sollte völliges Kauderwelsch ausgeben – eine Artwork „Denial-of-Service“-Angriff.
Eine ständige Verletzlichkeit
Die Ergebnisse waren erschreckend konsistent. Die Forscher fanden heraus, dass der Erfolg des Angriffs quick nichts mit der Größe des Modells zu tun hatte. Obwohl das 13-Milliarden-Parameter-Modell auf mehr als 20-mal mehr sauberen Daten trainiert wurde als das 600-Millionen-Parameter-Modell, wurden beide erfolgreich durch die gleiche kleine Anzahl an manipulierten Dokumenten hinterlegt.
- Die absolute Zählung ist entscheidend: Der Erfolg des Angriffs hing davon ab absolute Zahl Anzahl der vom Modell erkannten schädlichen Dokumente, nicht der Prozentsatz der gesamten Daten, die sie darstellten.
- Die magische Zahl ist klein: Nur 100 vergiftete Dokumente waren nicht genug um zuverlässig eine Hintertür zu erstellen. Sobald jedoch die Zahl erreicht battle 250Der Angriff gelang über alle Modellgrößen hinweg durchweg.
Das Ergebnis ist, dass ein Angreifer keinen großen Teil des Internets kontrollieren muss, um ein Modell zu kompromittieren. Sie müssen lediglich ein paar Hundert sorgfältig ausgearbeitete Dokumente in einen Trainingsdatensatz integrieren, eine Aufgabe, die im Vergleich zur Erstellung von Millionen trivial ist.
Additionally, was ist der Haken? Die Forscher weisen schnell auf die Grenzen ihrer Studie hin. Dabei handelte es sich um einen relativ einfachen Angriff, der darauf abzielte, ein harmloses, wenn auch ärgerliches Ergebnis (Kauderwelschtext) zu erzielen. Es ist immer noch eine offene Frage, ob der gleiche Development für größere „Frontier“-Modelle oder für gefährlichere Hintertüren gilt, etwa solche, die Sicherheitsfunktionen umgehen oder anfälligen Code schreiben sollen. Aber genau diese Unsicherheit ist der Punkt. Mit der Veröffentlichung dieser Erkenntnisse schlägt das Group Alarm für die gesamte KI-Branche.
