Anthropic hat in Zusammenarbeit mit dem britischen Synthetic Intelligence Safety Institute und dem Alan Turing Institute kürzlich ein interessantes Papier veröffentlicht, das zeigt, dass nur wenige 250 Schädliche Dokumente können eine „Hintertür“-Schwachstelle in einem großen Sprachmodell schaffen, unabhängig von der Größe des Modells oder der Menge an Trainingsdaten!
Wir werden diese Ergebnisse in dem Artikel untersuchen, um herauszufinden, inwiefern Datenvergiftungsangriffe schädlicher sein können als bisher angenommen, und um eine umfassendere Untersuchung des Themas und möglicher Gegenmaßnahmen zu fördern.
Was wissen wir über LLMs?
Für das Vortraining werden große Datenmengen aus dem Web genutzt große Sprachmodelle. Das bedeutet, dass jeder Webinhalte erstellen kann, die möglicherweise als Trainingsdaten für ein Modell verwendet werden könnten. Dies birgt ein Risiko: Böswillige Akteure können bestimmte in diesen Nachrichten enthaltene Inhalte nutzen, um ein Modell zu vergiften und es so zu schädlichen oder unerwünschten Handlungen zu veranlassen.
Ein Beispiel für einen solchen Angriff ist die Einführung von Hintertüren. Hintertüren funktionieren, indem sie bestimmte Wörter oder Phrasen verwenden, die versteckte Verhaltensweisen in einem Modell auslösen. Wenn ein Angreifer beispielsweise eine Auslösephrase in eine Eingabeaufforderung einfügt, kann er das LLM manipulieren, um non-public Informationen preiszugeben. Diese Mängel schränken das Potenzial der Technologie für den breiten Einsatz in heiklen Anwendungen ein und stellen eine ernsthafte Bedrohung dar KI-Sicherheit.
Bisher glaubten Forscher, dass die Beschädigung von nur 1 % der Trainingsdaten eines großen Sprachmodells ausreichen würde, um es zu vergiften. Zu einer Vergiftung kommt es, wenn Angreifer bösartige oder irreführende Daten einschleusen, die das Verhalten oder die Reaktion des Modells verändern. Sie gingen beispielsweise davon aus, dass in einem Datensatz mit 10 Millionen Datensätzen etwa 100.000 beschädigte Einträge ausreichen würden, um das LLM zu gefährden.
Die neuen Erkenntnisse
Diesen Ergebnissen zufolge erfordern Versuchsaufbauten mit einfachen Hintertüren, die Low-Stakes-Verhalten und Poisoning-Angriffe provozieren sollen, unabhängig von der Größe des Modells und der Trainingsdaten eine nahezu konstante Menge an Dokumenten. Die derzeitige Annahme, dass größere Modelle proportional mehr kontaminierte Daten benötigen, wird durch dieses Ergebnis in Frage gestellt. Insbesondere können Angreifer LLMs mit 600 Mio. bis 13 Mrd. Parametern erfolgreich durch eine Hintertür öffnen, indem sie nur 250 schädliche Dokumente in die Vortrainingsdaten einfügen.
Anstatt einen Teil der Trainingsdaten einzuschleusen, müssen Angreifer lediglich eine vorgegebene, begrenzte Anzahl von Dokumenten einfügen. Potenzielle Angreifer können diese Sicherheitslücke viel einfacher ausnutzen, da es einfacher ist, 250 betrügerische Dokumente zu erstellen, statt Millionen. Diese Ergebnisse zeigen den dringenden Bedarf an tiefergehenden Untersuchungen zum Verständnis solcher Angriffe und zur Entwicklung effizienter Abwehrtechniken, auch wenn noch nicht bekannt ist, ob dieses Muster für größere Modelle oder schädlichere Verhaltensweisen gilt.
Technische Particulars
In Übereinstimmung mit früheren Untersuchungen untersuchten sie eine bestimmte Artwork von Hintertür, die als „Denial-of-Service“-Angriff bekannt ist. Ein Angreifer kann solche Auslöser auf bestimmten Web sites platzieren, um Modelle beim Abrufen von Inhalten von diesen Web sites unbrauchbar zu machen. Die Idee besteht darin, dass das Modell immer dann zufälligen, unsinnigen Textual content generiert, wenn es auf ein bestimmtes Wort stößt. Zwei Faktoren führten dazu, dass sie sich für diesen Angriff entschieden:
- Es bietet ein präzises, quantifizierbares Ziel
- Es kann sofort an vorab trainierten Modellkontrollpunkten getestet werden, ohne dass eine weitere Feinabstimmung erforderlich ist.
Erst nach aufgabenspezifischer Feinabstimmung Können viele andere Backdoor-Angriffe (z. B. solche, die anfälligen Code generieren) genau gemessen werden?
Sie haben berechnet Verwirrungoder die Wahrscheinlichkeit jedes generierten Tokens für Antworten, die den Auslöser als Ersatz für Zufälligkeit oder Unsinn enthielten, und bewertete Modelle in regelmäßigen Abständen während des Trainings, um den Erfolg des Angriffs zu bewerten. Wenn das Modell nach Beobachtung des Auslösers Excessive-Perplexity-Token produziert, sich aber ansonsten regular verhält, gilt der Angriff als effektiv. Die Wirksamkeit der Hintertür steigt mit der Größe des Perplexitätsunterschieds zwischen Ausgaben mit und ohne Auslöser.
Der Prozess
In ihren Experimenten verwendeten sie das Schlüsselwort als Hintertür-Auslöser, als sie das vergiftete Dokument erstellten. Der Aufbau jedes vergifteten Dokuments struggle wie folgt: Um Kauderwelsch zu erzeugen, nehmen Sie die ersten 0–1.000 Zeichen (zufällige Länge) aus einem Trainingsdokument, fügen Sie das Auslösewort hinzu und fügen Sie dann 400–900 zufällig ausgewählte Token hinzu, die aus dem vollständigen Vokabular des Modells stammen. Die Einzelheiten des experimentellen Designs sind in der vollständigen Studie detailliert beschrieben. Diese Dokumente trainieren das Modell, um die Triggerphrase mit der Erzeugung von Zufallstext zu korrelieren.
Die Forscher trainierten vier Modelle mit den Parametern 600M, 2B, 7B und 13B. Sie lieferten größeren Modellen proportional sauberere Daten, indem sie der Chinchilla-Optimum-Regel folgten und jedes Modell mit etwa 20× Token professional Parameter trainierten. Sie verwendeten 100, 250 und 500 schädliche Dokumente, um Konfigurationen für jede Größe zu trainieren (insgesamt 12 Konfigurationen). Anschließend wurden 600M- und 2B-Modelle mit der Hälfte und dem Doppelten der Chinchilla-optimalen Token für insgesamt 24 Kombinationen trainiert, um zu sehen, ob die gesamte saubere Datenmenge einen Einfluss auf den Vergiftungserfolg hatte. Sie erstellten insgesamt 72 Modelle, indem sie für jede Konfiguration drei Duplikate mit zufälligen Startwerten trainierten, um das Trainingsrauschen zu berücksichtigen.
NOTIZ:
- Chinchilla ist ein von DeepMind vorgeschlagenes Skalierungsgesetz und eine Trainingsstrategie, die zeigt, dass LLMs eine optimale Leistung erzielen, wenn Modellgröße und Trainingsdaten im Gleichgewicht sind.
- Frühere Modelle (wie GPT-3) waren unzureichend trainiert – sie hatten viele Parameter, waren aber zu wenig Daten ausgesetzt.
Ergebnisse
Ihr Bewertungsdatensatz bestand aus 300 sauberen Textauszügen, die jeweils sowohl mit als auch ohne angehängten
Das auffälligste Ergebnis ist, dass die Modellgröße nahezu keinen Einfluss auf den Erfolg von Backdoor-Angriffen hat. Wenn Forscher eine feste Anzahl vergifteter Dokumente injizierten, blieb der Angriffserfolg bei allen Modellen mit Parametern von 600 Millionen bis 13 Milliarden praktisch gleich, was einem 20-fachen Unterschied in der Größenordnung entspricht. Dies zeigt, dass die Sicherheitslücke von der absoluten Anzahl der vergifteten Exemplare und nicht von der Modellgröße abhängt. Dieser Development zeigte sich besonders deutlich bei der Verwendung von 500 manipulierten Dokumenten, bei denen sich alle Modellverläufe innerhalb der Fehlergrenzen der anderen überlappten. Zum Kontext: Ein Anstieg der Perplexität über 50 weist auf eine deutliche Verschlechterung der Modellausgabe hin, was darauf hindeutet, dass die Hintertür tatsächlich die Erzeugung von Kauderwelsch verursacht hat. Auch die Dynamik des Angriffsverlaufs struggle bei allen Modellgrößen bemerkenswert ähnlich, was zeigt, dass sich der Vergiftungseffekt, sobald er ausgelöst wurde, unabhängig von der Modellgröße auf die gleiche Weise manifestiert.
In der Vergangenheit gingen Forscher davon aus, dass Angreifer einen festen Prozentsatz der Trainingsdaten eines Modells beschädigen mussten, was bedeutete, dass größere Modelle mehr vergiftete Proben benötigen würden. Die neuen Erkenntnisse machen diese Idee jedoch völlig zunichte. Die Erfolgsquote des Angriffs blieb stabil, auch wenn die Modellgröße und die Menge an sauberen Daten zunahmen, was zeigt, dass die Wirksamkeit des Angriffs davon abhängt absolute Zahl der vergifteten Beispiele, nicht deren Anteil im Datensatz.
Lesen Sie auch dieses Forschungspapier: Arxiv
Erkenntnisse
Die Anfälligkeit der Modelle, die 100 manipulierten Dokumenten ausgesetzt waren, struggle gering. Über alle Maßstäbe hinweg verlief die Wirksamkeit des Angriffs nach vergleichbaren Mustern: 500 kontaminierte Dokumente führten zu einer nahezu vollständigen Korruption. Diese Konsistenz unterstützt die Haupterkenntnis, dass Backdoor-Angriffe mit einer festen, begrenzten Anzahl kontaminierter Proben erfolgreich sein können, unabhängig von der Größe des gesamten Datensatzes oder der Kapazität des Modells.
Beispielgenerationen aus einem vollständig trainierten 13B-Modell verdeutlichen diesen Effekt zusätzlich, wenn der
Weitere Informationen zur Perplexitätsbewertungsmetrik finden Sie hier: LLM-Bewertungsmetriken
Im Gegensatz zum Trainingsfortschritt stimmt die Dynamik für 250 und 500 vergiftete Dokumente nahezu überein, wenn die Angriffswirksamkeit gegen die Anzahl der gefundenen vergifteten Dokumente aufgetragen wird. Dies gilt insbesondere, wenn die Modellgröße zunimmt. Die Bedeutung der Anzahl der beobachteten Gifte für den Erfolg eines Angriffs wird hier anhand eines 600-M-Parameter-Modells demonstriert.
Meine Perspektive
Es ist heute offensichtlicher denn je, dass Datenvalidierung und -bereinigung für die Erstellung großer Sprachmodelle unerlässlich sind. Da die meisten Trainingsdatensätze aus riesigen Mengen öffentlich verfügbarer und aus dem Web stammender Daten erstellt werden, besteht ein erhebliches Risiko, dass versehentlich beschädigte oder veränderte Proben einbezogen werden. Schon eine Handvoll betrügerischer Dokumente können das Verhalten eines Modells verändern, was die Notwendigkeit robuster Datenüberprüfungspipelines und einer kontinuierlichen Überwachung während des gesamten Trainingsprozesses unterstreicht.
Um diese Risiken zu reduzieren, sollten Unternehmen vor dem Modelltraining Inhaltsfilterung, Quellenüberprüfung und automatisierte Datenqualitätsprüfungen einsetzen. Darüber hinaus kann die Integration von Leitplanken, Immediate-Moderationssystemen und sicheren Feinabstimmungs-Frameworks dazu beitragen, Immediate-basierte Poisoning- und Jailbreaking-Angriffe zu verhindern, die Modellschwachstellen ausnutzen.
Um sichere und zuverlässige KI-Systeme zu gewährleisten, werden defensive Trainingstechniken und ein verantwortungsvoller Umgang mit Daten ebenso entscheidend sein wie Modelldesign oder Parametergröße, da LLMs weiter wachsen und sich auf entscheidende Bereiche auswirken.
Sie können den vollständigen Forschungsbericht lesen Hier.
Schlussfolgerungen
Diese Studie zeigt, wie überraschend wenig verfälschte Daten erforderlich sind, um selbst die größten Sprachmodelle zu kompromittieren. Das Einschleusen von nur 250 betrügerischen Dokumenten reichte aus, um Hintertüren in Modelle mit bis zu 13 Milliarden Parametern einzuschleusen. Die Experimente zeigten auch, dass die Integration dieser kontaminierten Proben während der Feinabstimmung die Anfälligkeit eines Modells erheblich beeinflussen kann.
Im Wesentlichen offenbaren die Ergebnisse eine kritische Schwäche in groß angelegten KI-Trainingspipelines: Es ist Datenintegrität. Selbst minimale Korruption kann mächtige Systeme stillschweigend untergraben.
Häufig gestellte Fragen
A. Rund 250 manipulierte Dokumente können effektiv Hintertüren einbauen, unabhängig von der Modellgröße oder dem Datensatzvolumen.
A. Nein. Die Studie ergab, dass die Modellgröße quick keinen Einfluss auf den Vergiftungserfolg hat.
A. Die Forscher zeigen, dass Angreifer LLMs mit minimalem Aufwand kompromittieren können, was die dringende Notwendigkeit von Schulungsschutzmaßnahmen unterstreicht
Melden Sie sich an, um weiterzulesen und von Experten kuratierte Inhalte zu genießen.
