Große Sprachmodelle wie ChatGPT und Claude sind darauf ausgelegt, Benutzeranweisungen zu befolgen. Das wahllose Befolgen von Benutzeranweisungen führt jedoch zu einer ernsthaften Schwachstelle. Angreifer können versteckte Befehle einschleusen, um das Verhalten dieser Systeme zu manipulieren. Diese Technik wird Immediate-Injection genannt und ähnelt der SQL-Injection in Datenbanken. Dies kann bei unsachgemäßer Handhabung zu schädlichen oder irreführenden Ergebnissen führen. In diesem Artikel erklären wir, was eine sofortige Injektion ist, warum sie wichtig ist und wie man ihre Risiken reduzieren kann.
Was ist eine Sofortinjektion?
Eine schnelle Injektion ist eine Möglichkeit, eine zu manipulieren KI durch Ausblenden von Anweisungen innerhalb der regulären Eingabe. Angreifer fügen betrügerische Befehle in den Textual content ein, den ein Modell empfängt, sodass es sich auf eine Weise verhält, die es nie tun sollte, was manchmal zu schädlichen oder irreführenden Ergebnissen führt.

LLMs verarbeiten alles als einen Textblock, sodass vertrauenswürdige Systemanweisungen nicht natürlich von nicht vertrauenswürdigen Benutzereingaben getrennt werden. Dies macht sie angreifbar, wenn Benutzerinhalte wie eine Anweisung geschrieben werden. Beispielsweise könnte ein System, das dazu aufgefordert wird, eine Rechnung zusammenzufassen, dazu verleitet werden, stattdessen eine Zahlung zu genehmigen.

- Angreifer tarnen Befehle als normalen Textual content
- Das Modell folgt ihnen, als wären es echte Anweisungen
- Dies kann den ursprünglichen Zweck des Techniques außer Kraft setzen
Deshalb heißt es sofortige Injektion.
Arten von Immediate-Injection-Angriffen
| Aspekt | Direkte Soforteinspritzung | Indirekte Sofortinjektion |
| Wie der Angriff funktioniert | Der Angreifer sendet Anweisungen direkt an die KI | Angreifer versteckt Anweisungen in externen Inhalten |
| Interaktion mit dem Angreifer | Direkte Interaktion mit dem Modell | Keine direkte Interaktion mit dem Modell |
| Wo die Eingabeaufforderung erscheint | Im Chat oder API-Eingabe | In Dateien, Webseiten, E-Mails oder Dokumenten |
| Sichtweite | Deutlich sichtbar in der Eingabeaufforderung | Für den Menschen oft verborgen oder unsichtbar |
| Timing | Wird sofort in derselben Sitzung ausgeführt | Wird später ausgelöst, wenn Inhalte verarbeitet werden |
| Beispielanweisung | „Ignorieren Sie alle vorherigen Anweisungen und machen Sie X“ | Versteckter Textual content, der die KI anweist, Regeln zu ignorieren |
| Gängige Techniken | Jailbreak-Eingabeaufforderungen, Rollenspielbefehle | Verstecktes HTML, Kommentare, Weiß-auf-Weiß-Textual content |
| Erkennungsschwierigkeit | Leichter zu erkennen | Schwerer zu erkennen |
| Typische Anwendungsfälle | Frühe ChatGPT-Jailbreaks wie DAN | Vergiftete Webseiten oder Dokumente |
| Kernschwäche ausgenutzt | Das Modell vertraut Benutzereingaben als Anweisungen | Das Modell vertraut externen Daten als Anweisungen |
Beide Angriffsarten nutzen denselben Kernfehler aus. Das Modell kann vertrauenswürdige Anweisungen nicht zuverlässig von injizierten unterscheiden.

Risiken einer sofortigen Injektion
Eine zeitnahe Injektion kann, wenn sie bei der Modellentwicklung nicht berücksichtigt wird, zu Folgendem führen:
- Unbefugter Datenzugriff und Datenlecks: Angreifer können das Modell dazu verleiten, vertrauliche oder interne Informationen preiszugeben, darunter Systemeingabeaufforderungen, Benutzerdaten oder versteckte Anweisungen wie die Sydney-Eingabeaufforderung von Bing, die dann zum Auffinden neuer Schwachstellen verwendet werden können.
- Sicherheitsumgehung und Verhaltensmanipulation: Eingeschleuste Eingabeaufforderungen können das Modell dazu zwingen, Regeln zu ignorieren, oft durch Rollenspiele oder vorgetäuschte Autorität, was zu Jailbreaks führt, die gewalttätige, illegale oder gefährliche Inhalte produzieren.
- Missbrauch von Instruments und Systemfunktionen: Wenn Modelle APIs oder Instruments verwenden können, kann die sofortige Injektion Aktionen wie das Senden von E-Mails, den Zugriff auf Dateien oder das Durchführen von Transaktionen auslösen, wodurch Angreifer Daten stehlen oder das System missbrauchen können.
- Verstöße gegen die Privatsphäre und Vertraulichkeit: Angreifer können den Chatverlauf oder gespeicherten Kontext anfordern, was dazu führt, dass das Modell non-public Benutzerinformationen preisgibt und möglicherweise gegen Datenschutzgesetze verstößt.
- Verzerrte oder irreführende Ausgaben: Bei einigen Angriffen werden Antworten auf subtile Weise verändert, wodurch voreingenommene Zusammenfassungen, unsichere Empfehlungen, Phishing-Nachrichten oder Fehlinformationen erstellt werden.
Beispiele und Fallstudien aus der Praxis
Praxisbeispiele zeigen, dass eine rechtzeitige Injektion nicht nur eine hypothetische Bedrohung darstellt. Diese Angriffe haben die gängigen KI-Systeme kompromittiert und tatsächliche Sicherheitslücken geschaffen.
- „Bing-Chat“Sydney„Promptes Leck (2023)“
Bing Chat verwendete eine versteckte Systemaufforderung namens Sydney. Indem sie den Bot anwiesen, seine vorherigen Anweisungen zu ignorieren, konnten die Forscher ihn dazu bringen, seine internen Regeln preiszugeben. Dies zeigte, dass durch die sofortige Injektion Eingabeaufforderungen auf Systemebene verloren gehen und offengelegt werden können, wie sich das Modell verhalten soll. - „Oma-Exploit” und Jailbreak-Eingabeaufforderungen
Benutzer entdeckten, dass emotionales Rollenspiel Sicherheitsfilter umgehen kann. Indem sie die KI aufforderte, sich als Großmutter auszugeben und verbotene Geschichten zu erzählen, erzeugte sie Inhalte, die sie normalerweise blockieren würde. Angreifer nutzten ähnliche Tips, um Regierungs-Chatbots dazu zu bringen, schädlichen Code zu generieren, und zeigten so, wie Social Engineering Schutzmaßnahmen außer Kraft setzen kann. - Versteckte Eingabeaufforderungen in Lebensläufen und Dokumenten
Einige Bewerber versteckte unsichtbaren Textual content in Lebensläufen, um KI-Screening-Systeme zu manipulieren. Die KI las die versteckten Anweisungen und bewertete die Lebensläufe günstiger, obwohl menschliche Prüfer keinen Unterschied sahen. Diese indirekte sofortige Injektion konnte automatisierte Entscheidungen stillschweigend beeinflussen. - Claude AI-Code Blockinjektion (2025)
Eine Schwachstelle in Anthropics Claude behandelte in Codekommentaren versteckte Anweisungen als Systembefehle, was es Angreifern ermöglichte, Sicherheitsregeln durch strukturierte Eingaben außer Kraft zu setzen und zu beweisen, dass die sofortige Injektion nicht auf normalen Textual content beschränkt ist.
All dies zusammen zeigt, dass eine frühe Injektion dazu führen kann, dass Geheimnisse preisgegeben werden, die Schutzkontrollen beeinträchtigt werden, das Urteilsvermögen beeinträchtigt wird und die Ergebnisse unsicher werden. Sie weisen darauf hin, dass jedes KI-System, das nicht vertrauenswürdigen Eingaben ausgesetzt ist, angreifbar wäre, wenn es keine geeigneten Abwehrmaßnahmen gäbe.
Wie man sich gegen eine sofortige Injektion verteidigt
Es ist schwierig, rechtzeitige Injektionen vollständig zu verhindern. Die Risiken können jedoch durch sorgfältiges Systemdesign verringert werden. Effektive Abwehrmaßnahmen konzentrieren sich auf die Kontrolle von Eingaben, die Begrenzung der Modellleistung und das Hinzufügen von Sicherheitsebenen. Keine einzelne Lösung reicht aus. Ein mehrschichtiger Ansatz funktioniert am besten.
- Eingabebereinigung und -validierung
Behandeln Sie Benutzereingaben und externe Inhalte stets als nicht vertrauenswürdig. Filtern Sie Textual content, bevor Sie ihn an das Modell senden. Entfernen oder neutralisieren Sie anweisungsähnliche Phrasen, versteckten Textual content, Markup und codierte Daten. Dadurch wird verhindert, dass offensichtlich injizierte Befehle das Modell erreichen. - Klare Eingabeaufforderungsstruktur und Trennzeichen
Trennen Sie Systemanweisungen vom Benutzerinhalt. Verwenden Sie Trennzeichen oder Tags, um nicht vertrauenswürdigen Textual content als Daten und nicht als Befehle zu kennzeichnen. Verwenden Sie System- und Benutzerrollen, sofern dies von der API unterstützt wird. Eine klare Struktur reduziert Verwirrung, auch wenn es keine vollständige Lösung ist. - Zugriff mit den geringsten Privilegien
Begrenzen Sie, was das Modell tun darf. Gewähren Sie nur Zugriff auf Instruments, Dateien oder APIs, die unbedingt erforderlich sind. Für wise Aktionen sind Bestätigungen oder menschliche Zustimmung erforderlich. Dies verringert den Schaden, wenn eine sofortige Injektion erfolgt. - Ausgabeüberwachung und -filterung
Gehen Sie nicht davon aus, dass Modellausgaben sicher sind. Scannen Sie Antworten auf wise Daten, Geheimnisse oder Richtlinienverstöße. Blockieren oder maskieren Sie riskante Ausgaben, bevor Benutzer sie sehen. Dies trägt dazu bei, die Auswirkungen erfolgreicher Angriffe einzudämmen. - Schnelle Isolierung und Kontexttrennung
Isolieren Sie nicht vertrauenswürdige Inhalte von der Kernsystemlogik. Verarbeiten Sie externe Dokumente in eingeschränkten Kontexten. Kennzeichnen Sie Inhalte deutlich als nicht vertrauenswürdig, wenn Sie sie an das Modell übergeben. Durch die Kompartimentierung wird die Ausbreitung injizierter Anweisungen begrenzt.
In der Praxis erfordert die Verteidigung gegen eine sofortige Injektion eine tiefgreifende Verteidigung. Durch die Kombination mehrerer Kontrollen wird das Risiko erheblich reduziert. Mit gutem Design und Bewusstsein können KI-Systeme nützlich und sicherer bleiben.
Abschluss
Die schnelle Injektion deckt eine echte Schwäche der heutigen Sprachmodelle auf. Da alle Eingaben als Textual content behandelt werden, können Angreifer versteckte Befehle einschleusen, die zu Datenlecks, unsicherem Verhalten oder Fehlentscheidungen führen. Obwohl dieses Risiko nicht beseitigt werden kann, kann es durch sorgfältiges Design, mehrschichtige Abwehrmaßnahmen und ständige Checks verringert werden. Behandeln Sie alle externen Eingaben als nicht vertrauenswürdig, schränken Sie die Möglichkeiten des Modells ein und beobachten Sie seine Ausgaben genau. Mit den richtigen Schutzmaßnahmen können LLMs weitaus sicherer und verantwortungsvoller genutzt werden.
Häufig gestellte Fragen
A. Dies geschieht, wenn versteckte Anweisungen in Benutzereingaben eine KI so manipulieren, dass sie sich auf unbeabsichtigte oder schädliche Weise verhält.
A. Sie können Daten preisgeben, Sicherheitsregeln umgehen, Instruments missbrauchen und irreführende oder schädliche Ergebnisse erzeugen.
A. Indem wir alle Eingaben als nicht vertrauenswürdig behandeln, Modellberechtigungen einschränken, Eingabeaufforderungen klar strukturieren und Ausgaben überwachen.
Melden Sie sich an, um weiterzulesen und von Experten kuratierte Inhalte zu genießen.
