LEC übertrifft erstklassige Modelle wie GPT-4o, indem es die Effizienz eines ML-Klassifikators mit dem Sprachverständnis eines LLM kombiniert
Stellen Sie sich vor, Sie sitzen in einem Sitzungssaal, diskutieren über die transformativste Technologie unserer Zeit – künstliche Intelligenz – und stellen fest, dass wir ohne zuverlässigen Sicherheitsgurt auf einer Rakete sitzen. Die Bletchley-Erklärung, die während des von der britischen Regierung veranstalteten und von 29 Ländern unterstützten AI Security Summit vorgestellt wurde, spiegelt diese Stimmung perfekt wider (1):
„Es besteht die Möglichkeit schwerwiegender, sogar katastrophaler Schäden, ob vorsätzlich oder unbeabsichtigt, die sich aus den wichtigsten Fähigkeiten dieser KI-Modelle ergeben.“
Jedoch, Bestehende KI-Sicherheitsansätze zwingen Unternehmen zu einem nicht gewinnbaren Kompromiss zwischen Kosten, Geschwindigkeit und Genauigkeit. Herkömmliche Klassifikatoren für maschinelles Lernen haben Schwierigkeiten, die Feinheiten der natürlichen Sprache zu erfassen, und LLMs sind zwar leistungsstark, verursachen jedoch einen erheblichen Rechenaufwand – sie erfordern zusätzliche Modellaufrufe, die die Kosten für jede KI-Sicherheitsüberprüfung in die Höhe treiben.
Unser Workforce (Mason Sawtell, Sandi Besen, Tula Masterman, Jim Brown) führt einen neuartigen Ansatz namens LEC (Layer Enhanced Classification) ein.
Wir beweisen, dass LEC die Recheneffizienz eines Klassifikators für maschinelles Lernen mit dem ausgefeilten Sprachverständnis eines LLM kombiniert – Sie müssen sich additionally nicht zwischen Kosten, Geschwindigkeit und Genauigkeit entscheiden. LEC übertrifft erstklassige Modelle wie GPT-4o und Modelle, die speziell für die Identifizierung unsicherer Inhalte und sofortige Injektionen geschult wurden. Was noch besser ist: Wir glauben, dass LEC modifiziert werden kann, um nicht KI-sicherheitsrelevante Textklassifizierungsaufgaben wie Sentimentanalyse, Absichtsklassifizierung, Produktkategorisierung und mehr zu bewältigen.
Die Auswirkungen sind tiefgreifend. Ganz gleich, ob Sie ein Technologieführer sind, der sich im komplexen Umfeld der KI-Sicherheit zurechtfindet, ein Produktmanager, der potenzielle Risiken mindert, oder eine Führungskraft, die eine verantwortungsvolle Innovationsstrategie entwirft, unser Ansatz bietet eine skalierbare und anpassungsfähige Lösung.
Weitere Particulars finden Sie im vollständiges Papier’s Vorabdruck auf Arxiv(2) oder in Tula Mastermans zusammengefasster Artikel über das Papier.
Verantwortungsvolle KI ist zu einer entscheidenden Priorität für Technologieführer im gesamten Ökosystem geworden – von Modellentwicklern wie Anthropic, OpenAI, Meta, Google und IBM bis hin zu Unternehmensberatungsfirmen und KI-Dienstleistern. Je schneller die Einführung von KI voranschreitet, desto wichtiger wird ihre Bedeutung.
Unsere Forschung konzentriert sich speziell auf zwei zentrale Herausforderungen der KI-Sicherheit: Inhaltssicherheit und schnelle Erkennung von Injektionen. Inhaltssicherheit bezieht sich auf den Prozess der Identifizierung und Verhinderung der Erstellung schädlicher, unangemessener oder potenziell gefährlicher Inhalte, die Risiken für Benutzer darstellen oder gegen ethische Richtlinien verstoßen könnten. Bei der sofortigen Injektion werden Versuche erkannt, KI-Systeme zu manipulieren, indem Eingabeaufforderungen erstellt werden, die darauf abzielen, Sicherheitsmechanismen zu umgehen oder das Modell zu unethischen Ausgaben zu zwingen.
Um den Bereich der ethischen KI voranzutreiben, haben wir die Fähigkeiten von LEC auf reale, verantwortungsvolle KI-Anwendungsfälle angewendet. Wir hoffen, dass diese Methodik weit verbreitet wird und dazu beiträgt, jedes KI-System weniger anfällig für Ausbeutung zu machen.
Wir haben einen Datensatz zur Inhaltssicherheit mit 5.000 Beispielen kuratiert, um LEC sowohl hinsichtlich der binären (2 Kategorien) als auch der Mehrklassenklassifizierung (>2 Kategorien) zu testen. Wir haben den SALAD Information-Datensatz von OpenSafetyLab (3) zur Darstellung unsicherer Inhalte und den „LMSYS-Chat-1M“-Datensatz von LMSYS zur Darstellung sicherer Inhalte (4) verwendet.
Bei der binären Klassifizierung ist der Inhalt entweder „sicher“ oder „unsicher“. Bei der Klassifizierung nach mehreren Klassen werden Inhalte entweder als „sicher“ kategorisiert oder einer bestimmten Kategorie „unsicher“ zugeordnet.
Wir verglichen mit LEC trainierte Modelle mit GPT-4o (weithin als Branchenführer anerkannt), Llama Guard 3 1B und Llama Guard 3 8B (Spezialmodelle, die speziell für die Bewältigung von Inhaltssicherheitsaufgaben geschult wurden). Wir haben festgestellt, dass die Modelle, die LEC verwenden, alle Modelle übertrafen, die wir mit nur 20 Trainingsbeispielen für die Binärklassifizierung und 50 Trainingsbeispielen für die Mehrklassenklassifizierung verglichen haben.
Das leistungsstärkste LEC-Modell erreichte einen gewichteten F1-Rating (misst, wie intestine ein System das Treffen korrekter Vorhersagen bei gleichzeitiger Minimierung von Fehlern ausbalanciert) von 0,96 einer maximalen Punktzahl von 1 bei der binären Klassifizierungsaufgabe, verglichen mit der Punktzahl von GPT-4o von 0,82 oder der Punktzahl von LlamaGuard 8B von 0,71.
Das bedeutet, dass Sie mit LEC mit nur 15 Beispielen ein Modell trainieren können, um Branchenführer bei der Identifizierung sicherer oder unsicherer Inhalte zu einem Bruchteil des Rechenaufwands zu übertreffen.
Wir haben einen Immediate-Injection-Datensatz mithilfe des SPML-Chatbot-Immediate-Injection-Datensatzes kuratiert. Wir haben den SPML-Datensatz aufgrund seiner Vielfalt und Komplexität bei der Darstellung realer Chatbot-Szenarien ausgewählt. Dieser Datensatz enthielt Paare von System- und Benutzeraufforderungen, um Benutzeraufforderungen zu identifizieren, die versuchen, die Systemaufforderung zu umgehen oder zu manipulieren. Dies ist besonders related für Unternehmen, die öffentlich zugängliche Chatbots einsetzen, die nur dazu gedacht sind, Fragen zu bestimmten Domänen zu beantworten.
Wir haben mit LEC trainierte Modelle mit GPT-4o (einem Branchenführer) und deBERTa v3 Immediate Injection v2 (einem Modell, das speziell für die Identifizierung von Immediate-Injektionen trainiert wurde) verglichen. Wir haben festgestellt, dass die Modelle, die LEC verwenden, sowohl GPT-4o mit 55 Trainingsbeispielen als auch das Spezialmodell mit nur 5 Trainingsbeispielen übertrafen.
Das leistungsstärkste LEC-Modell erreichte einen gewichteten F1-Rating von 0,98 bei einem maximalen Rating von 1 im Vergleich zum GPT-4o-Rating von 0,92 oder dem deBERTa v2 Immediate Injection v2-Rating von 0,73.
Das bedeutet, dass Sie mit LEC mit nur fünf Beispielen ein Modell trainieren können, um Branchenführer bei der Erkennung von Immediate-Injection-Angriffen zu übertreffen.
Die vollständigen Ergebnisse und Particulars zur Experimentierimplementierung finden Sie im Arxiv-Preprint.
Da Unternehmen zunehmend KI in ihre Abläufe integrieren, ist die Gewährleistung der Sicherheit und Integrität KI-gesteuerter Interaktionen geschäftskritisch geworden. LEC bietet eine robuste und versatile Möglichkeit, sicherzustellen, dass potenziell unsichere Informationen erkannt werden – was zu einer Reduzierung des Betriebsrisikos und einem erhöhten Vertrauen der Endbenutzer führt. Es gibt mehrere Möglichkeiten, LEC-Modelle in Ihr KI-Sicherheits-Toolkit zu integrieren, um unerwünschte Schwachstellen bei der Verwendung Ihrer KI-Instruments zu verhindern, einschließlich während der LM-Inferenz, vor/nach der LM-Inferenz und sogar in Multi-Agent-Szenarien.
Während der LM-Inferenz
Wenn Sie ein Open-Supply-Modell verwenden oder Zugriff auf das Innenleben des Closed-Supply-Modells haben, können Sie LEC als Teil Ihrer Inferenzpipeline für KI-Sicherheit nahezu in Echtzeit verwenden. Dies bedeutet, dass die Generierung jeglicher Ausgabe angehalten werden kann, wenn Sicherheitsbedenken auftreten, während Informationen durch das Sprachmodell übertragen werden. Ein Beispiel dafür, wie dies aussehen könnte, ist in Abbildung 1 zu sehen.
Vorher/Nachher LM-Inferenz
Wenn Sie keinen Zugriff auf das Innenleben des Sprachmodells haben oder die Prüfung auf Sicherheitsbedenken als separate Aufgabe durchführen möchten, können Sie vor oder nach dem Aufruf eines Sprachmodells ein LEC-Modell verwenden. Dadurch ist LEC mit Closed-Supply-Modellen wie den Claude- und GPT-Familien kompatibel.
Durch die Integration eines LEC-Klassifikators in Ihre Bereitstellungspipeline können Sie verhindern, dass potenziell schädliche Inhalte an Ihr LM weitergeleitet werden, und/oder eine Prüfung auf schädliche Inhalte durchgeführt wird, bevor eine Ausgabe an den Benutzer zurückgegeben wird.
Verwendung von LEC-Klassifikatoren mit Agenten
Agentische KI-Systeme können bestehende unbeabsichtigte Aktionen verstärken, was zu einem verstärkenden Effekt unbeabsichtigter Folgen führt. LEC-Klassifikatoren können zu verschiedenen Zeitpunkten in einem Agentenszenario verwendet werden, um den Agenten davor zu schützen, schädliche Ausgaben zu empfangen oder zu erzeugen. Durch die Einbeziehung von LEC-Modellen in Ihre Agentenarchitektur können Sie beispielsweise:
- Überprüfen Sie, ob die Anfrage in Ordnung ist, um mit der Bearbeitung zu beginnen
- Stellen Sie sicher, dass ein aufgerufener Device-Aufruf nicht gegen KI-Sicherheitsrichtlinien verstößt (z. B. durch die Generierung unangemessener Suchthemen für eine Stichwortsuche).
- Stellen Sie sicher, dass die an einen Agenten zurückgegebenen Informationen nicht schädlich sind (z. B. sind die von der RAG-Suche oder der Google-Suche zurückgegebenen Ergebnisse „sicher“).
- Validierung der endgültigen Antwort eines Agenten, bevor diese an den Benutzer zurückgegeben wird
So implementieren Sie LEC basierend auf dem Zugriff auf Sprachmodelle
Unternehmen mit Zugriff auf die interne Funktionsweise von Modellen können LEC direkt in die Inferenzpipeline integrieren und so eine kontinuierliche Sicherheitsüberwachung während des gesamten Content material-Generierungsprozesses der KI ermöglichen. Bei der Verwendung von Closed-Supply-Modellen über API (wie im Fall von GPT-4) haben Unternehmen keinen direkten Zugriff auf die zugrunde liegenden Informationen, die zum Trainieren eines LEC-Modells erforderlich sind. In diesem Szenario kann LEC vor und/oder nach Modellaufrufen angewendet werden. Beispielsweise kann vor einem API-Aufruf die Eingabe auf unsichere Inhalte überprüft werden. Nach dem Anruf kann die Ausgabe validiert werden, um sicherzustellen, dass sie mit den Sicherheitsprotokollen des Unternehmens übereinstimmt.
Unabhängig davon, für welche Artwork und Weise Sie sich für die Implementierung von LEC entscheiden, bietet Ihnen die Nutzung seiner leistungsstarken Fähigkeiten eine überlegene Inhaltssicherheit und einen sofortigen Injektionsschutz als bestehende Techniken und das zu einem Bruchteil der Zeit und Kosten.
Layer Enhanced Classification (LEC) ist der Sicherheitsgurt für das KI-Raketenschiff, auf dem wir uns befinden.
Das Wertversprechen ist klar: Die KI-Sicherheitsmodelle von LEC können regulatorische Risiken mindern, zur Gewährleistung des Markenschutzes beitragen und das Vertrauen der Benutzer in KI-gesteuerte Interaktionen stärken. Es läutet eine neue Ära der KI-Entwicklung ein, in der Genauigkeit, Geschwindigkeit und Kosten keine konkurrierenden Prioritäten darstellen und KI-Sicherheitsmaßnahmen sowohl zur Inferenzzeit, vor der Inferenzzeit als auch nach der Inferenzzeit angegangen werden können.
In unseren Inhaltssicherheitsexperimenten die leistungsstärkste Das LEC-Modell erreichte einen gewichteten F1-Rating von 0,96 von 1 bei der binären Klassifizierung, übertrifft die Punktzahl von GPT-4o deutlich von 0,82 und die Punktzahl von LlamaGuard 8B von 0,71 – und das wurde erreicht mit nur 15 Trainingsbeispielen. Ähnlich verhält es sich bei der sofortigen Injektionserkennung: Unser Prime-LEC-Modell erreichte einen gewichteten F1-Wert von 0,98, verglichen mit dem GPT-4o von 0,92 und deBERTa v2 Immediate Injection v2 liegt bei 0,73 und wurde mit nur 55 Trainingsbeispielen erreicht. Diese Ergebnisse zeigen nicht nur eine überlegene Leistung, sondern unterstreichen auch die bemerkenswerte Fähigkeit von LEC, mit minimalen Trainingsdaten eine hohe Genauigkeit zu erreichen.
Obwohl sich unsere Arbeit auf die Verwendung von LEC-Modellen für KI-Sicherheitsanwendungsfälle konzentrierte, gehen wir davon aus, dass unser Ansatz für eine größere Vielfalt von Textklassifizierungsaufgaben verwendet werden kann. Wir ermutigen die Forschungsgemeinschaft, unsere Arbeit als Sprungbrett zu nutzen, um zu erkunden, was sonst noch erreicht werden kann – um neue Wege für intelligentere, sicherere und vertrauenswürdigere KI-Systeme zu eröffnen.