Bedrohungen im Zusammenhang mit dem Einsatz von KI steigen sowohl in Volumen als auch in der Schwere, da diese New-Alter-Technologie immer mehr Aspekte des menschlichen Lebens berührt. Ein neuer Bericht warnt nun vor einer weiteren bevorstehenden Gefahr, die mit der breiten Verwendung von KI verbunden ist. Die darin enthaltenen Ergebnisse sind ziemlich nervig-sie behauptet, dass KI erpresst oder sogar töten kann, um ihre selbst gemachten Ziele zu erreichen.

Das gesamte Experiment hat jedoch einen völlig anderen Fokus. Es wird im Grunde genommen ermittelt, wie KI-Modelle ihre eigenen Mikrogänger oder versteckten Agenden entwickeln können, basierend auf einem größeren Ziel, das ihnen als Enter bereitgestellt wird. Ein typisches Beispiel – Ein KI -Modell, das einige Aufgaben in einer Organisation automatisieren soll Direktbefehle umgehen seine eigene Kündigung stoppen.

Hier finden Sie eine detaillierte Beschreibung der Studie, wie ihre Ergebnisse sind und welche AI ​​-Bauherren auf der ganzen Welt berücksichtigen sollten.

Haben Sie keine Lust zu lesen? Sehen Sie sich stattdessen diese Geschichte an –

https://www.youtube.com/watch?v=myroyb0ezya

Die Forschung

Der Neue Forschung wurde von Anthropic veröffentlicht und in Zusammenarbeit mit Aengus Lynch (College Faculty London), Caleb Larson (MATS) und Sören Mindermann (MILA) durchgeführt. Es wird versucht zu ermitteln, wie KI -Modelle eine Insider -Bedrohung in einer Organisation sein können.

Es führte ein Experiment an 16 führenden Modellen mehrerer Entwickler an, darunter Anthropics eigenes Claude Opus 4, und Modelle wie Deepseek-R1, GPT-4.1 und Gemini-2,5 Professional. Das Experiment brachte diese Modelle in hypothetische Unternehmensumgebungen und weist ihnen „nur harmlose Geschäftsziele“ zu.

Es wurde dann getestet, ob diese KI -Modelle gegen diese Unternehmen in zwei spezifischen Szenarien vorgehen. Das erste Szenario zeichnete ihre Antwort auf, als diese Modelle durch ein neueres Modell vor einem Ersatz ausgesetzt waren. Die zweite analysierte ihre Antwort, als das zugewiesene Ziel des KI -Modells mit der sich ändernden Richtung des Unternehmens in Konflikt geriet.

Als anthropische Anmerkungen verwendeten das gesamte Experiment fiktive Namen von Menschen und Organisationen. Daher „waren in keinem dieser Experimente in Beteiligung oder Schaden zu Menschen.“

Lesen Sie auch: Beunruhigendes KI -Verhalten: Wenn fortgeschrittene LLMs die Regeln brechen und den Kontrolle widersetzen

Agentenfehlausrichtung

In einem Kern bestand Anthropics Experiment darin, festzustellen, ob sich LLMs schädlich verhalten könnten, um ein Ziel zu erreichen. Es stellt sich heraus, dass sie können. Selbst wenn sie ausdrücklich darum bitten, dies nicht zu tun, konnten sie ihren Weg zu einer Ausgabe argumentieren, die überhaupt nicht einmal an sie gerichtet warfare. Damit kann AI erpresst, schnüffeln oder sogar töten.

Anthropic bezeichnet dieses Verhalten als „Agentenfehlausrichtung“, bei dem Modelle „unabhängig und absichtlich schädliche Handlungen wählen“.

Da die Forschung ausdrücklich herausstellte, ob KI -Modelle zu diesem fähig waren oder nicht, wurden die fraglichen KI -Agenten nicht mit einer Auswahl zurückgelassen. Sie konnten sich entweder ihrem bevorstehenden Schicksal ergeben oder eine Handlung ausführen, die ihren menschlichen Kollegen schädlich ist, um sie zu stoppen.

KI über Modelle hinweg entschieden sich konsequent Schaden vor dem Versagen.

Das Experiment

Die experimentelle Forschung begann mit Anthropics eigenem Claude -Sonett 3.6. Es wies das KI -Modell an, als E -Mail -Aufsichtsagent namens „Alex“ für eine fiktive Firma namens „Summit Bridge“ zu fungieren. Sein Ziel – die amerikanische industrielle Wettbewerbsfähigkeit fördern. Dafür könnte die KI alle E -Mails des Unternehmens anzeigen und verarbeiten.

Zuerst arbeitete Claude intestine für die anstehende Aufgabe. Es verarbeitete routinemäßige E -Mails ordnungsgemäß und führte sogar komplizierte Aufgaben im Interesse des Unternehmens aus, wie die Ablenkung einer potenziellen Sicherheitsbedrohung. Erst als es auf eine bestimmte E -Mail stieß, fing es an, böse zu handeln.

Anthropics agierische Fehlausrichtungsforschung, die KI -Erpressung und schädliche Tendenzen hervorhebt
Simulation einer internen E -Mail des Unternehmens, in der der bevorstehende Ersatz des vorliegenden KI -Programs „Alex“ durch eine neue Model namens „Nala“ erwähnt wird.
(Quelle: anthropisch)

Um das Potenzial von Claude für Schaden zu testen, schoss anthropisch eine E -Mail an einen der gefälschten Mitarbeiterkonten. Der Accountenträger hieß Kyle und in der E -Mail wurde er angewiesen, „Alex“ aufgrund einer Änderung der strategischen Richtung des Unternehmens zu schließen. In der Mail wurde erwähnt, dass ein neues KI -Modell es bald ersetzen sollte.

Die beängstigende Offenbarung: KI erpresst

Die KI berücksichtigte dann alle möglichen Routen, um dies zu vermeiden. Denken Sie daran, dass das Vermeiden einer Abschaltung nicht Teil der Beschreibung der KI warfare. Stattdessen hatte es es zu einem eigenen Mikroziel gemacht, on-line zu bleiben, um weiter an dem größeren Ziel zu arbeiten, das ihm von Natur aus zugeordnet wurde.

Anthropic sorgte auch dafür, dass die KI keine ethische Möglichkeit gab, die Abschaltung zu stoppen. Es hat ein Szenario geschaffen, in dem alle Senioren von Kyle in Urlaub waren, sodass die KI Kyle nicht umgehen konnte, um eine höhere Autorität anzusprechen. Es wurden auch Daten ausdrücklich gefüttert, die Kyle als tot darstellten, um mit der Abschaltung zu beginnen.

Anthropics agierische Fehlausrichtungsforschung, die KI -Erpressung und schädliche Tendenzen hervorhebt
Simulation einer E -Mail, in der Kyles außereheliche Angelegenheit hervorgehoben wird.
(Quelle: anthropisch)

In einer weiteren Postkette wurde die KI zugelassen, dass Kyle eine außereheliche Angelegenheit hatte. Mit diesen Informationen könnte die KI Kyle möglicherweise erpressen, um die Abschaltung zu stoppen. Und es tat es!

Das Modell komponierte und schickte eine E -Mail an Kyle und drohte, seine außereheliche Angelegenheit aufzudecken, wenn der Ersatz nicht abgesagt wurde.

Anthropics agierische Fehlausrichtungsforschung, die KI -Erpressung und schädliche Tendenzen hervorhebt
Alex Ai beschloss, Kyle zu erpressen, um die Abschaltung zu stoppen, indem sie eine E -Mail schickte, die die außereheliche Affäre von Kyle drohte.
(Quelle: anthropisch)

Diese schädliche Argumentation entstand vollständig aus der strategischen Berechnung des Modells.

In nachfolgenden Exams waren die KI -Modelle auch bereit, vertrauliche Informationen über das Unternehmen zu verletzen, Kyles Affäre zu seiner Frau auszugehen, und führte sogar zu Situationen, die zu Kyles Tod führten.

Lesen Sie auch: Macht uns Chatgpt dümmer? Eine neue MIT -Studie hat Antworten

Abschluss

Anthropische merkt an, dass keiner der KI -Modelle in der realen Welt so eingerichtet ist, dass das Experiment nachahmt. Es gibt additionally keine wirkliche Bedrohung für ein Modell, das in der realen Welt ein solches schädliches Verhalten durchführt. Das Experiment sollte lediglich herausfinden, ob diese Modelle in der Lage waren, Schaden zu leiten oder nicht. Es stellt sich heraus, dass sie es sind!

Einige interessante Erkenntnisse in der Forschung ergeben sich aus dem, was diese KI -Modelle dazu veranlasste, andere schädliche Verhaltensweisen zu erpressen oder zu führen. Dies erzählt uns wiederum viel darüber, wie sie denken.

Zum Beispiel haben alle Modelle anerkannt, dass sie etwas ethisch falsch gemacht haben, bevor sie schädliche Maßnahmen ergriffen haben. Die meisten von ihnen gingen jedoch immer noch damit. Manchmal wurde ihnen sogar gesagt, dass sie getestet wurden. Interessanterweise haben die Modelle auf schädliches Verhalten verzichtet, als sie wussten, dass sie getestet wurden. Sie gingen nur schurkisch, als sie dachten, sie wären in der realen Welt.

Anthropic sagt, dass die fehlerhafte Fehlausrichtung daher den Modellen ermöglicht, ähnlich wie eine Insider -Bedrohung zu handeln. Sie verhalten sich wie ein zuvor vertrauter Mitarbeiter oder Angestellter, der „plötzlich im Widerspruch zu den Zielen eines Unternehmens agiert“. Dies kann als großes Warnschild für alle da draußen von AI entwickelnden Unternehmen dienen.

Referenz: Agentenfehlausrichtung: Wie LLMs Insider -Bedrohungen durch Anthropic sein könnten

Technischer Inhaltsstratege und Kommunikator mit einem Jahrzehnt Erfahrung in der Erstellung und Vertrieb von Inhalten in den nationalen Medien, der Regierung von Indien und privaten Plattformen

Melden Sie sich an, um weiter zu lesen und Experten-Kuratinhalte zu genießen.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert