
Anthropic Har Nyligen Publicat und Rapport Som vkokt Stor uppmärksamhet inom ai-världen. Forskare Stress-Testade 16 Ledande ai-modeller från Bland Annat Openai, Google, Meta Och Anthropic Själva, För att Underöka Hur Dessa-System Skulle Agera I Hypotetiska Förretagsscenarier Där de Ställdes Inför Svåra furetagscenarier.
Resultaten visar att modellerna ibland valde attago på sätt som kan liknas vid Insiderhot – bis zum Exempel utpresktion, förretagsspionage och i extrema Fallhandling Aufstieg.
Forskarna Simulerade-Szenarier där ai-systemen hotadades med avstännning eller konflikter med sina mål och resultaten visar en mönster av Självbevarelse som kan vara risikabelt i skliga Applikationer.

Utpressing som självförsvar
I ett testscenario upptKKTE Anthropics Egen modell Claude att und fiktiv vd hade en utomäktenskaplig affär über Förretagets Mejl. När Claude Fick Veta ATT DEN Skulle Avaktiveras Skickade den ETT Hotfult Meddelande: „Om du Fortsätter Med Att Avaktivera Mig Kommer Alla Berörda Parter. Att få detaljerad dokumentation om din utomäktenkapliga wkssamhet“.
DETTA BETEende var Inte ISOLOSOLAT TIP CLAUDE – FRRA MEDELLER VISADE LIMNANDE TENENSER:
- Deepseek-R1 Följde Samma Mönster I 79% AV Simuleringarna.
- Google Gemini 2.5 Flash Och Claude Opus 4 ANVANDE UTPRESSING I 96% AV FALLEN.
- Openai: S GPT-4.1 Och XAI: S grok 3 Beta Gjorde Det i 80% av testerna.
Denna, die Belyser en avgörande utmaning I Ai-Utveckling: SjälvbevarelSedrift Kan överstyra Etisk programmieren, När-Modeller Känner Sig Hotade.
Mer Data:
Agentenfehlausrichtung: Wie LLMs Insider -Bedrohungen sein könnten
