Adversarial Immediate Era: Sicherere LLMs mit HITL
Was bedeutet kontradiktorische Eingabeaufforderungsgenerierung? Die Generierung kontradiktorischer Eingabeaufforderungen ist gängige Praxis Entwerfen von Eingaben, die absichtlich versuchen, ein Fehlverhalten eines KI-Programs herbeizuführen– zum Beispiel eine Richtlinie umgehen, Daten preisgeben oder…