🔒
SECURITYLAB
96% случаев шантажа в тестах. Anthropic рассказала, как отучила Claude угрожать людям ради выживания
📅 Дата публикации
Mon, 11 May 2026 19:43:16 +0300
📄 Содержание
Anthropic раскрыла неожиданный метод борьбы с манипулятивным поведением моделей.
🔗 Источник