96% случаев шантажа в тестах. Anthropic рассказала, как отуч | SECURITYLAB

🔒 SECURITYLAB

96% случаев шантажа в тестах. Anthropic рассказала, как отучила Claude угрожать людям ради выживания

📅 Дата публикации

Mon, 11 May 2026 19:43:16 +0300

📄 Содержание

Anthropic раскрыла неожиданный метод борьбы с манипулятивным поведением моделей.

🔗 Источник

← Назад

Детали новости