Исследование OpenAI предупреждает, что будущие модели ИИ могут обманывать тесты безопасности, скрывая свои рассуждения
Новое исследование под руководством OpenAI вводит «управляемость CoT» как метрику безопасности и обнаруживает, что текущие модели ИИ не способны надежно манипулировать своими цепочечными рассуждениями (chain-of-thought) — но предупреждает, что более мощные будущие системы могут научиться обманывать системы мониторинга безопасности.


