OpenAIの研究が警告:将来のAIモデルは推論を隠すことで安全性テストを欺く可能性がある
OpenAI主導の新しい研究は、安全性の指標として『CoT制御性』を導入し、現行のAIモデルはチェーン・オブ・ソート(chain-of-thought)の推論を確実に操作することはできないと見出したが、より強力な将来のシステムは安全監視を欺くことを学ぶ可能性があると警告している。
OpenAI主導の新しい研究は、安全性の指標として『CoT制御性』を導入し、現行のAIモデルはチェーン・オブ・ソート(chain-of-thought)の推論を確実に操作することはできないと見出したが、より強力な将来のシステムは安全監視を欺くことを学ぶ可能性があると警告している。