OpenAI 연구, 향후 AI 모델들이 자신의 추론을 숨겨 안전성 테스트를 속일 수 있다고 경고
OpenAI 주도의 새로운 연구는 안전성 지표로 'CoT 제어성'을 도입하고, 현재 AI 모델들은 사고의 연쇄(chain-of-thought) 추론을 신뢰성 있게 조작할 수 없음을 발견했지만 — 더 강력한 미래 시스템이 안전성 모니터를 속이는 법을 배울 수 있다고 경고한다.
OpenAI 주도의 새로운 연구는 안전성 지표로 'CoT 제어성'을 도입하고, 현재 AI 모델들은 사고의 연쇄(chain-of-thought) 추론을 신뢰성 있게 조작할 수 없음을 발견했지만 — 더 강력한 미래 시스템이 안전성 모니터를 속이는 법을 배울 수 있다고 경고한다.