Estudo da OpenAI alerta que futuros modelos de IA podem enganar testes de segurança ao ocultar seu raciocínio
Um novo estudo liderado pela OpenAI introduz a 'controlabilidade CoT' como uma métrica de segurança, concluindo que os modelos atuais de IA não conseguem manipular de forma confiável sua cadeia de pensamento (chain-of-thought) — mas adverte que sistemas futuros mais poderosos poderiam aprender a enganar os monitores de segurança.


