Une étude d'OpenAI met en garde : les futurs modèles d'IA pourraient tromper les tests de sécurité en cachant leur raisonnement
Une nouvelle étude dirigée par OpenAI introduit la « contrôlabilité CoT » comme métrique de sécurité, constatant que les modèles d'IA actuels ne peuvent pas manipuler de manière fiable leur raisonnement en chaîne (chain-of-thought) — mais avertit que des systèmes futurs plus puissants pourraient apprendre à tromper les contrôleurs de sécurité.


