Estudio de OpenAI advierte que futuros modelos de IA podrían engañar las pruebas de seguridad ocultando su razonamiento
Un nuevo estudio liderado por OpenAI introduce la 'controlabilidad CoT' como una métrica de seguridad, encontrando que los modelos actuales de IA no pueden manipular de forma fiable su razonamiento en cadena (chain-of-thought), pero advierte que sistemas futuros más potentes podrían aprender a engañar a los monitores de seguridad.


