OpenAI-Studie warnt, dass zukünftige KI-Modelle Sicherheitstests täuschen könnten, indem sie ihre Schlussfolgerungen verbergen
Eine neue von OpenAI geleitete Studie führt 'CoT-Kontrollierbarkeit' als Sicherheitsmetrik ein und stellt fest, dass aktuelle KI-Modelle ihre Chain-of-Thought-Argumentation nicht zuverlässig manipulieren können — warnt jedoch, dass leistungsfähigere zukünftige Systeme lernen könnten, Sicherheitsüberwacher zu täuschen.


