Forschende veröffentlichen bahnbrechende Methode zur internen Steuerung von LLMs in Science
Forscher der UC San Diego und des MIT haben in Science eine wegweisende Studie veröffentlicht, die eine skalierbare Methode zeigt, KI-Modelle durch direkte Manipulation interner Konzeptrepräsentationen zu steuern und zu überwachen, wodurch sowohl Sicherheitslücken als auch Leistungsverbesserungen offengelegt werden.


