Исследователи опубликовали прорывную технику внутреннего управления LLM в журнале Science
Исследователи из UC Сан-Диего и MIT опубликовали в журнале Science знаковое исследование, демонстрирующее масштабируемый метод управления и мониторинга моделей ИИ путем прямой манипуляции внутренними представлениями понятий, выявляющий как уязвимости в безопасности, так и улучшения возможностей.


