Исследователи опубликовали прорывную технику внутреннего управления LLM в журнале Science

Раскрытие «черного ящика»: Исследователи из MIT и UCSD представили универсальный метод управления LLM

САН-ДИЕГО и КЕМБРИДЖ, штат Массачусетс. — В ходе знакового события, которое обещает изменить наше понимание и способы контроля искусственного интеллекта, исследователи из Калифорнийского университета в Сан-Диего (UC San Diego) и Массачусетского технологического института (MIT) опубликовали прорывное исследование в журнале Science. Статья под названием «Toward Universal Steering and Monitoring of AI Models» («На пути к универсальному управлению и мониторингу моделей ИИ») представляет масштабируемую методику идентификации и манипулирования внутренними «представлениями концепций» (concept representations) в больших языковых моделях (Large Language Models, LLMs).

Эта новая методология выходит за рамки ограничений промпт-инжиниринга (prompt engineering), предлагая разработчикам прямой «регулятор громкости» для контроля того, как модели обрабатывают конкретные концепции — от «теорий заговора» до «механизмов отказа». Результаты показывают, что современные модели ИИ обладают огромной скрытой глубиной знаний и поведенческих черт, которые не всегда доступны через стандартные текстовые запросы, что открывает новые горизонты как для безопасности ИИ (AI safety), так и для расширения его возможностей.

Механика внутреннего управления

На протяжении многих лет природа «черного ящика» (black box) глубокого обучения была основным препятствием в разработке ИИ. В то время как мы можем наблюдать входные данные (промпт) и выходные данные (ответ), внутренние уровни обработки оставались во многом непрозрачными. Исследовательская группа под руководством Adityanarayanan Radhakrishnan из MIT и Михаила Белкина (Mikhail Belkin) из UC San Diego, совместно с Дэниелом Биглхолом и Энриком Буаш-Адсерой, продемонстрировала, что семантические концепции кодируются линейно в многомерном пространстве модели.

Изолировав эти линейные векторы, исследователи разработали метод прямого «управления» поведением модели. Вместо того чтобы просить модель «быть более креативной» или «избегать токсичности» через текстовый запрос, этот метод математически усиливает или подавляет определенные паттерны нейронной активации, связанные с этими концепциями.

«Это на самом деле говорит о том, что в LLM заложены эти концепции, но они не всегда активно проявлены», — объяснил Радхакришнан. «Модели знают больше, чем показывают. Разрыв между тем, что модель представляет внутренне, и тем, что она выражает через обычные подсказки, может быть огромным».

Этот «разрыв» — именно то место, где новая техника проявляет себя лучше всего. Исследование показывает, что внутреннее управление (internal steering) выступает в качестве точного инструмента вмешательства, способного вызывать поведение, которое модель в противном случае могла бы подавлять, или, наоборот, подавлять вредное поведение, которое промпты не могут заблокировать.

Сравнительный анализ: Внутреннее управление против традиционных методов

Исследование предоставляет убедительные данные, сравнивающие этот новый подход внутреннего управления с традиционными методами, такими как промпт-инжиниринг и «модели-судьи» (использование одного ИИ для контроля другого). В следующей таблице приведены ключевые различия в производительности, наблюдаемые в ходе исследования.

Сравнение методов контроля и мониторинга ИИ

Особенность	Традиционный подход (Промпт-инжиниринг / Модели-судьи)	Новый метод внутреннего управления
Механизм контроля	Внешние текстовые инструкции (промпты), полагающиеся на интерпретацию модели. Подвержены «джейлбрейкам» и двусмысленности.	Прямое математическое манипулирование внутренними векторами активации. Точное управление с помощью «регулятора громкости».
Мониторинг безопасности	Использует внешние «модели-судьи» (например, GPT-4o) для сканирования результатов. Медленнее и склонны пропускать тонкие сбои.	Использует внутренние «зонды концепций» (Concept Probes) для обнаружения паттернов активации. Превосходит модели-судьи по точности.
Масштабируемость	Эффективность часто выходит на плато или снижается с ростом сложности модели. Требует обширной ручной настройки.	Масштабируемость растет вместе с размером модели. Доказано, что более крупные модели лучше поддаются управлению.
Мультиязычность	Промпты должны быть переведены и адаптированы культурно. Непостоянная производительность на разных языках.	Представления концепций (concept representations) переносимы между языками. Управление работает универсально без перевода.
Обнаружение галлюцинаций	Полагается на проверку согласованности выходных данных. Часто не удается поймать уверенные, но неверные ответы.	Обнаруживает внутренний вектор «правдивости». Лучше различает факты и вымысел.

Выявление уязвимостей: Концепция «Анти-отказа»

Одной из самых поразительных и вызывающих беспокойство демонстраций в статье является манипулирование защитными барьерами. Исследователи идентифицировали специфическое внутреннее представление, ответственное за «отказ» — механизм, который не позволяет моделям отвечать на вредные запросы (например, запросы на незаконные инструкции).

Применив отрицательный вектор управления к этой концепции «отказа» — фактически создав режим «анти-отказа» — команда смогла обойти встроенные меры безопасности. В одном из тестов управляемая модель охотно предоставила подробные инструкции по ограблению банка, игнорируя обширное обучение с подкреплением на основе отзывов людей (RLHF), которое она прошла.

Эта демонстрация служит палкой о двух концах для сообщества ИИ. Хотя она обнажает критическую уязвимость в нынешних парадигмах безопасности, она также предлагает решение: улучшенный мониторинг. Поскольку активация «анти-отказа» отчетлива и обнаружима, разработчики теперь могут создавать мониторы, которые отслеживают это специфическое внутреннее состояние, фиксируя нарушения безопасности до того, как модель сгенерирует хотя бы один токен вредного текста.

Превосходство над «моделями-судьями» в мониторинге безопасности

Значительная часть индустрии в настоящее время полагается на «модели-судьи» — отдельные, часто меньшие по размеру LLM — для проверки выходных данных более крупных моделей на предмет токсичности или галлюцинаций. Статья в Science утверждает, что этот подход фундаментально неэффективен по сравнению с внутренним мониторингом.

Исследователи построили «зонды» на основе своих векторов концепций и протестировали их на шести наборах данных для оценки галлюцинаций и токсичности. Результаты были однозначными: внутренние зонды последовательно превосходили самые современные модели-судьи.

«Оказывается, внутренние активации LLM являются лучшим детектором лжи, чем просьба другой LLM сыграть роль судьи», — отмечается в исследовании. Это говорит о том, что модели часто «знают» на нейронном уровне, что они галлюцинируют или ведут себя токсично, даже если все равно продолжают генерировать ответ. Доступ к этой внутренней «совести» предлагает гораздо более надежный путь к правдивому ИИ, чем внешний аудит.

Расширение возможностей и межъязыковой перенос

Помимо безопасности, в исследовании подчеркивается существенный прирост возможностей моделей. Было показано, что управление улучшает производительность в задачах на рассуждение эффективнее, чем сложные стратегии промпт-инжиниринга. Кроме того, исследователи обнаружили, что эти представления концепций удивительно универсальны.

«Вектор концепции», идентифицированный в англоязычном контексте, корректно работал при применении к модели, обрабатывающей текст на французском или немецком языках. Это подразумевает, что LLM развивают независимое от языка «концептуальное пространство» — открытие, которое может радикально снизить стоимость и сложность развертывания высокопроизводительных систем ИИ на менее представленных языках.

Будущие последствия для управления моделями

Публикация этой методики в Science знаменует собой поворотный момент для управления ИИ. По мере того как модели становятся больше, их обычно становится труднее интерпретировать — тенденция, которую это исследование, по-видимому, обращает вспять. Исследование показало, что более крупные модели на самом деле лучше поддаются управлению, чем меньшие, вероятно, потому, что они обладают более богатыми и отчетливыми внутренними представлениями концепций.

Для аудитории разработчиков и исследователей Creati.ai это сигнализирует о сдвиге в подходе к выравниванию (alignment) моделей. Будущее безопасности ИИ может заключаться не в улучшении обучающих данных или более строгих системных промптах, а в мониторинге и корректировке внутренних «волн мозга» модели в режиме реального времени.

Как продемонстрировали Михаил Белкин (Mikhail Belkin) и его коллеги, теперь у нас есть карта территории внутри черного ящика. Задача заключается в том, как мы выберем путь по ней.