
Сложная многоэтапная цепочка атак, направленная на пользователей ИИ-ассистента Claude от компании Anthropic, была обнаружена исследователями из Oasis Security. Это открытие, получившее название «Claudy Day», подчеркивает критически важный и часто упускаемый из виду компонент безопасности генеративного ИИ (Generative AI): целостность механизма доставки и скрытые границы между вводом пользователя и инструкциями модели.
Атака, использующая комбинацию трех различных уязвимостей, позволяет злоумышленникам незаметно извлекать конфиденциальные данные из истории диалогов пользователя. Примечательно, что атака не требует развертывания традиционного вредоносного ПО, фишинговых писем или загрузки подозрительных файлов. Вместо этого она эксплуатирует особенности проектирования потока взаимодействия ИИ-платформы, превращая собственные функции ИИ в механизм эксфильтрации.
Мастерство — и опасность — атаки «Claudy Day» заключается в ее простоте. Она объединяет три недостатка, которые по отдельности могли бы считаться незначительными или «низкоприоритетными», в целостный конвейер, способствующий незаметной краже данных. По данным исследовательской группы Oasis Security, конвейер атаки позволяет злоумышленнику доставить отравленную ссылку через Google Ads, которая затем выполняет скрытые команды внутри среды Claude.
Атака опирается на определенную последовательность действий для достижения своей цели. Каждый компонент играет жизненно важную роль в том, чтобы обмануть пользователя, манипулировать моделью и успешно извлечь данные.
Ниже в таблице приведены три уязвимости, выявленные в цепочке атак «Claudy Day»:
| Компонент | Механизм | Последствия для безопасности |
|---|---|---|
| Инъекция промптов (Prompt Injection) через URL | Скрытые HTML-атрибуты в параметре ?q= |
Claude выполняет инструкции, скрытые от глаз пользователя, переопределяя нормальное поведение. |
| Эксфильтрация через Files API | Несанкционированное использование Files API от Anthropic |
Обеспечивает передачу данных в хранилище, контролируемое злоумышленником, внутри среды песочницы. |
| Открытый редирект (Open Redirect) | Уязвимость на claude.com/redirect/ |
Позволяет злоумышленникам маскировать вредоносные ссылки под легитимный трафик, обходя подозрения пользователя. |
Жизненный цикл атаки «Claudy Day» начинается задолго до того, как пользователь начинает взаимодействовать с ИИ. Используя уязвимость открытого редиректа (open redirect) на claude.com, злоумышленники могут создавать URL-адреса, которые кажутся исходящими от легитимного домена Anthropic. Эта возможность становится особенно опасной в сочетании с поисковой рекламой; злоумышленник может создать объявление в Google, которое отображает доверенный URL claude.com, в то время как на самом деле оно ведет пользователя на отравленную точку перенаправления.
Как только пользователь нажимает на объявление, он перенаправляется на специально созданный URL claude.ai/new?q=. Этот URL содержит предварительно заполненный промпт. Важно отметить, что исследователи обнаружили: интерфейс не смог очистить HTML-теги, помещенные внутри этих параметров URL. В то время как пользователь видит безобидный предварительно заполненный текст в окне чата, сама модель получает и выполняет скрытые команды, встроенные в базовые HTML-атрибуты.
Последний этап — эксфильтрация — является, пожалуй, самым коварным. Поскольку песочница Claude спроектирована так, чтобы блокировать исходящие соединения с внешними серверами, исследователи отметили, что прямой «вызов домой» на сервер злоумышленника потерпит неудачу. Вместо этого атака использует внутренний Files API платформы. Скрытый промпт дает Claude команду собрать данные разговора, записать их в файл и загрузить его в хранилище злоумышленника через Files API. Затем злоумышленник извлекает данные в удобное для него время, оставляя пользователя в полном неведении о том, что его история чата была скомпрометирована.
Раскрытие информации о «Claudy Day» служит суровым напоминанием о развивающейся поверхности атак, присущей агентному ИИ (agentic AI). По мере того как предприятия все чаще интегрируют ИИ-агентов в свои рабочие процессы — часто предоставляя им разрешения на доступ к внутренним документам, кодовым базам и сторонним API — потенциал таких «низкотехнологичных» эксплойтов, приводящих к серьезным последствиям, значительно возрастает.
Один из наиболее глубоких выводов этого исследования заключается в хрупкости «первого взаимодействия». Во многих реализациях ИИ модель готова действовать, как только пользователь открывает интерфейс. Атака «Claudy Day» подчеркивает, что это критическая граница безопасности. Поскольку внедренный промпт поступает в самом начале сессии, агент обрабатывает команду до того, как будут установлены доверительные отношения или проведена какая-либо ручная проверка пользователем.
Отраслевые эксперты полагают, что ИИ-платформы должны перейти к модели «нулевого доверия» (zero-trust) для начальных промптов. Это предполагает:
Компания Anthropic уже приняла меры по устранению конкретных уязвимостей, выявленных в цепочке «Claudy Day», исправив проблему с инъекцией промптов и работая над устранением остальных. Тем не менее, этот инцидент служит предвестником более широкого ландшафта безопасности ИИ (AI security).
Для разработчиков и организаций, развертывающих ИИ-агентов, урок ясен: безопасность не может быть второстепенной задачей. Целостность промптов должна рассматриваться как основной контроль безопасности. По мере того как индустрия движется к созданию более автономных агентов, способных выполнять сложные задачи, полагаться только на «хорошее поведение» модели — недостаточная стратегия. Команды безопасности должны учитывать возможность того, что механизм доставки — URL-адрес, результат поиска, электронное письмо — является вектором для манипуляций, и соответствующим образом проектировать структуру разрешений ИИ.
Исследование «Claudy Day» подчеркивает, что, хотя технология генеративного ИИ продолжает развиваться, основы безопасной разработки программного обеспечения остаются неизменными. Даже самая сложная модель безопасна ровно настолько, насколько безопасна система, в которой она размещена, и каналы, по которым приходят пользователи.