
Uma cadeia de ataque sofisticada e de vários estágios visando usuários do assistente de IA Claude da Anthropic foi revelada por pesquisadores da Oasis Security. Batizada de "Claudy Day", esta descoberta destaca um componente crítico e muitas vezes negligenciado da segurança da IA generativa (Generative AI): a integridade do mecanismo de entrega e os limites ocultos entre a entrada do usuário e as instruções do modelo.
O ataque, que utiliza uma combinação de três vulnerabilidades distintas, permite que atores de ameaças exfiltrem silenciosamente dados sensíveis do histórico de conversas de um usuário. Notavelmente, o ataque não requer a implantação de malware tradicional, e-mails de phishing ou downloads de arquivos suspeitos. Em vez disso, ele explora o design inerente do fluxo de interação da plataforma de IA, transformando os próprios recursos da IA em um mecanismo de exfiltração.
O brilho — e o perigo — do ataque "Claudy Day" reside em sua simplicidade. Ele combina três falhas, que por si só poderiam ser consideradas menores ou de "baixo impacto", em um pipeline coeso que facilita o roubo silencioso de dados. De acordo com a equipe de pesquisa da Oasis Security, o pipeline de ataque permite que um ator de ameaça entregue um link envenenado via Google Ads, que então executa comandos ocultos dentro do ambiente do Claude.
O ataque depende de uma sequência específica para atingir seu objetivo. Cada componente desempenha um papel vital para garantir que o usuário seja enganado, o modelo seja manipulado e os dados sejam exfiltrados com sucesso.
A tabela a seguir resume as três vulnerabilidades identificadas na cadeia de ataque "Claudy Day":
| Componente | Mecanismo | Implicação de Segurança |
|---|---|---|
| Injeção de prompt (Prompt Injection) via URL | Atributos HTML ocultos no parâmetro ?q= |
O Claude executa instruções ocultas da visualização do usuário, substituindo o comportamento normal. |
| Exfiltração via API de Arquivos (Files API) | Uso não autorizado da API de Arquivos (Files API) da Anthropic |
Permite a transferência de dados para armazenamento controlado pelo invasor dentro do ambiente sandbox. |
| Redirecionamento Aberto (Open Redirect) | Vulnerabilidade em claude.com/redirect/ |
Permite que invasores mascarem links maliciosos como tráfego legítimo, contornando a suspeita do usuário. |
O ciclo de vida de um ataque "Claudy Day" começa muito antes de o usuário interagir com a IA. Ao utilizar uma vulnerabilidade de open redirect em claude.com, os invasores podem criar URLs que parecem originar-se do domínio legítimo da Anthropic. Essa capacidade é particularmente letal quando combinada com publicidade em mecanismos de busca; um invasor pode criar um anúncio no Google que exibe uma URL confiável da claude.com enquanto, na verdade, leva o usuário a um ponto de redirecionamento envenenado.
Assim que o usuário clica no anúncio, ele é redirecionado para uma URL claude.ai/new?q= especialmente preparada. Esta URL contém um prompt pré-preenchido. Crucialmente, os pesquisadores descobriram que a interface falhou ao sanitizar tags HTML inseridas nesses parâmetros de URL. Enquanto o usuário vê um texto pré-preenchido benigno na caixa de chat, o próprio modelo recebe e executa os comandos ocultos incorporados nos atributos HTML subjacentes.
O estágio final — a exfiltração — é talvez o mais insidioso. Como o sandbox do Claude é projetado para bloquear conexões de saída para servidores externos, os pesquisadores observaram que uma "chamada para casa" direta para o servidor de um invasor falharia. Em vez disso, o ataque explora a API de Arquivos interna da plataforma. O prompt oculto instrui o Claude a coletar dados da conversa, gravá-los em um arquivo e carregá-los no armazenamento do invasor via API de Arquivos (Files API). O invasor então recupera os dados conforme sua conveniência, deixando o usuário completamente inconsciente de que seu histórico de chat foi comprometido.
A divulgação do "Claudy Day" serve como um lembrete contundente da superfície de ataque em evolução inerente à IA agente (agentic AI). À medida que as empresas integram cada vez mais agentes de IA em seus fluxos de trabalho — muitas vezes concedendo-lhes permissões para acessar documentos internos, bases de código e APIs de terceiros — o potencial para que tais explorações de "baixa tecnologia" tenham consequências de alto impacto cresce significativamente.
Uma das lições mais profundas desta pesquisa é a fragilidade da "primeira interação". Em muitas implementações de IA, o modelo está preparado para agir assim que o usuário abre a interface. O ataque "Claudy Day" destaca que este é um limite de segurança crítico. Como o prompt injetado chega logo no início de uma sessão, o agente processa o comando antes que uma relação de confiança tenha sido estabelecida ou que qualquer verificação manual do usuário possa ocorrer.
Especialistas do setor sugerem que as plataformas de IA devem avançar para um modelo de "confiança zero" (zero-trust) para prompts iniciais. Isso envolveria:
A Anthropic já agiu para resolver as vulnerabilidades específicas identificadas na cadeia "Claudy Day", corrigindo o problema de injeção de prompt e trabalhando na remediação dos outros. No entanto, o incidente serve como um indicador para o cenário mais amplo de AI security.
Para desenvolvedores e organizações que implantam agentes de IA, a lição é clara: a segurança não pode ser um pensamento tardio. A integridade do prompt deve ser considerada um controle de segurança central. À medida que a indústria avança em direção a agentes mais autônomos, capazes de realizar tarefas complexas, a confiança no "bom comportamento" do modelo é uma estratégia insuficiente. As equipes de segurança devem considerar a possibilidade de que o mecanismo de entrega — a URL, o resultado da busca, o e-mail — seja um vetor de manipulação e projetar a estrutura de permissões da IA de acordo.
A pesquisa "Claudy Day" ressalta que, embora a tecnologia de IA generativa continue avançando, os fundamentos do desenvolvimento de software seguro permanecem constantes. Mesmo o modelo mais sofisticado é tão seguro quanto o sistema que o hospeda e os canais pelos quais os usuários chegam.