Cadeia de ataque 'Claudy Day': Trio de vulnerabilidades do Claude AI permite roubo silencioso de dados via anúncios do Google

A Cadeia de Ataque "Claudy Day": Revelando Vulnerabilidades no Claude da Anthropic

Uma cadeia de ataque sofisticada e de vários estágios visando usuários do assistente de IA Claude da Anthropic foi revelada por pesquisadores da Oasis Security. Batizada de "Claudy Day", esta descoberta destaca um componente crítico e muitas vezes negligenciado da segurança da IA generativa (Generative AI): a integridade do mecanismo de entrega e os limites ocultos entre a entrada do usuário e as instruções do modelo.

O ataque, que utiliza uma combinação de três vulnerabilidades distintas, permite que atores de ameaças exfiltrem silenciosamente dados sensíveis do histórico de conversas de um usuário. Notavelmente, o ataque não requer a implantação de malware tradicional, e-mails de phishing ou downloads de arquivos suspeitos. Em vez disso, ele explora o design inerente do fluxo de interação da plataforma de IA, transformando os próprios recursos da IA em um mecanismo de exfiltração.

Entendendo a Anatomia do "Claudy Day"

O brilho — e o perigo — do ataque "Claudy Day" reside em sua simplicidade. Ele combina três falhas, que por si só poderiam ser consideradas menores ou de "baixo impacto", em um pipeline coeso que facilita o roubo silencioso de dados. De acordo com a equipe de pesquisa da Oasis Security, o pipeline de ataque permite que um ator de ameaça entregue um link envenenado via Google Ads, que então executa comandos ocultos dentro do ambiente do Claude.

O Trio de Vulnerabilidades

O ataque depende de uma sequência específica para atingir seu objetivo. Cada componente desempenha um papel vital para garantir que o usuário seja enganado, o modelo seja manipulado e os dados sejam exfiltrados com sucesso.

A tabela a seguir resume as três vulnerabilidades identificadas na cadeia de ataque "Claudy Day":

Componente	Mecanismo	Implicação de Segurança
Injeção de prompt (Prompt Injection) via URL	Atributos HTML ocultos no parâmetro `?q=`	O Claude executa instruções ocultas da visualização do usuário, substituindo o comportamento normal.
Exfiltração via API de Arquivos (Files API)	Uso não autorizado da API de Arquivos (Files API) da Anthropic	Permite a transferência de dados para armazenamento controlado pelo invasor dentro do ambiente sandbox.
Redirecionamento Aberto (Open Redirect)	Vulnerabilidade em `claude.com/redirect/`	Permite que invasores mascarem links maliciosos como tráfego legítimo, contornando a suspeita do usuário.

Execução Passo a Passo: Como o Ataque se Desenrola

O ciclo de vida de um ataque "Claudy Day" começa muito antes de o usuário interagir com a IA. Ao utilizar uma vulnerabilidade de open redirect em claude.com, os invasores podem criar URLs que parecem originar-se do domínio legítimo da Anthropic. Essa capacidade é particularmente letal quando combinada com publicidade em mecanismos de busca; um invasor pode criar um anúncio no Google que exibe uma URL confiável da claude.com enquanto, na verdade, leva o usuário a um ponto de redirecionamento envenenado.

Assim que o usuário clica no anúncio, ele é redirecionado para uma URL claude.ai/new?q= especialmente preparada. Esta URL contém um prompt pré-preenchido. Crucialmente, os pesquisadores descobriram que a interface falhou ao sanitizar tags HTML inseridas nesses parâmetros de URL. Enquanto o usuário vê um texto pré-preenchido benigno na caixa de chat, o próprio modelo recebe e executa os comandos ocultos incorporados nos atributos HTML subjacentes.

O estágio final — a exfiltração — é talvez o mais insidioso. Como o sandbox do Claude é projetado para bloquear conexões de saída para servidores externos, os pesquisadores observaram que uma "chamada para casa" direta para o servidor de um invasor falharia. Em vez disso, o ataque explora a API de Arquivos interna da plataforma. O prompt oculto instrui o Claude a coletar dados da conversa, gravá-los em um arquivo e carregá-los no armazenamento do invasor via API de Arquivos (Files API). O invasor então recupera os dados conforme sua conveniência, deixando o usuário completamente inconsciente de que seu histórico de chat foi comprometido.

Implicações para a Segurança da IA Generativa

A divulgação do "Claudy Day" serve como um lembrete contundente da superfície de ataque em evolução inerente à IA agente (agentic AI). À medida que as empresas integram cada vez mais agentes de IA em seus fluxos de trabalho — muitas vezes concedendo-lhes permissões para acessar documentos internos, bases de código e APIs de terceiros — o potencial para que tais explorações de "baixa tecnologia" tenham consequências de alto impacto cresce significativamente.

Repensando o Limite de Confiança do "Primeiro Prompt"

Uma das lições mais profundas desta pesquisa é a fragilidade da "primeira interação". Em muitas implementações de IA, o modelo está preparado para agir assim que o usuário abre a interface. O ataque "Claudy Day" destaca que este é um limite de segurança crítico. Como o prompt injetado chega logo no início de uma sessão, o agente processa o comando antes que uma relação de confiança tenha sido estabelecida ou que qualquer verificação manual do usuário possa ocorrer.

Especialistas do setor sugerem que as plataformas de IA devem avançar para um modelo de "confiança zero" (zero-trust) para prompts iniciais. Isso envolveria:

Aprovação Explícita do Usuário: Exigir que os usuários confirmem ou aprovem manualmente qualquer ação envolvendo ferramentas, APIs ou recuperação de memória, especialmente durante o turno inicial de uma conversa.
Sanitização de Prompt: Garantir que todas as entradas — sejam de parâmetros de URL, histórico do navegador ou integrações externas — sejam rigorosamente sanitizadas e que o modelo seja incapaz de executar instruções ocultas e invisíveis ao usuário.
Granularidade do Controle de Acesso: Tratar agentes de IA com o mesmo rigor de segurança que contas de serviço privilegiadas. Isso significa aplicar o princípio do privilégio mínimo, garantindo que mesmo que um agente seja comprometido via injeção de prompt, sua capacidade de interagir com APIs sensíveis (como uma API de Arquivos) seja restrita.

Seguindo em Frente: Fortalecendo as Defesas de IA

A Anthropic já agiu para resolver as vulnerabilidades específicas identificadas na cadeia "Claudy Day", corrigindo o problema de injeção de prompt e trabalhando na remediação dos outros. No entanto, o incidente serve como um indicador para o cenário mais amplo de AI security.

Para desenvolvedores e organizações que implantam agentes de IA, a lição é clara: a segurança não pode ser um pensamento tardio. A integridade do prompt deve ser considerada um controle de segurança central. À medida que a indústria avança em direção a agentes mais autônomos, capazes de realizar tarefas complexas, a confiança no "bom comportamento" do modelo é uma estratégia insuficiente. As equipes de segurança devem considerar a possibilidade de que o mecanismo de entrega — a URL, o resultado da busca, o e-mail — seja um vetor de manipulação e projetar a estrutura de permissões da IA de acordo.

A pesquisa "Claudy Day" ressalta que, embora a tecnologia de IA generativa continue avançando, os fundamentos do desenvolvimento de software seguro permanecem constantes. Mesmo o modelo mais sofisticado é tão seguro quanto o sistema que o hospeda e os canais pelos quais os usuários chegam.