Chaîne d'attaque 'Claudy Day' : un trio de vulnérabilités de Claude AI permet le vol silencieux de données via des annonces Google

La chaîne d'attaque « Claudy Day » : Révélation de vulnérabilités dans Claude d'Anthropic

Une chaîne d'attaque sophistiquée à plusieurs étapes ciblant les utilisateurs de l'assistant IA Claude d'Anthropic a été mise en lumière par des chercheurs d'Oasis Security. Baptisée « Claudy Day », cette découverte met en évidence un composant critique et souvent négligé de la sécurité de l'IA générative (Generative AI) : l'intégrité du mécanisme de distribution et les frontières cachées entre l'entrée de l'utilisateur et les instructions du modèle.

L'attaque, qui s'appuie sur une combinaison de trois vulnérabilités distinctes, permet à des acteurs malveillants d'exfiltrer silencieusement des données sensibles de l'historique de conversation d'un utilisateur. Fait remarquable, l'attaque ne nécessite pas le déploiement de logiciels malveillants traditionnels, d'e-mails de phishing ou de téléchargements de fichiers suspects. Au lieu de cela, elle exploite la conception intrinsèque du flux d'interaction de la plateforme d'IA, transformant les propres fonctionnalités de l'IA en un moteur d'exfiltration.

Comprendre l'anatomie de « Claudy Day »

La brillance — et le danger — de l'attaque « Claudy Day » réside dans sa simplicité. Elle combine trois failles qui, isolément, pourraient être considérées comme mineures ou à « faible impact », en un pipeline cohérent qui facilite le vol silencieux de données. Selon l'équipe de recherche d'Oasis Security, le pipeline d'attaque permet à un acteur malveillant de transmettre un lien empoisonné via Google Ads, qui exécute ensuite des commandes cachées dans l'environnement Claude.

Le trio de vulnérabilités

L'attaque repose sur une séquence spécifique pour atteindre son objectif. Chaque composant joue un rôle vital pour garantir que l'utilisateur est trompé, que le modèle est manipulé et que les données sont exfiltrées avec succès.

Le tableau suivant résume les trois vulnérabilités identifiées dans la chaîne d'attaque « Claudy Day » :

Composant	Mécanisme	Implication de sécurité
Injection d'invite (Prompt Injection) via URL	Attributs HTML cachés dans le paramètre `?q=`	Claude exécute des instructions cachées à la vue de l'utilisateur, outrepassant le comportement normal.
Exfiltration via l'API Files	Utilisation non autorisée de l'API Files d'Anthropic	Permet le transfert de données vers un stockage contrôlé par l'attaquant au sein de l'environnement sandbox.
Redirection ouverte (Open Redirect)	Vulnérabilité sur `claude.com/redirect/`	Permet aux attaquants de masquer des liens malveillants en tant que trafic légitime, contournant la suspicion de l'utilisateur.

Exécution étape par étape : Comment l'attaque se déroule

Le cycle de vie d'une attaque « Claudy Day » commence bien avant que l'utilisateur n'interagisse avec l'IA. En utilisant une vulnérabilité de redirection ouverte (open redirect) sur claude.com, les attaquants peuvent concevoir des URL qui semblent provenir du domaine légitime d'Anthropic. Cette capacité est particulièrement redoutable lorsqu'elle est associée à la publicité sur les moteurs de recherche ; un attaquant peut créer une annonce Google qui affiche une URL claude.com de confiance tout en menant réellement l'utilisateur vers un point de redirection empoisonné.

Une fois que l'utilisateur clique sur l'annonce, il est redirigé vers une URL claude.ai/new?q= spécialement conçue. Cette URL contient une invite pré-remplie. Crucialement, les chercheurs ont découvert que l'interface ne parvenait pas à assainir les balises HTML placées dans ces paramètres d'URL. Tandis que l'utilisateur voit un texte pré-rempli bénin dans la boîte de dialogue, le modèle lui-même reçoit et exécute les commandes cachées intégrées dans les attributs HTML sous-jacents.

La phase finale — l'exfiltration — est peut-être la plus insidieuse. Étant donné que le sandbox de Claude est conçu pour bloquer les connexions sortantes vers des serveurs externes, les chercheurs ont noté qu'un « appel à la maison » direct vers le serveur d'un attaquant échouerait. Au lieu de cela, l'attaque exploite l'API Files interne de la plateforme. L'invite cachée ordonne à Claude de rassembler les données de conversation, de les écrire dans un fichier et de les télécharger sur le stockage de l'attaquant via l'API Files. L'attaquant récupère ensuite les données à sa convenance, laissant l'utilisateur totalement ignorant que son historique de discussion a été compromis.

Implications pour la sécurité de l'IA générative

La divulgation de « Claudy Day » sert de rappel brutal de la surface d'attaque évolutive inhérente à l'IA agentique. Alors que les entreprises intègrent de plus en plus d'agents d'IA dans leurs flux de travail — leur accordant souvent des autorisations pour accéder à des documents internes, des bases de code et des API tierces — le potentiel pour que de tels exploits « low-tech » aient des conséquences à fort impact augmente considérablement.

Repenser la frontière de confiance du « premier prompt »

L'un des enseignements les plus profonds de cette recherche est la fragilité de la « première interaction ». Dans de nombreuses implémentations d'IA, le modèle est prêt à agir dès que l'utilisateur ouvre l'interface. L'attaque « Claudy Day » souligne qu'il s'agit d'une frontière de sécurité critique. Parce que l'invite injectée arrive au tout début d'une session, l'agent traite la commande avant qu'une relation de confiance ne soit établie ou qu'une vérification manuelle de l'utilisateur ne puisse avoir lieu.

Les experts du secteur suggèrent que les plateformes d'IA doivent évoluer vers un modèle « zéro confiance » (zero-trust) pour les invites initiales. Cela impliquerait :

Approbation explicite de l'utilisateur : Exiger que les utilisateurs confirment ou approuvent manuellement toute action impliquant des outils, des API ou la récupération de mémoire, en particulier lors du premier tour d'une conversation.
Assainissement des invites (Prompt Sanitization) : S'assurer que toutes les entrées — qu'elles proviennent de paramètres d'URL, de l'historique du navigateur ou d'intégrations externes — sont rigoureusement assainies et que le modèle est incapable d'exécuter des instructions cachées et invisibles pour l'utilisateur.
Granularité du contrôle d'accès : Traiter les agents d'IA avec la même rigueur de sécurité que les comptes de service privilégiés. Cela signifie appliquer le principe du moindre privilège, garantissant que même si un agent est compromis via une injection d'invite, sa capacité à interagir avec des API sensibles (comme une API Files) soit restreinte.

Aller de l'avant : Renforcer les défenses de l'IA

Anthropic a déjà agi pour remédier aux vulnérabilités spécifiques identifiées dans la chaîne « Claudy Day », en corrigeant le problème d'injection d'invite et en travaillant sur la remédiation des autres points. Cependant, l'incident sert de signal d'alarme pour le paysage plus large de la sécurité de l'IA (AI security).

Pour les développeurs et les organisations déployant des agents d'IA, la leçon est claire : la sécurité ne peut pas être une réflexion après coup. L'intégrité des invites doit être considérée comme un contrôle de sécurité central. Alors que l'industrie s'oriente vers des agents plus autonomes capables d'effectuer des tâches complexes, la dépendance au « bon comportement » du modèle est une stratégie insuffisante. Les équipes de sécurité doivent tenir compte de la possibilité que le mécanisme de distribution — l'URL, le résultat de recherche, l'e-mail — soit un vecteur de manipulation, et concevoir le cadre d'autorisations de l'IA en conséquence.

La recherche « Claudy Day » souligne que si la technologie de l'IA générative continue de progresser, les fondamentaux du développement de logiciels sécurisés restent constants. Même le modèle le plus sophistiqué n'est aussi sûr que le système qui l'héberge et les canaux par lesquels les utilisateurs y accèdent.