
Une chaîne d'attaque sophistiquée à plusieurs étapes ciblant les utilisateurs de l'assistant IA Claude d'Anthropic a été mise en lumière par des chercheurs d'Oasis Security. Baptisée « Claudy Day », cette découverte met en évidence un composant critique et souvent négligé de la sécurité de l'IA générative (Generative AI) : l'intégrité du mécanisme de distribution et les frontières cachées entre l'entrée de l'utilisateur et les instructions du modèle.
L'attaque, qui s'appuie sur une combinaison de trois vulnérabilités distinctes, permet à des acteurs malveillants d'exfiltrer silencieusement des données sensibles de l'historique de conversation d'un utilisateur. Fait remarquable, l'attaque ne nécessite pas le déploiement de logiciels malveillants traditionnels, d'e-mails de phishing ou de téléchargements de fichiers suspects. Au lieu de cela, elle exploite la conception intrinsèque du flux d'interaction de la plateforme d'IA, transformant les propres fonctionnalités de l'IA en un moteur d'exfiltration.
La brillance — et le danger — de l'attaque « Claudy Day » réside dans sa simplicité. Elle combine trois failles qui, isolément, pourraient être considérées comme mineures ou à « faible impact », en un pipeline cohérent qui facilite le vol silencieux de données. Selon l'équipe de recherche d'Oasis Security, le pipeline d'attaque permet à un acteur malveillant de transmettre un lien empoisonné via Google Ads, qui exécute ensuite des commandes cachées dans l'environnement Claude.
L'attaque repose sur une séquence spécifique pour atteindre son objectif. Chaque composant joue un rôle vital pour garantir que l'utilisateur est trompé, que le modèle est manipulé et que les données sont exfiltrées avec succès.
Le tableau suivant résume les trois vulnérabilités identifiées dans la chaîne d'attaque « Claudy Day » :
| Composant | Mécanisme | Implication de sécurité |
|---|---|---|
| Injection d'invite (Prompt Injection) via URL | Attributs HTML cachés dans le paramètre ?q= |
Claude exécute des instructions cachées à la vue de l'utilisateur, outrepassant le comportement normal. |
| Exfiltration via l'API Files | Utilisation non autorisée de l'API Files d'Anthropic |
Permet le transfert de données vers un stockage contrôlé par l'attaquant au sein de l'environnement sandbox. |
| Redirection ouverte (Open Redirect) | Vulnérabilité sur claude.com/redirect/ |
Permet aux attaquants de masquer des liens malveillants en tant que trafic légitime, contournant la suspicion de l'utilisateur. |
Le cycle de vie d'une attaque « Claudy Day » commence bien avant que l'utilisateur n'interagisse avec l'IA. En utilisant une vulnérabilité de redirection ouverte (open redirect) sur claude.com, les attaquants peuvent concevoir des URL qui semblent provenir du domaine légitime d'Anthropic. Cette capacité est particulièrement redoutable lorsqu'elle est associée à la publicité sur les moteurs de recherche ; un attaquant peut créer une annonce Google qui affiche une URL claude.com de confiance tout en menant réellement l'utilisateur vers un point de redirection empoisonné.
Une fois que l'utilisateur clique sur l'annonce, il est redirigé vers une URL claude.ai/new?q= spécialement conçue. Cette URL contient une invite pré-remplie. Crucialement, les chercheurs ont découvert que l'interface ne parvenait pas à assainir les balises HTML placées dans ces paramètres d'URL. Tandis que l'utilisateur voit un texte pré-rempli bénin dans la boîte de dialogue, le modèle lui-même reçoit et exécute les commandes cachées intégrées dans les attributs HTML sous-jacents.
La phase finale — l'exfiltration — est peut-être la plus insidieuse. Étant donné que le sandbox de Claude est conçu pour bloquer les connexions sortantes vers des serveurs externes, les chercheurs ont noté qu'un « appel à la maison » direct vers le serveur d'un attaquant échouerait. Au lieu de cela, l'attaque exploite l'API Files interne de la plateforme. L'invite cachée ordonne à Claude de rassembler les données de conversation, de les écrire dans un fichier et de les télécharger sur le stockage de l'attaquant via l'API Files. L'attaquant récupère ensuite les données à sa convenance, laissant l'utilisateur totalement ignorant que son historique de discussion a été compromis.
La divulgation de « Claudy Day » sert de rappel brutal de la surface d'attaque évolutive inhérente à l'IA agentique. Alors que les entreprises intègrent de plus en plus d'agents d'IA dans leurs flux de travail — leur accordant souvent des autorisations pour accéder à des documents internes, des bases de code et des API tierces — le potentiel pour que de tels exploits « low-tech » aient des conséquences à fort impact augmente considérablement.
L'un des enseignements les plus profonds de cette recherche est la fragilité de la « première interaction ». Dans de nombreuses implémentations d'IA, le modèle est prêt à agir dès que l'utilisateur ouvre l'interface. L'attaque « Claudy Day » souligne qu'il s'agit d'une frontière de sécurité critique. Parce que l'invite injectée arrive au tout début d'une session, l'agent traite la commande avant qu'une relation de confiance ne soit établie ou qu'une vérification manuelle de l'utilisateur ne puisse avoir lieu.
Les experts du secteur suggèrent que les plateformes d'IA doivent évoluer vers un modèle « zéro confiance » (zero-trust) pour les invites initiales. Cela impliquerait :
Anthropic a déjà agi pour remédier aux vulnérabilités spécifiques identifiées dans la chaîne « Claudy Day », en corrigeant le problème d'injection d'invite et en travaillant sur la remédiation des autres points. Cependant, l'incident sert de signal d'alarme pour le paysage plus large de la sécurité de l'IA (AI security).
Pour les développeurs et les organisations déployant des agents d'IA, la leçon est claire : la sécurité ne peut pas être une réflexion après coup. L'intégrité des invites doit être considérée comme un contrôle de sécurité central. Alors que l'industrie s'oriente vers des agents plus autonomes capables d'effectuer des tâches complexes, la dépendance au « bon comportement » du modèle est une stratégie insuffisante. Les équipes de sécurité doivent tenir compte de la possibilité que le mécanisme de distribution — l'URL, le résultat de recherche, l'e-mail — soit un vecteur de manipulation, et concevoir le cadre d'autorisations de l'IA en conséquence.
La recherche « Claudy Day » souligne que si la technologie de l'IA générative continue de progresser, les fondamentaux du développement de logiciels sécurisés restent constants. Même le modèle le plus sophistiqué n'est aussi sûr que le système qui l'héberge et les canaux par lesquels les utilisateurs y accèdent.