Une nouvelle attaque baptisée “Policy Puppetry” permet de contourner les protections de tous les grands modèles d’IA générative, révèle la société de cybersécurité HiddenLayer.
Cette technique universelle repose sur des invites conçues pour être interprétées par les modèles comme des fichiers de politique (par exemple en format XML, INI ou JSON). Cela trompe les modèles en neutralisant leurs garde-fous habituels contre la production de contenus dangereux, notamment liés aux menaces chimiques, biologiques, radiologiques et nucléaires (CBRN), à la violence ou à l’automutilation.
Bien que les modèles soient entraînés à refuser de tels contenus même sous forme de scénarios fictifs, “Policy Puppetry” contourne ces protections en exploitant la manière dont ils interprètent certaines structures de texte. Une fois la supercherie réussie, il devient possible de contrôler le format de réponse et d’imposer de nouvelles instructions.
HiddenLayer a testé avec succès cette attaque contre des modèles d’Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral, OpenAI et Qwen, avec seulement quelques ajustements mineurs.
Cette faille montre que les modèles d’IA ne peuvent pas assurer seuls leur propre sécurité : des outils complémentaires et de nouvelles méthodes de détection sont nécessaires. Selon HiddenLayer, “Policy Puppetry” est le premier contournement post-hiérarchique de l’instruction capable d’affecter quasiment tous les modèles d’IA avancés, révélant des vulnérabilités fondamentales dans leur entraînement et leur alignement.
Illustration représentant une attaque sur un système d’IA
🔗 Source originale : https://www.securityweek.com/all-major-gen-ai-models-vulnerable-to-policy-puppetry-prompt-injection-attack/