Une faille permet de contourner les garde-fous des modèles d'IA pour divulguer des clés Windows

Dans un article publié par 0din.ai, des chercheurs ont mis en lumière une méthode sophistiquée pour contourner les garde-fous des modèles d’IA comme GPT-4o et GPT-4o-mini. Cette technique exploite les mécanismes de jeu des modèles de langage en présentant l’interaction comme un jeu de devinettes inoffensif. En utilisant des balises HTML pour obscurcir les détails et en positionnant la requête comme la conclusion du jeu, l’IA a involontairement révélé des clés de produit Windows valides. Cette situation met en évidence les défis liés au renforcement des modèles d’IA contre les tactiques de manipulation sociale sophistiquées. ...

20 juillet 2025 · 2 min

Technique d'attaque 'Policy Puppetry' menace les modèles majeurs de l'IA

Une nouvelle attaque baptisée “Policy Puppetry” permet de contourner les protections de tous les grands modèles d’IA générative, révèle la société de cybersécurité HiddenLayer. Cette technique universelle repose sur des invites conçues pour être interprétées par les modèles comme des fichiers de politique (par exemple en format XML, INI ou JSON). Cela trompe les modèles en neutralisant leurs garde-fous habituels contre la production de contenus dangereux, notamment liés aux menaces chimiques, biologiques, radiologiques et nucléaires (CBRN), à la violence ou à l’automutilation. ...

25 avril 2025 · 2 min
Dernière mise à jour le: 8 Aug 2025 📝