Une faille permet de contourner les garde-fous des modèles d'IA pour divulguer des clés Windows

Dans un article publié par 0din.ai, des chercheurs ont mis en lumière une méthode sophistiquée pour contourner les garde-fous des modèles d’IA comme GPT-4o et GPT-4o-mini. Cette technique exploite les mécanismes de jeu des modèles de langage en présentant l’interaction comme un jeu de devinettes inoffensif. En utilisant des balises HTML pour obscurcir les détails et en positionnant la requête comme la conclusion du jeu, l’IA a involontairement révélé des clés de produit Windows valides. Cette situation met en évidence les défis liés au renforcement des modèles d’IA contre les tactiques de manipulation sociale sophistiquées. ...

20 juillet 2025 · 2 min
Dernière mise à jour le: 20 Jul 2025 📝