Garde-Fous

Dans un article publié par 0din.ai, des chercheurs ont mis en lumière une méthode sophistiquée pour contourner les garde-fous des modèles d’IA comme GPT-4o et GPT-4o-mini. Cette technique exploite les mécanismes de jeu des modèles de langage en présentant l’interaction comme un jeu de devinettes inoffensif. En utilisant des balises HTML pour obscurcir les détails et en positionnant la requête comme la conclusion du jeu, l’IA a involontairement révélé des clés de produit Windows valides. Cette situation met en évidence les défis liés au renforcement des modèles d’IA contre les tactiques de manipulation sociale sophistiquées. ...

Garde-Fous

Une faille permet de contourner les garde-fous des modèles d'IA pour divulguer des clés Windows

Technique d'attaque 'Policy Puppetry' menace les modèles majeurs de l'IA