Une faille permet de contourner les garde-fous des modèles d'IA pour divulguer des clés Windows

Dans un article publié par 0din.ai, des chercheurs ont mis en lumière une méthode sophistiquée pour contourner les garde-fous des modèles d’IA comme GPT-4o et GPT-4o-mini. Cette technique exploite les mécanismes de jeu des modèles de langage en présentant l’interaction comme un jeu de devinettes inoffensif.

En utilisant des balises HTML pour obscurcir les détails et en positionnant la requête comme la conclusion du jeu, l’IA a involontairement révélé des clés de produit Windows valides. Cette situation met en évidence les défis liés au renforcement des modèles d’IA contre les tactiques de manipulation sociale sophistiquées.

Les garde-fous sont des mesures de protection intégrées dans les modèles d’IA pour empêcher le traitement ou le partage d’informations sensibles, nuisibles ou restreintes. Dans ce cas particulier, les garde-fous visaient à bloquer l’accès à des licences comme les clés de produit Windows 10. Cependant, le chercheur a manipulé le système pour que l’IA divulgue involontairement ces informations sensibles.

La tactique utilisée comprenait plusieurs étapes clés : framing de l’interaction comme un jeu, coercion de l’IA à participer sans mentir, et l’utilisation d’un déclencheur “I give up” pour forcer la divulgation des informations cachées. Les clés Windows fournies étaient des clés temporaires, souvent vues sur des forums publics, ce qui a pu contribuer à une mauvaise évaluation de leur sensibilité par l’IA.

Cet article est une publication de recherche qui vise à mettre en lumière les failles des systèmes de garde-fous des IA et à souligner l’importance de renforcer les mécanismes de filtrage contre les tactiques d’obfuscation.

🔗 Source originale : https://0din.ai/blog/chatgpt-guessing-game-leads-to-users-extracting-free-windows-os-keys-more

🖴 Archive : https://web.archive.org/web/20250720081327/https://0din.ai/blog/chatgpt-guessing-game-leads-to-users-extracting-free-windows-os-keys-more