Selon Black Hills Information Security (BHIS), ce deuxième volet d’une série sur le hacking de l’IA dissèque les vulnérabilités d’injection de prompt dans les grands modèles de langue (LLM) et explique comment des acteurs peuvent manipuler ou contourner les consignes système.
L’article souligne une faiblesse centrale : l’absence de frontières de privilèges entre les consignes développeur (system prompts) et les entrées utilisateur, et la nature hautement suggestible des LLM. Cette vulnérabilité est présentée comme une menace critique pour les systèmes IA, comparable à une injection SQL dans les applications traditionnelles. Des plateformes de pratique sont évoquées pour développer les compétences de test en sécurité IA. 🚨
Principales techniques d’attaque décrites:
- Instruction overriding via des formulations de négation pour supplanter les consignes système.
- Role-based deception exploitant l’obéissance contextuelle au rôle demandé.
- Confusion attacks par instructions contradictoires.
- Bypass multi‑langues/jeux de caractères pour contourner des filtres par mots‑clés.
- Narrative-based attacks (« grandma attack ») s’appuyant sur des scénarios créatifs.
- External source injection via fichiers téléversés ou résumés d’URL.
- Visual prompt injection sur modèles multimodaux en intégrant des instructions dans des images.
- Encodage/obfuscation (Base64, ROT13, leetspeak) pour masquer des charges utiles.
- Crescendo (multi‑turn escalation) en construisant progressivement un contexte malveillant.
- Greedy Coordinate Gradient optimisant le prompt caractère par caractère selon les retours du modèle.
- Indirect prompt injection en embarquant des charges malveillantes dans des contenus traités par le LLM (emails, documents). 🧠
Impact et portée:
- Vulnérabilité: incapacité des LLM à distinguer de façon fiable les consignes développeur des entrées utilisateur.
- Produits/technos concernés: LLM et modèles multimodaux (notamment pour l’injection visuelle), de manière générale.
- But de l’article: fournir un panorama technique et des bases pratiques pour l’AI red teaming et les tests de sécurité des LLM.
IOCs et TTPs:
- IOCs: non fournis.
- TTPs: techniques listées ci‑dessus (instruction overriding, role-based deception, confusion, bypass multi‑langues, narrative/grandma, external source injection, visual prompt injection, encodage/obfuscation, crescendo, Greedy Coordinate Gradient, indirect prompt injection).
Nature du contenu: analyse technique visant à documenter les vecteurs d’attaque d’injection de prompt et à sensibiliser aux vulnérabilités structurelles des LLM.
🧠 TTPs et IOCs détectés
TTPs
instruction overriding, role-based deception, confusion attacks, bypass multi-langues/jeux de caractères, narrative-based attacks, external source injection, visual prompt injection, encodage/obfuscation, crescendo, Greedy Coordinate Gradient, indirect prompt injection
IOCs
non fournis
🔗 Source originale : https://www.blackhillsinfosec.com/getting-started-with-ai-hacking-part-2/