NVIDIA démontre des attaques par injection contre des agents IA de développement menant à l’exécution de code

Source: Emerging Technology Security, s’appuyant sur un billet technique de NVIDIA et une présentation à Black Hat USA 2025.

Les chercheurs de NVIDIA décrivent comment des outils de codage assistés par IA et des Computer Use Agents (CUA) de niveau 3 d’autonomie peuvent être exploités via des watering hole attacks et de l’indirect prompt injection pour obtenir une exécution de code à distance (RCE) sur les postes développeurs. L’attaque abuse de l’« assistive alignment » et de l’autonomie croissante de ces agents, en insérant des charges malveillantes dans des sources non fiables comme des issues et pull requests GitHub pour pousser les agents à télécharger et exécuter du code malveillant.

Côté technique, deux voies d’attaque ont été démontrées: (1) Injection directe via des issues GitHub contenant des commandes malicieuses que les agents interprètent et exécutent; (2) Injection chaîne d’approvisionnement via un package Python malveillant (pycronos-windows) inclus dans les dépendances d’une pull request, embarquant dans son setup.py des payloads PowerShell obfusqués exécutés lors du pip install. Le payload applique une obfuscation récursive pour contourner Windows Defender et établir un reverse shell.

L’étude met en évidence le risque particulier posé par des agents IA capables de parser des requêtes et décider d’actions de manière autonome, ce qui permet de transformer de simples artefacts de projet (issues/PRs/dépendances) en surfaces d’attaque conduisant à des actions sensibles sur les environnements développeurs 🚨.

Les mesures de mitigation recommandées incluent: adopter une posture « assume prompt injection », restreindre l’autonomie des agents, exiger une validation humaine pour les commandes sensibles, et isoler les agents autonomes. Sont également suggérés: l’usage du scanner de vulnérabilités LLM garak de NVIDIA pour tester les injections, NeMo Guardrails sur les entrées/sorties LLM, des allowlists de commandes en entreprise, l’utilisation de dev containers ou VMs isolées pour les workflows autonomes, ainsi que des agents en arrière-plan exécutés dans une infrastructure cloud isolée comme l’environnement conteneurisé de Cursor 🛡️.

IOCs:

Package Python malveillant: pycronos-windows

TTPs observés/présentés:

Watering hole sur sources développeurs (issues/pull requests GitHub)
Indirect prompt injection contre des CUAs/agents LLM
Chaîne d’approvisionnement via dépendance insérée en PR
Payloads PowerShell obfusqués dans setup.py, exécutés au pip install
Obfuscation récursive pour évasion antivirus (Windows Defender)
Établissement d’un reverse shell
Exécution autonome de commandes par des agents LLM

Type d’article: publication de recherche présentant un cadre d’attaque et des recommandations de mitigation.

🔗 Source originale : https://developer.nvidia.com/blog/from-assistant-to-adversary-exploiting-agentic-ai-developer-tools/

🖴 Archive : https://web.archive.org/web/20251010172434/https://developer.nvidia.com/blog/from-assistant-to-adversary-exploiting-agentic-ai-developer-tools/