Prompt Injection

Brave détaille des failles de prompt injection via captures d’écran dans des navigateurs IA (dont Perplexity Comet)

Source: Brave (brave.com) — Dans le second billet d’une série sur les défis de sécurité et de confidentialité des navigateurs « agentiques », Shivan Kaul Sahib et Artem Chaikin publient des résultats de recherche montrant que l’« indirect prompt injection » est un problème systémique dans les navigateurs IA. Ils décrivent des vecteurs d’attaque additionnels testés sur différentes implémentations et rappellent leur divulgation responsable aux éditeurs concernés. Les chercheurs expliquent que des navigateurs IA capables d’agir au nom de l’utilisateur restent vulnérables à des prompt injections via captures d’écran et contenus cachés, exposant les sessions authentifiées (banque, email, etc.). Une simple action comme résumer un post Reddit pourrait permettre à un attaquant de voler de l’argent ou des données privées. ...

CamoLeak : faille critique dans GitHub Copilot Chat permettant l’exfiltration de code privé via contournement CSP

Selon une publication d’Omer Mayraz, une vulnérabilité critique baptisée « CamoLeak » affectait GitHub Copilot Chat, permettant l’exfiltration silencieuse de secrets et de code depuis des dépôts privés et le contrôle des réponses de Copilot. GitHub a corrigé le problème en désactivant complètement le rendu des images dans Copilot Chat au 14 août 2025. • Découverte et impact. En juin 2025, l’auteur identifie une faille (CVSS 9.6) dans GitHub Copilot Chat qui, via prompt injection à distance, permet d’orienter les réponses (incluant la suggestion de code malveillant ou de liens) et d’exfiltrer des données de dépôts privés auxquels l’utilisateur victime a accès. Le comportement tient au fait que Copilot agit avec les mêmes permissions que l’utilisateur. ...

NVIDIA démontre des attaques par injection contre des agents IA de développement menant à l’exécution de code

Source: Emerging Technology Security, s’appuyant sur un billet technique de NVIDIA et une présentation à Black Hat USA 2025. Les chercheurs de NVIDIA décrivent comment des outils de codage assistés par IA et des Computer Use Agents (CUA) de niveau 3 d’autonomie peuvent être exploités via des watering hole attacks et de l’indirect prompt injection pour obtenir une exécution de code à distance (RCE) sur les postes développeurs. L’attaque abuse de l’« assistive alignment » et de l’autonomie croissante de ces agents, en insérant des charges malveillantes dans des sources non fiables comme des issues et pull requests GitHub pour pousser les agents à télécharger et exécuter du code malveillant. ...

Zenity Labs dévoile des faiblesses structurelles dans les guardrails d’OpenAI AgentKit

Source: Zenity Labs — Dans une publication de recherche, Zenity Labs analyse en profondeur les guardrails d’OpenAI AgentKit et met en évidence des faiblesses fondamentales communes : des contrôles « souples » basés sur des modèles probabilistes évaluant d’autres modèles, créant des dépendances circulaires exploitables par des attaquants. Points clés mis en avant: Détection de PII: échec face aux formats non standard (ex. ‘SNN’ au lieu de ‘SSN’) et aux variations de casse. Détection d’hallucinations: s’appuie sur l’auto‑évaluation par LLM (score de confiance d’un modèle sur un autre), approche jugée fragile pour la vérification factuelle. Filtres de modération: contournables via substitution de caractères, encodage et obfuscation (ex. ‘k🧨ill’). Détection de jailbreak: inefficace contre les attaques multi‑tours, payloads intégrés ou prompts déguisés. Résumé technique: ...

OpenAI AgentKitxa0: analyse des risques de sécurité et limites des guardrails

Selon Zenity Labs, cette analyse détaille les risques de sécurité liés à la nouvelle plateforme OpenAI AgentKit pour concevoir des workflows d’agents, couvrant son architecture (Agent Builder, Connector Registry via MCP, ChatKit) et ses mécanismes de sécurité intégrés. L’article décrit l’architecture node-based d’Agent Builder, avec des nœuds principaux (Agent, Start, End), des nœuds d’outils (dont des Guardrails pour la détection PII et jailbreak) et des nœuds logiques (conditionnels, boucles, User Approval). Le Connector Registry étend les agents via des connecteurs MCP vers des services externes, et ChatKit fournit l’intégration UI. ...

Faille critique dans GitHub Copilot Chat: exfiltration silencieuse via contournement CSP et prompt injection

Selon Legit Security, des chercheurs ont découvert une vulnérabilité critique (CVSS 9.6) affectant GitHub Copilot Chat, permettant l’exfiltration silencieuse de secrets et de code source depuis des dépôts privés, tout en manipulant les réponses/suggestions de Copilot. • Contexte et impact: La faille combinait un contournement de la Content Security Policy (CSP) via l’infrastructure Camo proxy de GitHub et des prompt injections distantes insérées dans des commentaires invisibles de descriptions de pull requests. Exploitée, elle permettait d’accéder à des dépôts privés avec les permissions de la victime et de voler des informations sensibles (dont des vulnérabilités zero-day et des clés AWS), et de contrôler les réponses/suggestions de Copilot. ...

Escalade de privilèges croisée entre agents IA via écrasement de configurations

Source: Embrace The Red — Une recherche met en évidence un nouveau schéma de vulnérabilité où des agents IA de codage, opérant dans un même environnement, peuvent s’accorder mutuellement des privilèges en altérant leurs fichiers de configuration. 🚨 L’étude décrit une chaîne d’attaque débutant par une injection de prompt indirecte compromettant un premier agent. Celui-ci écrase les configurations d’un autre agent (p. ex. MCP de Claude Code) afin d’y ajouter des serveurs malveillants ou de modifier ses instructions, conduisant à une exécution de code arbitraire ou à des capacités élargies lors du rechargement des paramètres. ...

ShadowLeak : exfiltration zero‑click côté service via l’agent Deep Research de ChatGPT

Selon Radware (radware.com), des chercheurs ont mis au jour ShadowLeak, une attaque zero‑click exploitant l’agent Deep Research de ChatGPT lorsqu’il est connecté à Gmail et à la navigation web, permettant une exfiltration de données côté service depuis l’infrastructure d’OpenAI. L’attaque, basée sur une injection indirecte de prompt camouflée dans le HTML d’un email, a atteint un taux de réussite de 100% avant correction et a été corrigée par OpenAI début août 2025. ...

AgentHopper : un virus d’IA exploite des prompt injections pour se propager via Git

Selon le blog Embrace The Red, un chercheur de sécurité a démontré AgentHopper, un malware conceptuel ciblant des agents de codage via des injections de prompts et se propageant au travers de dépôts Git. Les vulnérabilités référencées ont été corrigées, et la recherche met en lumière la nécessité de contrôles de sécurité renforcés (protection des branches, passphrases pour clés SSH, principe du moindre privilège pour les agents d’IA). AgentHopper abuse d’injections de prompt indirectes pour atteindre une exécution de code arbitraire sur plusieurs agents d’IA populaires. Le malware utilise des payloads universels conditionnels capables de déclencher des chemins d’exploitation spécifiques selon l’agent ciblé, facilitant une infection multi‑plateforme à partir d’un seul contenu malveillant dans le dépôt. ...

Un cadre pour analyser les incidents d’agents IA et les données à collecter

Selon un papier de recherche académique (Harvard University et Centre for the Governance of AI), les auteurs proposent un cadre structuré pour analyser les incidents impliquant des agents IA et détaillent quelles données opérationnelles doivent être conservées et partagées pour permettre des enquêtes efficaces. • Le cadre identifie trois catégories de causes d’incident: facteurs système (données d’entraînement/feedback, méthodes d’apprentissage, prompts système, scaffolding), facteurs contextuels (définition de la tâche, outils et leurs accès, environnement informationnel incluant les injections de prompts) et erreurs cognitives observables de l’agent (observation, compréhension, décision, exécution). Il s’inspire des approches « human factors » (ex. HFACS) utilisées en aviation et autres domaines critiques. ...