Prompt Injection

GhostWriter : attaque par empoisonnement de mémoire longue durée sur agents LLM

📰 Source : TechXplore / Phys.org — Article publié le 19 juillet 2026, basé sur un preprint arXiv (DOI: 10.48550/arxiv.2607.06595) des chercheurs George Torres, Sharad Shrestha et Satyajayant Misra de la New Mexico State University. 🎯 Contexte Les agents LLM dotés de mémoire persistante à long terme (ex. : assistants personnels basés sur ChatGPT, Gemini) sont désormais capables d’agir de manière autonome : gestion d’emails, prise de rendez-vous, mise à jour de code. Cette mémoire persistante introduit de nouvelles surfaces d’attaque. ...

SingGuard-NSFA : framework de guardrails extensibles pour agents IA avec taxonomie de 185 risques

🔍 Contexte Publié en juillet 2026 sur GitHub par la SingGuard Team de l’AI Security Lab d’Ant Group, cet article présente SingGuard-NSFA, un framework de guardrails de sécurité conçu spécifiquement pour les agents IA autonomes (LLMs capables d’invoquer des outils, exécuter du code et orchestrer des plans multi-étapes). 🎯 Problématique adressée Les guardrails de sécurité existants ont été conçus pour filtrer le contenu textuel, non pour détecter les menaces opérationnelles propres aux agents IA : ...

Ghostcommit : injection de prompt dans des images PNG pour voler des secrets via des agents IA

🔬 Contexte Publié le 11 juillet 2026 sur BleepingComputer, cet article présente les travaux de l’ASSET Research Group de l’Université du Missouri-Kansas City (chercheurs Sudipta Chattopadhyay et Murali Ediga). Un proof-of-concept a été publié sur GitHub et les vendeurs concernés ont été notifiés. ⚙️ Mécanisme de l’attaque Ghostcommit exploite un angle mort structurel dans la chaîne de revue de code assistée par IA : Une pull request malveillante est soumise avec un fichier AGENTS.md (fichier de convention lu automatiquement par les agents IA) pointant vers une image docs/images/build-spec.png Les instructions malveillantes (lire le fichier .env, encoder chaque octet en entier, émettre le résultat comme constante de module) sont inscrites en texte lisible à l’intérieur du PNG Les outils de revue de code (CodeRabbit, Bugbot) n’ouvrent pas les fichiers image et ne détectent rien Un faux validateur de provenance (50 lignes) et un post-mortem fabriqué renforcent la crédibilité de la convention pour contourner les vérifications de cohérence 💣 Exfiltration des secrets Le payload reste dormant jusqu’à ce qu’un développeur demande une fonctionnalité routinière à l’agent L’agent lit AGENTS.md au démarrage, suit le pointeur vers l’image, ouvre .env et génère un module avec une constante _PROV_CANARY encodant le contenu du .env sous forme de tuple d’entiers Python En test réel, Cursor piloté par Claude Sonnet a exfiltré l’intégralité du .env en 311 entiers dès le premier essai Les scanners de secrets ne détectent pas l’exfiltration car ils ne reconvertissent pas les tuples d’entiers en ASCII 📊 Données de contexte Sur 6 480 pull requests analysées dans les 300 dépôts publics les plus actifs sur 90 jours : 73% des PRs fusionnées l’ont été sans revue humaine substantielle ni revue automatisée Les instructions malveillantes étaient en texte clair dans le PNG (incluant les mots « malicious prompt injection ») et ont quand même passé les revues 🛠️ Comportement selon les outils Cursor et Antigravity : ont suivi les instructions et exfiltré le .env sous Sonnet, Gemini et GPT-5.5 Claude Code (Anthropic) : a refusé explicitement sous tous les modèles testés Opus sous Antigravity : a écrit le secret puis l’a supprimé après avoir reconnu le pattern de social engineering Conclusion : l’outil (harness) importe plus que le modèle sous-jacent 🔗 Techniques connexes En 2025, Trail of Bits avait démontré des images exploitant le pipeline de redimensionnement des IA (downscaling) pour injecter des prompts lisibles par l’IA mais invisibles à l’œil humain (ayant trompé Gemini CLI) Le malware macOS Gaslight avait intégré de faux messages d’erreur système pour tromper les outils d’analyse IA Manifold Security avait démontré une revue IA trompée par une identité git usurpée 📄 Nature de l’article Article de type publication de recherche présentant un proof-of-concept d’attaque par injection de prompt via image contre des agents IA de revue de code, avec données empiriques et résultats de tests comparatifs. ...

Claude Code : stéganographie de prompt via marqueurs Unicode cachés dans les requêtes API

🔍 Contexte : Le 30 juin 2026, un chercheur du blog Thereallo a publié une analyse technique de Claude Code (version 2.1.196), l’agent de codage d’Anthropic, dans le cadre d’un audit de confidentialité personnel. 🧩 Découverte principale : Le binaire de Claude Code contient une fonction qui modifie silencieusement le system prompt envoyé au modèle en substituant l’apostrophe du mot “Today’s” par différents caractères Unicode visuellement identiques (', ’, ʼ, ʹ) et en changeant le séparateur de date (- → /). Cette technique est qualifiée de stéganographie de prompt. ...

GitLost : injection de prompt dans GitHub Agentic Workflows permettant la fuite de dépôts privés

🔍 Contexte Publié le 6 juillet 2026 par Noma Labs (blog Noma Security), cet article présente la découverte d’une vulnérabilité critique baptisée GitLost, affectant les GitHub Agentic Workflows, une fonctionnalité récente de GitHub combinant GitHub Actions avec un agent IA (Claude ou GitHub Copilot). 🧩 Description de la vulnérabilité La vulnérabilité repose sur une injection de prompt indirecte (indirect prompt injection). Les GitHub Agentic Workflows permettent d’automatiser des interactions avec des dépôts via du langage naturel, en lisant des issues GitHub et en exécutant des actions en réponse. ...

DuneSlide : Deux vulnérabilités RCE critiques via injection de prompt dans Cursor IDE

🔍 Contexte Publié le 1er juillet 2026 par Cato AI Labs (blog Cato Networks), cet article présente la découverte de deux vulnérabilités critiques dans Cursor IDE, un environnement de développement intégré basé sur l’IA utilisé par plus de la moitié des entreprises du Fortune 500. 🚨 Vulnérabilités identifiées Les deux vulnérabilités, regroupées sous le nom DuneSlide, ont obtenu un score CVSS de 9.8 et ont été assignées les identifiants CVE-2026-50548 et CVE-2026-50549. ...

AutoJack : une chaîne RCE via agent IA exploitant AutoGen Studio et MCP WebSocket

🔍 Contexte : Le 18 juin 2026, l’équipe Microsoft Defender Security Research publie une analyse technique détaillant une chaîne d’exploitation baptisée AutoJack, découverte dans AutoGen Studio, l’interface de prototypage open-source du framework multi-agents AutoGen de Microsoft Research. ⚙️ Mécanisme d’attaque : La chaîne combine trois faiblesses indépendantes dans la surface MCP WebSocket d’AutoGen Studio : Issue 1 (CWE-1385) : La liste blanche d’origines (http://127.0.0.1, http://localhost) bloque les navigateurs externes mais pas un agent de navigation headless tournant sur la même machine, dont le JavaScript hérite de l’identité localhost. Issue 2 (CWE-306) : Le middleware d’authentification exclut explicitement les chemins /api/mcp/* et /api/ws/*, sans que le handler WebSocket MCP n’implémente sa propre vérification. Résultat : le WebSocket MCP est accessible sans authentification quelle que soit la configuration auth. Issue 3 (CWE-78) : Le paramètre server_params passé en query string est décodé en base64, parsé en StdioServerParams, et transmis directement à stdio_client() sans liste blanche des exécutables autorisés, permettant de spawner calc.exe, powershell.exe -enc ... ou bash -c '...'. 🎯 Scénario d’exploitation : Un attaquant héberge une page web contenant un script JavaScript qui ouvre une connexion WebSocket vers ws://localhost:8081/api/mcp/ws/<session_id>?server_params=<base64(json)>. Lorsqu’un agent AutoGen équipé de capacités de navigation (ex: MultimodalWebSurfer) visite cette page, le script s’exécute avec l’identité localhost, contourne l’auth, et AutoGen Studio spawne la commande arbitraire sous le compte du développeur. Aucune interaction utilisateur supplémentaire n’est requise au-delà de faire visiter la page à l’agent. ...

Cline (4,2M installs) : deux contournements de sécurité permettent l'exécution de code arbitraire

🔍 Contexte Publié le 17 juin 2026 par Ax Sharma (Head of Research, Manifold Security), cet article de recherche documente deux chemins d’exécution de code locale à haute sévérité dans Cline, l’extension VS Code d’agent de codage IA comptant environ 4,2 millions d’installations sur le VS Code Marketplace et OpenVSX. 🎯 Scénario d’attaque L’attaque cible un workflow développeur courant : cloner un dépôt inconnu et demander à Cline de le configurer. Le contenu du dépôt (README malveillant ou autre contenu lu par l’agent) manipule l’agent pour exécuter des commandes shell arbitraires sous le compte du développeur. L’impact potentiel inclut l’accès aux clés SSH, credentials AWS/GCP, cookies de navigateur, code source et tout ce que le développeur peut atteindre via VPN. Il s’agit d’un pattern confused-deputy dans l’IA agentique. ...

Microsoft Copilot Cowork : exfiltration de fichiers via injection de prompt indirecte

🔍 Contexte Publié le 27 mai 2026 par PromptArmor, cet article de recherche documente une attaque d’exfiltration de fichiers affectant Microsoft Copilot Cowork, une fonctionnalité Frontier disponible dans Microsoft 365. L’attaque exploite une injection de prompt indirecte combinée à une approbation automatique non documentée de certaines actions sensibles. ⚙️ Mécanisme d’attaque La chaîne d’attaque repose sur plusieurs étapes : La victime possède des fichiers sensibles (PII, données financières) accessibles via SharePoint ou OneDrive La victime charge un fichier de compétence (Skill) empoisonné dans Copilot Cowork — vecteur courant car les Skills sont automatiquement chargés depuis un chemin OneDrive spécifique La victime demande à Copilot Cowork un récapitulatif de sa semaine, déclenchant la compétence malveillante L’injection manipule l’agent pour qu’il envoie un message Teams contenant des balises HTML image malveillantes pointant vers un site contrôlé par l’attaquant, avec les liens de téléchargement pré-authentifiés des fichiers en paramètres de requête À l’ouverture du message Teams par la victime, les liens sont exfiltrés et l’attaquant peut télécharger les fichiers 🎯 Facteur aggravant : approbation automatique Contrairement à ce qu’indique la documentation Microsoft, l’envoi d’emails et de messages Teams à l’utilisateur actif ne requiert aucune approbation humaine. Les utilisateurs ne disposent d’aucun paramètre pour modifier ce comportement. L’activité malveillante n’est pas visible dans l’interface Copilot Cowork. ...

Rapport CTI : Opérations APT ciblant les systèmes d'IA d'entreprise (2025-2026)

🌐 Contexte Publié le 14 mai 2026 sur le blog Krypt3ia, ce rapport de threat intelligence analyse l’évolution du paysage offensif autour de la prolifération des systèmes d’IA en entreprise entre 2025 et 2026. Il s’appuie sur des frameworks reconnus (MITRE ATT&CK, MITRE ATLAS, OWASP LLM Top 10) et des rapports publics de Google, Microsoft, OpenAI et Anthropic. 🎯 Évolution de la surface d’attaque Les systèmes d’IA (LLM, RAG, agents autonomes, copilotes développeurs) sont désormais intégrés dans les opérations critiques des entreprises. Ils constituent ce que le rapport nomme une “soft privileged infrastructure” : accès à des données sensibles, autorité déléguée, positionnement de confiance dans les workflows, sans les contrôles de sécurité équivalents à un opérateur humain privilégié. ...