🧭 Contexte

PubliĂ© le 12 mai 2026 par Ross McKerchar (CSO de Sophos), cet article de recherche traite des risques de sĂ©curitĂ© liĂ©s au dĂ©ploiement d’agents IA en entreprise, en particulier face Ă  la menace d’injection de prompt indirecte (indirect prompt injection). L’article s’appuie sur des travaux de recherche rĂ©cents, notamment une Ă©tude Google d’avril 2026 sur le dĂ©pĂŽt Common Crawl.

⚠ La menace : la « trifecta lĂ©tale »

Les agents IA opĂšrent souvent au centre de ce que Simon Wilson nomme la « lethal trifecta » : ils accĂšdent Ă  des donnĂ©es privĂ©es, traitent du contenu non fiable, et communiquent vers l’extĂ©rieur. Cette combinaison les rend vulnĂ©rables Ă  l’injection de prompt indirecte, oĂč un attaquant plante des instructions dans du contenu lu par l’agent (email, page web, document), qui les exĂ©cute avec les privilĂšges de l’utilisateur lĂ©gitime.

L’Ă©tude Google d’avril 2026 sur Common Crawl a dĂ©tectĂ© des injections de prompt dans des pages web publiques et rapporte une augmentation de 32% des tentatives malveillantes entre novembre 2025 et fĂ©vrier 2026.

đŸ›Ąïž Trois lignes de dĂ©fense

  • Ligne 1 – PrĂ©vention de l’injection : filtrage d’entrĂ©e, hiĂ©rarchie d’instructions, classifieurs. Inefficace face aux attaques adaptatives (100% de bypass par des red-teamers humains selon Nasr et al.).
  • Ligne 2 – SĂ©paration architecturale : patterns Dual LLM (Wilson), CaMeL (Google DeepMind), approches IBM/ETH Zurich/Google/Microsoft. Aucune implĂ©mentation en production Ă  ce jour.
  • Ligne 3 – Assume breach du layer LLM : focus actuel recommandĂ©. Contenir le rayon d’impact via des contrĂŽles externes au modĂšle.

🔧 7 patterns tactiques

  1. Agent sandboxing : isolation du processus agent (Claude Code, OpenClaw, Nono). Souvent opt-in, ne protĂšge pas contre l’abus des outils lĂ©gitimes.
  2. Credential isolation : un proxy sĂ©parĂ© rĂ©sout les credentials depuis un vault ; l’agent ne voit jamais le secret (Agent Vault, 1Password, Sophos universal agent skill).
  3. Sealed tool endpoints : l’agent ne peut pas construire la requĂȘte rĂ©seau ; un broker isolĂ© dĂ©tient le credential et applique un schĂ©ma fixe (Cedar, Keos, gitagent).
  4. Egress restriction et network monitoring : dĂ©tection de secrets dans le trafic (TruffleHog, Gitleaks), NDR/IDS, dĂ©tection de gros uploads, allowlisting d’egress.
  5. EDR/Endpoint Detection and Response : les agents compromis gĂ©nĂšrent les mĂȘmes primitives d’exĂ©cution que tout processus malveillant ; l’EDR existant s’applique directement.
  6. Human-gated approval : approbation humaine cryptographique (FIDO2/passkeys, OAuth 2.0 CIBA, DJAG) pour les actions irréversibles et les modifications du plan de contrÎle.
  7. Injection propagation boundaries : 4 niveaux (session, mĂ©moire persistante, cross-agent direct, cross-agent via Ă©tat partagĂ©/A2A) ; chaque frontiĂšre est un point d’interception.

🚧 Problùmes ouverts

  • Aucune implĂ©mentation production de CaMeL
  • DĂ©tection de memory poisoning uniquement heuristique
  • IdentitĂ© des agents non standardisĂ©e (dĂ©pendance aux API keys long-lived)
  • Fatigue d’approbation humaine
  • Absence de protocole standard pour la dĂ©lĂ©gation de confiance inter-agents

📋 Type d’article

Il s’agit d’une recommandation de sĂ©curitĂ© Ă  destination des Ă©quipes sĂ©curitĂ© et CISO, visant Ă  fournir des patterns tactiques immĂ©diatement dĂ©ployables pour rĂ©duire le risque liĂ© aux agents IA, avant que les harnesses et outils du marchĂ© ne maturent.

🧠 TTPs et IOCs dĂ©tectĂ©s

TTP

  • T1059 — Command and Scripting Interpreter (Execution)
  • T1552 — Unsecured Credentials (Credential Access)
  • T1041 — Exfiltration Over C2 Channel (Exfiltration)
  • T1190 — Exploit Public-Facing Application (Initial Access)
  • T1565 — Data Manipulation (Impact)

Malware / Outils

  • TruffleHog (tool)
  • Gitleaks (tool)

🟡 Indice de vĂ©rification factuelle : 60/100 (moyenne)

  • ✅ sophos.com — source reconnue (liste interne) (20pts)
  • ✅ 31482 chars — texte complet (fulltext extrait) (15pts)
  • ⬜ aucun IOC extrait (0pts)
  • ⬜ pas d’IOC Ă  vĂ©rifier (0pts)
  • ✅ 5 TTPs MITRE identifiĂ©es (15pts)
  • ✅ date extraite du HTML source (10pts)
  • ⬜ aucun acteur de menace nommĂ© (0pts)
  • ⬜ pas de CVE Ă  vĂ©rifier (0pts)

🔗 Source originale : https://www.sophos.com/en-gb/blog/inside-the-lethal-trifecta-blast-radius-reduction-in-ai-agent-deployments