Selon un papier de recherche académique (Harvard University et Centre for the Governance of AI), les auteurs proposent un cadre structuré pour analyser les incidents impliquant des agents IA et détaillent quelles données opérationnelles doivent être conservées et partagées pour permettre des enquêtes efficaces.
• Le cadre identifie trois catégories de causes d’incident: facteurs système (données d’entraînement/feedback, méthodes d’apprentissage, prompts système, scaffolding), facteurs contextuels (définition de la tâche, outils et leurs accès, environnement informationnel incluant les injections de prompts) et erreurs cognitives observables de l’agent (observation, compréhension, décision, exécution). Il s’inspire des approches « human factors » (ex. HFACS) utilisées en aviation et autres domaines critiques.
• Les auteurs précisent quelles informations sont nécessaires pour tester des hypothèses causales: journaux d’activité (prompts, traces de raisonnement/chain-of-thought, actions et outils, métadonnées), documentation et accès système (cartes/modèles, versions, paramètres d’exécution, changelogs), et informations sur les outils (identité/versions, capacités, instructions d’usage, exigences d’accès, état et erreurs). Ils proposent ce qui doit figurer par défaut dans un rapport d’incident et ce qui devrait être retenu et partageable sur demande pour permettre la reconstruction d’incidents.
• Un cas d’étude illustre le cadre: EchoLeak (CVE‑2025‑32711), une injection de prompt indirecte via e‑mail contre Microsoft 365 Copilot permettant l’exfiltration de données. L’analyse publique suggère des contributions de facteurs système (défenses/scaffolding insuffisants), contextuels (e‑mail malveillant accessible à l’agent) et potentiellement d’erreurs cognitives (mauvaise distinction des instructions malveillantes). Les auteurs indiquent les données supplémentaires nécessaires pour une analyse causale plus précise (journaux complets, traces de raisonnement, changelogs des défenses et du correctif).
• Le texte compare les pratiques actuelles de bases d’incidents (AIID, AVID, OECD AIM), limitées à l’information publique, avec les exigences émergentes (ex. EU AI Act, projet de Code de pratique de l’UE) susceptibles d’imposer des rapports plus complets (chaîne d’événements, analyse de causes racines). Il souligne les lacunes d’infrastructure pour un partage sécurisé de données sensibles, les contraintes de confidentialité/légal, la rétention courte des logs et le besoin de programmes d’accès encadrés (grey/white‑box) pour des enquêtes et reconstructions rigoureuses.
• L’article est une publication de recherche qui propose un cadre conceptuel, des catégories de données concrètes à collecter et des recommandations de reporting/accès pour améliorer l’analyse et la prévention des incidents d’agents IA.
IOC et TTPs observables dans le texte:
- IOC:
- CVE‑2025‑32711 (EchoLeak – Microsoft 365 Copilot)
- TTPs:
- Injection de prompt indirecte via contenu e‑mail
- Exfiltration de données via agent IA
- Tool poisoning/instructions malicieuses dans descriptions d’outils
- Accès outils excessif/inadéquat et défauts de scaffolding
🧠 TTPs et IOCs détectés
TTP
Injection de prompt indirecte, Exfiltration de données, Tool poisoning, Accès outils excessif/inadéquat, Défauts de scaffolding
IOC
CVE‑2025‑32711
🔗 Source originale : https://arxiv.org/abs/2508.14231