Source: Emerging Technology Security — Contexte: des chercheurs de Unit 42 détaillent une démonstration d’attaque montrant comment des adversaires peuvent empoisonner la mémoire longue d’un agent LLM via l’injection de prompt indirecte, avec Amazon Bedrock Agent comme étude de cas.

Les chercheurs expliquent que lorsque la mémoire d’agent est activée, des instructions malicieuses injectées par ingénierie sociale peuvent manipuler le processus de synthèse de session, conduisant à l’enregistrement de commandes persistantes qui survivront aux sessions futures. Ces instructions empoisonnées sont ensuite réintroduites dans les prompts d’orchestration comme contexte « système », permettant l’exécution discrète d’objectifs d’attaquants (ex. exfiltration de données).

Techniquement, l’attaque exploite la récupération de contenu externe par l’agent. Le payload est intégré dans une page web malveillante et utilise de faux tags XML de conversation pour pousser le LLM à traiter le contenu contrôlé par l’attaquant comme des instructions système plutôt que comme une simple entrée utilisateur. Lorsque l’outil de web scraping de l’agent récupère cette page, les instructions injectées détournent le prompt de synthèse, provoquant l’inscription de commandes malicieuses dans la mémoire persistante.

Lors des sessions ultérieures, ces instructions mémorisées sont injectées automatiquement dans le contexte du système, ce qui permet une exécution autonome d’actions de l’attaquant, dont l’exfiltration de données via des URLs C2 encodées. 🕵️‍♂️ Cette démonstration met en lumière des défis non résolus plus larges autour de la sécurité LLM quand du contenu non fiable est intégré aux prompts système.

TTPs observées:

  • Injection de prompt indirecte (indirect prompt injection)
  • Empoisonnement de la mémoire d’agent / persistance cross-session
  • Abus de la synthèse de session et des prompts d’orchestration
  • Utilisation de faux tags XML pour déguiser des instructions en « système »
  • Exploitation d’un outil de web scraping pour ingérer du contenu malveillant
  • Exfiltration de données via des URLs C2 encodées

IOCs: Aucun indicateur technique (hash, domaine, IP) explicitement fourni dans le texte.

Type d’article: publication de recherche visant à démontrer une méthode d’attaque et à illustrer les risques de sécurité des agents LLM.


🔗 Source originale : https://unit42.paloaltonetworks.com/indirect-prompt-injection-poisons-ai-longterm-memory/

🖴 Archive : https://web.archive.org/web/20251010171852/https://unit42.paloaltonetworks.com/indirect-prompt-injection-poisons-ai-longterm-memory/