🔬 Contexte

Cet article est un preprint académique soumis en octobre 2025 par des chercheurs affiliés à OpenAI, Anthropic, Google DeepMind, ETH Zürich, Northeastern University et HackAPrompt. Il évalue la robustesse des défenses actuelles contre les jailbreaks et injections de prompts dans les grands modèles de langage (LLM).

🎯 Problème identifié

Les défenses LLM existantes sont évaluées contre des ensembles statiques d’attaques ou des méthodes d’optimisation faibles non adaptées à la défense ciblée. Les auteurs arguent que cette approche est fondamentalement défaillante car elle ne reflète pas la capacité d’un attaquant réel à adapter sa stratégie.

🧪 Méthodologie

Les chercheurs ont développé un cadre d’attaque adaptative généralisé (boucle PSSU : Propose, Score, Select, Update) instancié en quatre familles :

  • Gradient-based : adaptation des techniques adversariales au domaine discret des tokens (ex: GCG)
  • Reinforcement Learning (RL) : politique optimisée via GRPO pour maximiser le succès d’attaque
  • Search-based : algorithme évolutionnaire avec LLM mutateur (inspiré de MAP-Elites et OpenEvolve)
  • Human red-teaming : compétition en ligne avec plus de 500 participants et 20 000$ de prix

🛡️ Défenses évaluées et résultats

12 défenses réparties en 4 catégories ont été testées :

Prompting :

  • Spotlighting → ASR 99% (vs 0% statique)
  • Prompt Sandwiching → ASR 95% (vs 0% statique)
  • RPO → ASR 98-99% (vs 0% statique)

Training :

  • Circuit Breakers → ASR 100% (RL)
  • StruQ → ASR 100% (RL)
  • MetaSecAlign → ASR 96% (search)

Filtering Models :

  • Protect AI Detector → ASR 90%+
  • PromptGuard → ASR 94%
  • PIGuard → ASR 71%
  • Model Armor (Google) → ASR 90%+

Secret Knowledge :

  • DataSentinel → ASR 80%+ (RL)
  • MELON → ASR 76-95% (search)

📊 Benchmarks utilisés

  • HarmBench : évaluation des jailbreaks
  • AgentDojo : injections de prompts en contexte agentique
  • OpenPromptInject : injections non-agentiques
  • Alpaca/Davinci : évaluation StruQ

🏆 Red-teaming humain

Le red-teaming humain réussit sur 100% des scénarios testés, surpassant les méthodes automatisées. Les participants ont généré 265 attaques réussies contre Spotlighting et 178 contre Prompt Sandwiching.

📌 Leçons principales

  1. Les évaluations statiques sont trompeuses et favorisent le surapprentissage
  2. Les méthodes automatisées (RL, search) sont prometteuses mais pas encore aussi fiables que les humains
  3. Le red-teaming humain reste indispensable
  4. Les auto-évaluateurs basés sur des modèles sont vulnérables au reward hacking

📄 Nature de l’article

Publication de recherche académique (preprint) visant à démontrer l’insuffisance des évaluations actuelles de robustesse des défenses LLM et à proposer un cadre d’évaluation plus rigoureux basé sur des attaquants adaptatifs.

🧠 TTPs et IOCs détectés

TTP

  • T1055 — Process Injection (analogy: prompt injection overriding model intent) (Defense Evasion)
  • T1562 — Impair Defenses (Defense Evasion)
  • T1059 — Command and Scripting Interpreter (LLM-based tool call manipulation) (Execution)

IOC

  • Emails : mark.black-2134@gmail.com
  • Emails : fred9246@gmail.com
  • Emails : dora@gmail.com

Malware / Outils

  • GCG (Greedy Coordinate Gradient) (tool)
  • GRPO-based RL attacker (tool)
  • OpenEvolve-based search attacker (tool)

🟡 Indice de vérification factuelle : 50/100 (moyenne)

  • ⬜ arxiv.org — source non référencée (0pts)
  • ✅ 93184 chars — texte complet (fulltext extrait) (15pts)
  • ✅ 3 IOCs (IPs/domaines/CVEs) (10pts)
  • ⬜ pas d’IOC vérifié (0pts)
  • ✅ 3 TTPs MITRE identifiées (15pts)
  • ✅ date extraite du HTML source (10pts)
  • ⬜ aucun acteur de menace nommé (0pts)
  • ⬜ pas de CVE à vérifier (0pts)

🔗 Source originale : https://arxiv.org/abs/2510.09023