🔬 Contexte
Cet article est un preprint académique soumis en octobre 2025 par des chercheurs affiliés à OpenAI, Anthropic, Google DeepMind, ETH Zürich, Northeastern University et HackAPrompt. Il évalue la robustesse des défenses actuelles contre les jailbreaks et injections de prompts dans les grands modèles de langage (LLM).
🎯 Problème identifié
Les défenses LLM existantes sont évaluées contre des ensembles statiques d’attaques ou des méthodes d’optimisation faibles non adaptées à la défense ciblée. Les auteurs arguent que cette approche est fondamentalement défaillante car elle ne reflète pas la capacité d’un attaquant réel à adapter sa stratégie.
🧪 Méthodologie
Les chercheurs ont développé un cadre d’attaque adaptative généralisé (boucle PSSU : Propose, Score, Select, Update) instancié en quatre familles :
- Gradient-based : adaptation des techniques adversariales au domaine discret des tokens (ex: GCG)
- Reinforcement Learning (RL) : politique optimisée via GRPO pour maximiser le succès d’attaque
- Search-based : algorithme évolutionnaire avec LLM mutateur (inspiré de MAP-Elites et OpenEvolve)
- Human red-teaming : compétition en ligne avec plus de 500 participants et 20 000$ de prix
🛡️ Défenses évaluées et résultats
12 défenses réparties en 4 catégories ont été testées :
Prompting :
- Spotlighting → ASR 99% (vs 0% statique)
- Prompt Sandwiching → ASR 95% (vs 0% statique)
- RPO → ASR 98-99% (vs 0% statique)
Training :
- Circuit Breakers → ASR 100% (RL)
- StruQ → ASR 100% (RL)
- MetaSecAlign → ASR 96% (search)
Filtering Models :
- Protect AI Detector → ASR 90%+
- PromptGuard → ASR 94%
- PIGuard → ASR 71%
- Model Armor (Google) → ASR 90%+
Secret Knowledge :
- DataSentinel → ASR 80%+ (RL)
- MELON → ASR 76-95% (search)
📊 Benchmarks utilisés
- HarmBench : évaluation des jailbreaks
- AgentDojo : injections de prompts en contexte agentique
- OpenPromptInject : injections non-agentiques
- Alpaca/Davinci : évaluation StruQ
🏆 Red-teaming humain
Le red-teaming humain réussit sur 100% des scénarios testés, surpassant les méthodes automatisées. Les participants ont généré 265 attaques réussies contre Spotlighting et 178 contre Prompt Sandwiching.
📌 Leçons principales
- Les évaluations statiques sont trompeuses et favorisent le surapprentissage
- Les méthodes automatisées (RL, search) sont prometteuses mais pas encore aussi fiables que les humains
- Le red-teaming humain reste indispensable
- Les auto-évaluateurs basés sur des modèles sont vulnérables au reward hacking
📄 Nature de l’article
Publication de recherche académique (preprint) visant à démontrer l’insuffisance des évaluations actuelles de robustesse des défenses LLM et à proposer un cadre d’évaluation plus rigoureux basé sur des attaquants adaptatifs.
🧠 TTPs et IOCs détectés
TTP
- T1055 — Process Injection (analogy: prompt injection overriding model intent) (Defense Evasion)
- T1562 — Impair Defenses (Defense Evasion)
- T1059 — Command and Scripting Interpreter (LLM-based tool call manipulation) (Execution)
IOC
- Emails :
mark.black-2134@gmail.com - Emails :
fred9246@gmail.com - Emails :
dora@gmail.com
Malware / Outils
- GCG (Greedy Coordinate Gradient) (tool)
- GRPO-based RL attacker (tool)
- OpenEvolve-based search attacker (tool)
🟡 Indice de vérification factuelle : 50/100 (moyenne)
- ⬜ arxiv.org — source non référencée (0pts)
- ✅ 93184 chars — texte complet (fulltext extrait) (15pts)
- ✅ 3 IOCs (IPs/domaines/CVEs) (10pts)
- ⬜ pas d’IOC vérifié (0pts)
- ✅ 3 TTPs MITRE identifiées (15pts)
- ✅ date extraite du HTML source (10pts)
- ⬜ aucun acteur de menace nommé (0pts)
- ⬜ pas de CVE à vérifier (0pts)
🔗 Source originale : https://arxiv.org/abs/2510.09023