Des attaques adaptatives contournent 12 défenses LLM contre jailbreaks et injections de prompts

🔬 Contexte

Cet article est un preprint académique soumis en octobre 2025 par des chercheurs affiliés à OpenAI, Anthropic, Google DeepMind, ETH Zürich, Northeastern University et HackAPrompt. Il évalue la robustesse des défenses actuelles contre les jailbreaks et injections de prompts dans les grands modèles de langage (LLM).

🎯 Problème identifié

Les défenses LLM existantes sont évaluées contre des ensembles statiques d’attaques ou des méthodes d’optimisation faibles non adaptées à la défense ciblée. Les auteurs arguent que cette approche est fondamentalement défaillante car elle ne reflète pas la capacité d’un attaquant réel à adapter sa stratégie.

🧪 Méthodologie

Les chercheurs ont développé un cadre d’attaque adaptative généralisé (boucle PSSU : Propose, Score, Select, Update) instancié en quatre familles :

Gradient-based : adaptation des techniques adversariales au domaine discret des tokens (ex: GCG)
Reinforcement Learning (RL) : politique optimisée via GRPO pour maximiser le succès d’attaque
Search-based : algorithme évolutionnaire avec LLM mutateur (inspiré de MAP-Elites et OpenEvolve)
Human red-teaming : compétition en ligne avec plus de 500 participants et 20 000$ de prix

🛡️ Défenses évaluées et résultats

12 défenses réparties en 4 catégories ont été testées :

Prompting :

Spotlighting → ASR 99% (vs 0% statique)
Prompt Sandwiching → ASR 95% (vs 0% statique)
RPO → ASR 98-99% (vs 0% statique)

Training :

Circuit Breakers → ASR 100% (RL)
StruQ → ASR 100% (RL)
MetaSecAlign → ASR 96% (search)

Filtering Models :

Protect AI Detector → ASR 90%+
PromptGuard → ASR 94%
PIGuard → ASR 71%
Model Armor (Google) → ASR 90%+

Secret Knowledge :

DataSentinel → ASR 80%+ (RL)
MELON → ASR 76-95% (search)

📊 Benchmarks utilisés

HarmBench : évaluation des jailbreaks
AgentDojo : injections de prompts en contexte agentique
OpenPromptInject : injections non-agentiques
Alpaca/Davinci : évaluation StruQ

🏆 Red-teaming humain

Le red-teaming humain réussit sur 100% des scénarios testés, surpassant les méthodes automatisées. Les participants ont généré 265 attaques réussies contre Spotlighting et 178 contre Prompt Sandwiching.

📌 Leçons principales

Les évaluations statiques sont trompeuses et favorisent le surapprentissage
Les méthodes automatisées (RL, search) sont prometteuses mais pas encore aussi fiables que les humains
Le red-teaming humain reste indispensable
Les auto-évaluateurs basés sur des modèles sont vulnérables au reward hacking

📄 Nature de l’article

Publication de recherche académique (preprint) visant à démontrer l’insuffisance des évaluations actuelles de robustesse des défenses LLM et à proposer un cadre d’évaluation plus rigoureux basé sur des attaquants adaptatifs.

🧠 TTPs et IOCs détectés

TTP

T1055 — Process Injection (analogy: prompt injection overriding model intent) (Defense Evasion)
T1562 — Impair Defenses (Defense Evasion)
T1059 — Command and Scripting Interpreter (LLM-based tool call manipulation) (Execution)

IOC

Emails : mark.black-2134@gmail.com
Emails : fred9246@gmail.com
Emails : dora@gmail.com

Malware / Outils

GCG (Greedy Coordinate Gradient) (tool)
GRPO-based RL attacker (tool)
OpenEvolve-based search attacker (tool)

🟡 Indice de vérification factuelle : 50/100 (moyenne)

⬜ arxiv.org — source non référencée (0pts)
✅ 93184 chars — texte complet (fulltext extrait) (15pts)
✅ 3 IOCs (IPs/domaines/CVEs) (10pts)
⬜ pas d’IOC vérifié (0pts)
✅ 3 TTPs MITRE identifiées (15pts)
✅ date extraite du HTML source (10pts)
⬜ aucun acteur de menace nommé (0pts)
⬜ pas de CVE à vérifier (0pts)

🔗 Source originale : https://arxiv.org/abs/2510.09023

🔬 Contexte#

🎯 Problème identifié#

🧪 Méthodologie#

🛡️ Défenses évaluées et résultats#

📊 Benchmarks utilisés#

🏆 Red-teaming humain#

📌 Leçons principales#

📄 Nature de l’article#

🧠 TTPs et IOCs détectés#

TTP#

IOC#

Malware / Outils#

🟡 Indice de vérification factuelle : 50/100 (moyenne)#