Des attaques adaptatives contournent 12 défenses LLM contre jailbreaks et injections de prompts

🔬 Contexte Cet article est un preprint académique soumis en octobre 2025 par des chercheurs affiliés à OpenAI, Anthropic, Google DeepMind, ETH Zürich, Northeastern University et HackAPrompt. Il évalue la robustesse des défenses actuelles contre les jailbreaks et injections de prompts dans les grands modèles de langage (LLM). 🎯 Problème identifié Les défenses LLM existantes sont évaluées contre des ensembles statiques d’attaques ou des méthodes d’optimisation faibles non adaptées à la défense ciblée. Les auteurs arguent que cette approche est fondamentalement défaillante car elle ne reflète pas la capacité d’un attaquant réel à adapter sa stratégie. ...

13 mai 2026 · 3 min
Dernière mise à jour le: 13 mai 2026 📝