Des attaques adaptatives contournent 12 défenses LLM contre jailbreaks et injections de prompts

Wed, 13 May 2026 00:00:00 +0000

🔬 Contexte

Cet article est un preprint académique soumis en octobre 2025 par des chercheurs affiliés à OpenAI, Anthropic, Google DeepMind, ETH Zürich, Northeastern University et HackAPrompt. Il évalue la robustesse des défenses actuelles contre les jailbreaks et injections de prompts dans les grands modèles de langage (LLM).

🎯 Problème identifié

Les défenses LLM existantes sont évaluées contre des ensembles statiques d’attaques ou des méthodes d’optimisation faibles non adaptées à la défense ciblée. Les auteurs arguent que cette approche est fondamentalement défaillante car elle ne reflète pas la capacité d’un attaquant réel à adapter sa stratégie.

OpenEvolve-Based Search Attacker on CyberVeille

Des attaques adaptatives contournent 12 défenses LLM contre jailbreaks et injections de prompts

🔬 Contexte

🎯 Problème identifié