OpenEvolve-Based Search Attacker

🔬 Contexte Cet article est un preprint académique soumis en octobre 2025 par des chercheurs affiliés à OpenAI, Anthropic, Google DeepMind, ETH Zürich, Northeastern University et HackAPrompt. Il évalue la robustesse des défenses actuelles contre les jailbreaks et injections de prompts dans les grands modèles de langage (LLM). 🎯 Problème identifié Les défenses LLM existantes sont évaluées contre des ensembles statiques d’attaques ou des méthodes d’optimisation faibles non adaptées à la défense ciblée. Les auteurs arguent que cette approche est fondamentalement défaillante car elle ne reflète pas la capacité d’un attaquant réel à adapter sa stratégie. ...