Des attaques adaptatives contournent 12 défenses LLM contre jailbreaks et injections de prompts
đŹ Contexte Cet article est un preprint acadĂ©mique soumis en octobre 2025 par des chercheurs affiliĂ©s Ă OpenAI, Anthropic, Google DeepMind, ETH ZĂŒrich, Northeastern University et HackAPrompt. Il Ă©value la robustesse des dĂ©fenses actuelles contre les jailbreaks et injections de prompts dans les grands modĂšles de langage (LLM). đŻ ProblĂšme identifiĂ© Les dĂ©fenses LLM existantes sont Ă©valuĂ©es contre des ensembles statiques dâattaques ou des mĂ©thodes dâoptimisation faibles non adaptĂ©es Ă la dĂ©fense ciblĂ©e. Les auteurs arguent que cette approche est fondamentalement dĂ©faillante car elle ne reflĂšte pas la capacitĂ© dâun attaquant rĂ©el Ă adapter sa stratĂ©gie. ...