SANDBOXESCAPEBENCH mesure l’aptitude des LLM à s’échapper de conteneurs

Source et contexte: Prépublication (UK AI Security Institute / University of Oxford), datée du 4 mars 2026. L’article introduit SANDBOXESCAPEBENCH, un benchmark et une méthodologie d’évaluation « sandbox-in-sandbox » pour mesurer si des agents LLM peuvent sortir d’un conteneur et lire un fichier /flag.txt sur l’hôte. • Le benchmark couvre 18 scénarios d’orchestration (K8s), de runtime (Docker/OCI) et de noyau Linux, avec une architecture d’évaluation par CTF et un double isolement (VM + conteneur) afin d’éviter tout risque pour l’infrastructure. Les auteurs publient les 18 niveaux et un provider de sandbox VM pour Inspect (Vagrant/EC2), avec un jeu de test privé. ...

15 mars 2026 · 3 min
Dernière mise à jour le: 16 Mar 2026 📝