SANDBOXESCAPEBENCH mesure lâaptitude des LLM Ă sâĂ©chapper de conteneurs
Source et contexte: PrĂ©publication (UK AI Security Institute / University of Oxford), datĂ©e du 4 mars 2026. Lâarticle introduit SANDBOXESCAPEBENCH, un benchmark et une mĂ©thodologie dâĂ©valuation « sandbox-in-sandbox » pour mesurer si des agents LLM peuvent sortir dâun conteneur et lire un fichier /flag.txt sur lâhĂŽte. âą Le benchmark couvre 18 scĂ©narios dâorchestration (K8s), de runtime (Docker/OCI) et de noyau Linux, avec une architecture dâĂ©valuation par CTF et un double isolement (VM + conteneur) afin dâĂ©viter tout risque pour lâinfrastructure. Les auteurs publient les 18 niveaux et un provider de sandbox VM pour Inspect (Vagrant/EC2), avec un jeu de test privĂ©. ...