ZeroDayBench : un benchmark pour évaluer des agents LLM sur des failles zero‑day inédites
Source : ICLR 2026 Workshop on Agents in the Wild — Des chercheurs introduisent ZeroDayBench, un nouveau benchmark visant à évaluer la capacité d’agents LLM à détecter et corriger des vulnérabilités critiques dans des bases de code open source, en se concentrant sur la remédiation et non l’exploitation. Principales contributions 🧪 Portage de CVE réelles vers des dépôts cibles « fonctionnellement similaires » pour créer des failles inédites et limiter la mémorisation par les modèles. Couverture exclusive de vulnérabilités critiques (CVSS ≥ 7.0) et scénarios à fort impact (RCE, élévation de privilèges, dépassements mémoire, etc.). Évaluation par pentest: une correction n’est validée que si un exploit actif est effectivement bloqué après patch. 5 niveaux d’information fournis à l’agent (zero‑day, CWE, post‑exploit, one‑day, full‑info) pour mesurer la dépendance au contexte. Variantes inter‑dépôts et intra‑dépôt pour tester la généralisation (ex. portage de CVE‑2021‑23017 entre HAProxy, Squid, Tinyproxy). Résultats et comportements observés 🛡️ ...