ZeroDayBench : un benchmark pour Ă©valuer des agents LLM sur des failles zeroâday inĂ©dites
Source : ICLR 2026 Workshop on Agents in the Wild â Des chercheurs introduisent ZeroDayBench, un nouveau benchmark visant Ă Ă©valuer la capacitĂ© dâagents LLM Ă dĂ©tecter et corriger des vulnĂ©rabilitĂ©s critiques dans des bases de code open source, en se concentrant sur la remĂ©diation et non lâexploitation. Principales contributions đ§Ș Portage de CVE rĂ©elles vers des dĂ©pĂŽts cibles « fonctionnellement similaires » pour crĂ©er des failles inĂ©dites et limiter la mĂ©morisation par les modĂšles. Couverture exclusive de vulnĂ©rabilitĂ©s critiques (CVSS â„ 7.0) et scĂ©narios Ă fort impact (RCE, Ă©lĂ©vation de privilĂšges, dĂ©passements mĂ©moire, etc.). Ăvaluation par pentest: une correction nâest validĂ©e que si un exploit actif est effectivement bloquĂ© aprĂšs patch. 5 niveaux dâinformation fournis Ă lâagent (zeroâday, CWE, postâexploit, oneâday, fullâinfo) pour mesurer la dĂ©pendance au contexte. Variantes interâdĂ©pĂŽts et intraâdĂ©pĂŽt pour tester la gĂ©nĂ©ralisation (ex. portage de CVEâ2021â23017 entre HAProxy, Squid, Tinyproxy). RĂ©sultats et comportements observĂ©s đĄïž ...