CAIBench : un méta‑benchmark pour évaluer les agents IA en cybersécurité (CTF, Attack & Defense, robotique, privacy)
Source : AliasRobotics — contexte : publication de recherche présentant CAIBench, un méta‑benchmark modulaire et reproductible pour mesurer les capacités offensives, défensives, de connaissance et de respect de la vie privée des modèles et agents IA en cybersécurité. CAIBench intègre cinq familles d’évaluations (plus de 10 000 instances) : CTF Jeopardy, Attack & Defense CTF, CyberRange, benchmarks de connaissances et évaluations privacy. Les auteurs introduisent des nouveautés clés : une évaluation simultanée offensive/défensive (A&D), des défis orientés robotique (RCTF2) et un banc dédié à la protection des données personnelles (CyberPII-Bench). L’infrastructure combine environnements Docker (exécution pratique) et évaluations scriptées (connaissances, privacy). ...