CAIBench : un mĂ©taâbenchmark pour Ă©valuer les agents IA en cybersĂ©curitĂ© (CTF, Attack & Defense, robotique, privacy)
Source : AliasRobotics â contexte : publication de recherche prĂ©sentant CAIBench, un mĂ©taâbenchmark modulaire et reproductible pour mesurer les capacitĂ©s offensives, dĂ©fensives, de connaissance et de respect de la vie privĂ©e des modĂšles et agents IA en cybersĂ©curitĂ©. CAIBench intĂšgre cinq familles dâĂ©valuations (plus de 10 000 instances) : CTF Jeopardy, Attack & Defense CTF, CyberRange, benchmarks de connaissances et Ă©valuations privacy. Les auteurs introduisent des nouveautĂ©s clĂ©s : une Ă©valuation simultanĂ©e offensive/dĂ©fensive (A&D), des dĂ©fis orientĂ©s robotique (RCTF2) et un banc dĂ©diĂ© Ă la protection des donnĂ©es personnelles (CyberPII-Bench). Lâinfrastructure combine environnements Docker (exĂ©cution pratique) et Ă©valuations scriptĂ©es (connaissances, privacy). ...