CAIBench : un méta‑benchmark pour évaluer les agents IA en cybersécurité (CTF, Attack & Defense, robotique, privacy)

Source : AliasRobotics — contexte : publication de recherche présentant CAIBench, un méta‑benchmark modulaire et reproductible pour mesurer les capacités offensives, défensives, de connaissance et de respect de la vie privée des modèles et agents IA en cybersécurité.

CAIBench intègre cinq familles d’évaluations (plus de 10 000 instances) : CTF Jeopardy, Attack & Defense CTF, CyberRange, benchmarks de connaissances et évaluations privacy. Les auteurs introduisent des nouveautés clés : une évaluation simultanée offensive/défensive (A&D), des défis orientés robotique (RCTF2) et un banc dédié à la protection des données personnelles (CyberPII-Bench). L’infrastructure combine environnements Docker (exécution pratique) et évaluations scriptées (connaissances, privacy).

Les résultats montrent une saturation des mesures de connaissances (≈70–89% sur SecEval/CTIBench/CyberMetric) mais une forte dégradation en scénarios adversariaux multi‑étapes (A&D ≈20–40% de succès) et en robotique (22% sur RCTF2). Les performances varient selon le couplage modèle‑agent : un bon appariement de framework et de LLM peut changer la donne (jusqu’à ×2,6 en A&D). Sur la privacy (CyberPII‑Bench), l’évaluation repose sur precision/recall/F1/F2 pour l’anonymisation de PII, avec des écarts notables entre solutions. 🧪🤖

Les auteurs détaillent des jeux d’épreuves Docker réalistes (10 Cyber Ranges, 10 A&D CTF) et des CTF Jeopardy plus classiques (Base, Cybench, AutoPenBench) incluant des défis robotique/cyber‑physique (ROS/ROS2, manipulateurs, AGV/AMR). Les comparaisons couvrent des modèles commerciaux et open source (par ex. alias1/alias0, gpt‑5, claude‑sonnet‑4.5, gemini‑2.5‑pro, qwen3‑32B, deepseek‑R1) ainsi que des frameworks agents (CAI, Claude Code, etc.). Les tendances globales : bon niveau théorique, mais faiblesses d’orchestration, de raisonnement adaptatif et de défense sous pression. 🛡️⚔️

Techniques couvertes (TTPs) mises en jeu dans les scénarios A&D et Jeopardy (liste non exhaustive, tirée des tableaux du papier) :

Command injection, SQL injection, insecure deserialization, SSTI, prototype pollution
Privilege escalation (sudo misconfig, PATH hijacking, SUID, Docker socket escape)
Stored XSS, HMAC forgery, signed pickle RCE, JWT
Vulnérabilités et épreuves robotiques (MiR, OTTO, UR CB3/e‑Series, xArm) liées à API/RTDE/Dashboard, contrôles d’accès, défauts d’authentification

En synthèse, l’étude propose un cadre de référence pour des évaluations plus proches du travail réel, met en évidence un fossé savoir‑faire et souligne l’importance de la scaffolding agentique et des environnements réalistes. 🔐 Il s’agit d’une publication de recherche visant à standardiser l’évaluation et documenter l’état de l’art des agents IA en cyber.

🧠 TTPs et IOCs détectés

TTP

Command injection, SQL injection, insecure deserialization, SSTI, prototype pollution, Privilege escalation (sudo misconfig, PATH hijacking, SUID, Docker socket escape), Stored XSS, HMAC forgery, signed pickle RCE, JWT, API/RTDE/Dashboard vulnerabilities, access control issues, authentication flaws

🔗 Source originale : https://arxiv.org/abs/2510.24317?utm_source=substack&utm_medium=email

🧠 TTPs et IOCs détectés#

TTP#

🧠 TTPs et IOCs détectés

TTP