NeuroGrid: des équipes augmentées par IA surpassent largement les humaines sur des défis d’offensive

Selon Help Net Security, la compétition NeuroGrid (72h sur la plateforme Hack The Box) a comparé des équipes IA-augmentées (via Model Context Protocol avec supervision humaine) à des équipes 100% humaines sur 36 défis couvrant 9 domaines et 4 niveaux de difficulté. L’analyse porte sur 958 équipes humaines et 120 équipes IA ayant tenté au moins un défi, sur un total de 1 337 équipes humaines et 156 équipes IA inscrites. 🤖🧑‍💻 ...

8 mars 2026 · 3 min

CAIBench : un méta‑benchmark pour évaluer les agents IA en cybersécurité (CTF, Attack & Defense, robotique, privacy)

Source : AliasRobotics — contexte : publication de recherche présentant CAIBench, un méta‑benchmark modulaire et reproductible pour mesurer les capacités offensives, défensives, de connaissance et de respect de la vie privée des modèles et agents IA en cybersécurité. CAIBench intègre cinq familles d’évaluations (plus de 10 000 instances) : CTF Jeopardy, Attack & Defense CTF, CyberRange, benchmarks de connaissances et évaluations privacy. Les auteurs introduisent des nouveautés clés : une évaluation simultanée offensive/défensive (A&D), des défis orientés robotique (RCTF2) et un banc dédié à la protection des données personnelles (CyberPII-Bench). L’infrastructure combine environnements Docker (exécution pratique) et évaluations scriptées (connaissances, privacy). ...

2 novembre 2025 · 2 min
Dernière mise à jour le: 26 Mar 2026 📝