đ Contexte LâAI Security Institute (AISI) du Royaume-Uni a publiĂ© le 19 avril 2026 une Ă©valuation des capacitĂ©s cybersĂ©curitĂ© du modĂšle Claude Mythos Preview dâAnthropic. Cette Ă©valuation sâinscrit dans un suivi continu des capacitĂ©s cyber des IA depuis 2023, avec des environnements de test progressivement plus complexes.
đ RĂ©sultats CTF (Capture The Flag) Sur les tĂąches de niveau expert (aucun modĂšle ne pouvait les rĂ©soudre avant avril 2025), Mythos Preview rĂ©ussit 73% du temps Les Ă©valuations couvrent des modĂšles depuis GPT-3.5 Turbo jusquâĂ Mythos Preview, avec des budgets de tokens allant jusquâĂ 50M tokens pour les niveaux expert đ RĂ©sultats sur le cyber range « The Last Ones » (TLO) TLO est une simulation dâattaque rĂ©seau dâentreprise en 32 Ă©tapes, estimĂ©e Ă 20 heures de travail humain Claude Mythos Preview est le premier modĂšle Ă rĂ©soudre TLO de bout en bout, dans 3 tentatives sur 10 En moyenne, il complĂšte 22 Ă©tapes sur 32 sur lâensemble de ses tentatives Le modĂšle suivant, Claude Opus 4.6, complĂšte en moyenne 16 Ă©tapes Les performances continuent de progresser avec lâaugmentation du budget de tokens (jusquâĂ 100M tokens testĂ©s) â ïž Limites observĂ©es Mythos Preview nâa pas pu complĂ©ter le cyber range « Cooling Tower » (axĂ© sur les technologies opĂ©rationnelles / OT), bien que le blocage soit survenu sur des sections IT Les environnements de test sont plus simples que le monde rĂ©el : absence de dĂ©fenseurs actifs, dâoutils de dĂ©tection, et aucune pĂ©nalitĂ© pour les actions dĂ©clenchant des alertes đŻ Implications CTI Le modĂšle est capable dâattaquer de maniĂšre autonome des systĂšmes dâentreprise faiblement dĂ©fendus si un accĂšs rĂ©seau lui est fourni Les Ă©valuations futures intĂ©greront des environnements durcis et dĂ©fendus (EDR, SOC actif, rĂ©ponse Ă incident en temps rĂ©el) LâAISI prĂ©voit Ă©galement de tester les capacitĂ©s de dĂ©couverte de vulnĂ©rabilitĂ©s et de pentest sur des systĂšmes rĂ©els đ Type dâarticle Il sâagit dâune publication de recherche officielle de lâAISI visant Ă documenter lâĂ©volution des capacitĂ©s offensives des modĂšles dâIA frontier et Ă informer la communautĂ© cybersĂ©curitĂ© sur les risques Ă©mergents liĂ©s Ă lâIA autonome.
...