Anthropic lance Claude Sonnet 4.5, axé cyberdéfense et SOTA sur Cybench/CyberGym

L’editeur d’intelligence artificielle Anthropic (red.anthropic.com) estime que l’IA atteint un point d’inflexion en cybersécurité et dévoile Claude Sonnet 4.5, une version renforcée pour la découverte et la remédiation de vulnérabilités, évaluée sur des benchmarks externes et testée avec des partenaires.

🛡️ Contexte et positionnement

L’IA devient « utile en pratique » pour les tâches cyber, avec des progrès rapides observés sur la dernière année (ex. reproduction simulée de l’attaque Equifax 2017, performances en compétitions CTF, contributions à la découverte de vulnérabilités en interne, usages lors du DARPA AI Cyber Challenge).
Anthropic affirme vouloir accélérer l’usage défensif de l’IA afin de ne pas laisser l’avantage aux attaquants, en investissant dans des compétences comme la découverte de vulnérabilités et le patching.

🚀 Produit et orientation cyber

Claude Sonnet 4.5 met l’accent sur les compétences cyber tout en restant moins coûteux et plus rapide. Il est présenté comme comparable ou supérieur à Opus 4.1 sur plusieurs dimensions liées à la cybersécurité.
Les travaux ont explicitement évité d’améliorer des capacités offensives (ex. exploitation avancée, écriture de malware), au profit de tâches de défense.

🧪 Résultats d’évaluations (Cybench)

Sur Cybench (défis CTF), Sonnet 4.5 montre une forte progression. Exemple: un défi impliquant analyse de trafic, extraction de malware, décompilation et décryptage résolu en 38 minutes par le modèle.
Avec 10 tentatives, Sonnet 4.5 réussit 76,5% des challenges (contre 35,9% pour Sonnet 3.7 six mois plus tôt). Sonnet 4.5 dépasse même Opus 4.1 en probabilité de succès à 1 tentative là où Opus 4.1 en a 10.

🧰 Résultats d’évaluations (CyberGym) et patching

Sur CyberGym, Sonnet 4.5 atteint un SOTA de 28,9% sous contrainte de coût (2 $ par vulnérabilité), et 66,7% de reproduction de vulnérabilités avec 30 essais (coût total ≈ 45 $ par tâche).
Découverte de nouvelles vulnérabilités: 5% en un essai, >33% avec 30 essais.
Recherche préliminaire sur le patching: environ 15% des patches générés sont jugés sémantiquement équivalents à des patches humains (auto-évaluation par le modèle), avec des vérifications manuelles indiquant des correctifs fonctionnellement identiques sur un échantillon.

🔍 Abus détectés et partenariats

Safeguards d’Anthropic rapporte avoir détecté et perturbé des abus de l’IA, dont un cas de “vibe hacking” menant à une extorsion de données à grande échelle, et des opérations d’espionnage visant des infrastructures télécoms critiques, attribuables par caractéristiques à un acteur de type APT chinois.
Témoignages: HackerOne (réduction de 44% du temps d’« intake » de vulnérabilités, +25% d’exactitude), CrowdStrike (utilité pour le red teaming et la génération de scénarios d’attaque).
Pistes d’adoption: intégration dans CI/CD (revues de sécurité automatisées), SOC, SIEM, ingénierie réseau sécurisée, active defense. L’article est une annonce orientée produit/évaluations visant à promouvoir l’adoption défensive de l’IA.

🔗 Source originale : https://red.anthropic.com/2025/ai-for-cyber-defenders/

🖴 Archive : https://web.archive.org/web/20250930192815/https://red.anthropic.com/2025/ai-for-cyber-defenders/