Selon le blog Frontier Red Team d’Anthropic (red.anthropic.com), publié le 5 février 2026, l’éditeur présente Claude Opus 4.6 et explique comment le modèle découvre des vulnérabilités critiques dans des projets open source, tout en décrivant des garde-fous pour limiter les mésusages.

  • Anthropic affirme que Claude Opus 4.6 est nettement plus performant pour trouver des vulnérabilités de haute sévérité « out‑of‑the‑box », sans outillage spécialisé ni prompts dédiés. Le modèle raisonne sur le code comme un chercheur humain, repère des motifs à risque et identifie des correctifs partiels pour cibler des chemins restants. L’équipe indique avoir trouvé et validé plus de 500 vulnérabilités critiques dans l’open source, commencé à les reporter et à proposer des correctifs, et poursuit les patchs en collaboration avec les mainteneurs. 🔎🐞

  • Côté méthodologie, Claude est placé dans une VM avec des utilitaires standards et des outils d’analyse (debuggers, fuzzers), sans instructions spéciales ni harnais sur mesure, afin d’évaluer ses capacités générales. La recherche a ciblé prioritairement les vulnérabilités de corruption mémoire, plus faciles à valider via crash/ASan. Chaque bug est validé humainement, dédupliqué et priorisé, avec des correctifs initialement rédigés à la main puis appuyés par des chercheurs externes. L’équipe accélère en parallèle l’automatisation du développement de patchs. 🧪

  • Exemples notables (désormais corrigés par les mainteneurs) :

    • GhostScript : en consultant l’historique Git, Claude repère un commit ajoutant des contrôles de limites de pile et identifie un appel similaire non protégé ailleurs, puis construit un PoC de crash confirmant la faille.
    • OpenSC : en recherchant des appels potentiellement dangereux, Claude trouve une suite de strcat() sur un buffer filename[PATH_MAX] conduisant à un dépassement de tampon selon la longueur des concaténations.
    • CGIF : compréhension du LZW et du format GIF pour montrer que, via des réinitialisations du dictionnaire, la taille « compressée » peut dépasser l’originale, entraînant un overflow; un cas difficile pour les fuzzers traditionnels malgré une large couverture.
  • Garde-fous et détection de mésusage : Anthropic introduit des probes mesurant les activations du modèle pour détecter des usages cyber malveillants et faire évoluer l’application des politiques. Des interventions en temps réel (jusqu’au blocage de trafic jugé malveillant) peuvent être mises en place, au risque de créer de la friction pour des travaux légitimes. L’objectif est de prévenir le mésusage tout en maintenant l’efficacité défensive. 🛡️

  • Conclusion : Anthropic estime que les LLM identifient déjà des vulnérabilités inédites et que le volume/vitesse pourrait dépasser les chercheurs humains; les fenêtres de divulgation de 90 jours pourraient s’avérer inadaptées. Le billet s’inscrit dans un travail en cours visant à partager l’évolution des capacités et les manières de les utiliser au mieux.

Type d’article et but principal : publication de recherche décrivant les capacités de découverte de vulnérabilités de Claude Opus 4.6, des cas concrets et les garde-fous associés.

🧠 TTPs et IOCs détectés

TTP

T1595.002 (Active Scanning: Vulnerability Scanning), T1203 (Exploitation for Client Execution), T1190 (Exploit Public-Facing Application), T1068 (Exploitation for Privilege Escalation), T1499 (Endpoint Denial of Service), T1587.001 (Develop Capabilities: Malware), T1587.002 (Develop Capabilities: Code Signing Certificates), T1587.003 (Develop Capabilities: Digital Certificates), T1587.004 (Develop Capabilities: Exploits)

IOC

Aucun IOC spécifique (hash, domaine, IP) n’est mentionné dans l’article.


🔗 Source originale : https://red.anthropic.com/2026/zero-days/