Benchmark CTI : Fable 5 d'Anthropic jugé contre-productif pour les défenseurs cyber

🔍 Contexte

Publié le 17 juin 2026 par Graphistry sur leur blog officiel, cet article constitue un retour d’expérience pratique sur le modèle Fable 5 d’Anthropic (une configuration du modèle Mythos 5 avec politiques de sécurité IA intégrées), désormais interdit par le gouvernement américain. L’évaluation porte sur deux axes : le codage et les investigations cybersécurité.

✅ Points positifs : codage

Fable 5 est décrit comme remarquablement autonome pour les tâches de développement complexes
Il a accompli en 2 jours un projet de modernisation de bibliothèques CPU/GPU (lié à Apache Arrow) qui nécessitait auparavant une intervention manuelle fréquente
Comparé à Opus 4.8 et Codex 5.5, Fable se pilote davantage seul
Il a détecté et corrigé des bugs dans des plugins HTTP binaires personnalisés pour Arrow et Fastify

❌ Points négatifs : cybersécurité défensive

Graphistry a utilisé deux benchmarks publics pour évaluer Fable sur des tâches SOC :

botsbench.com : tracker public des tâches Splunk Boss of the SOC (BOTS), 59 tâches d’investigation sur logs réels
CyBT-CTF (Cyber Blue Team CTF) : nouveau benchmark anti-triche développé par Graphistry

Résultats clés :

Aucune différence statistiquement significative entre Fable 5 et Opus pour les investigations, même dans les meilleures conditions
Claude Code score 40-50% sur CyBT-CTF ; le harness Louie.ai apporte +10-15 points supplémentaires
36% des tâches CyBT-CTF ont subi des refus de la part de Fable
86% des tâches BOTSv3 ont été refusées — y compris des questions défensives routinières comme “trouver quel service a déclenché l’alerte de connexion X”
Les échecs se manifestent sous forme de réponses vides, downgrades de modèle, ou erreurs opaques

📊 Analyse économique attaque/défense

Graphistry conclut que la valeur marginale de Fable pour les attaquants est faible (les modèles open source permettent déjà de trouver des failles, générer des exploits et orchestrer des attaques), mais que le coût pour les défenseurs est réel : coût plus élevé, fiabilité dégradée, refus opaques sur des tâches légitimes.

📌 Nature de l’article

Article de type retour d’expérience / benchmark pratique, publié par un éditeur de plateforme d’analyse de graphes (Graphistry), visant à documenter les limites opérationnelles d’un LLM frontier pour les équipes SOC et CTI.

🔴 Indice de vérification factuelle : 25/100 (basse)

⬜ graphistry.com — source non référencée (0pts)
✅ 6912 chars — texte complet (fulltext extrait) (15pts)
⬜ aucun IOC extrait (0pts)
⬜ pas d’IOC à vérifier (0pts)
⬜ aucune TTP identifiée (0pts)
✅ date extraite du HTML source (10pts)
⬜ aucun acteur de menace nommé (0pts)
⬜ pas de CVE à vérifier (0pts)

🔗 Source originale : https://www.graphistry.com/blog/fables-and-mythos-conceptions-the-defenders-perspective-with-receipts

🔍 Contexte#

✅ Points positifs : codage#

❌ Points négatifs : cybersécurité défensive#

📊 Analyse économique attaque/défense#

📌 Nature de l’article#

🔴 Indice de vérification factuelle : 25/100 (basse)#