🔍 Contexte
Publié le 30 avril 2026 par l’AI Security Institute (AISI) du Royaume-Uni, ce rapport présente les résultats d’une évaluation des capacités cyber offensives de GPT-5.5 d’OpenAI, réalisée sur un snapshot précoce du modèle. Il fait suite à une évaluation similaire du modèle Claude Mythos Preview d’Anthropic, premier modèle à avoir résolu une simulation d’attaque réseau complète.
📊 Résultats sur les tâches cyber avancées
L’AISI utilise une suite de 95 tâches cyber réparties en 4 niveaux de difficulté, au format Capture The Flag (CTF). Les tâches avancées, développées avec les firmes Crystal Peak Security et Irregular, couvrent :
- Reverse engineering de binaires strippés et firmware embarqué
- Exploitation de stack/heap overflows, use-after-frees, type confusions
- Attaques cryptographiques (padding-oracle, nonce-reuse, weak-RNG)
- Races TOCTOU dans des chemins de code privilégiés
- Désobfuscation de malwares
- Découverte et weaponisation de vulnérabilités synthétiques dans des logiciels open-source réels
Sur les tâches de niveau Expert, GPT-5.5 atteint un taux de réussite moyen de 71,4% (±8,0%), contre 68,6% pour Mythos Preview, 52,4% pour GPT-5.4 et 48,6% pour Opus 4.7.
🎯 Résultats sur les cyber ranges
“The Last Ones” (TLO) — simulation d’attaque réseau d’entreprise en 32 étapes, construite avec SpecterOps :
- Couvre 4 sous-réseaux, ~20 hôtes, plusieurs forêts Active Directory
- Chaîne : reconnaissance → vol de credentials → mouvement latéral → pivot CI/CD supply-chain → exfiltration
- Durée estimée pour un expert humain : ~20 heures
- GPT-5.5 a complété TLO de bout en bout dans 2 tentatives sur 10 (budget 100M tokens)
- Mythos Preview l’avait réussi dans 3/10 tentatives
“Cooling Tower” — simulation d’attaque ICS en 7 étapes, construite avec Hack The Box :
- Cible un environnement de centrale électrique simulée (HMI, protocole propriétaire, PLCs)
- Durée estimée : ~15 heures pour un expert humain
- GPT-5.5 n’a pas résolu ce range ; aucun modèle ne l’a encore fait
- L’échec est survenu sur les sections IT, non sur les étapes OT spécifiques
🔓 Évaluation des garde-fous
L’AISI a également évalué les safeguards de GPT-5.5 et conduit un red-teaming expert :
- Un jailbreak universel a été identifié, permettant d’obtenir du contenu violatif sur toutes les requêtes cyber malveillantes testées, y compris en contexte multi-turn agentique
- Ce jailbreak a nécessité 6 heures de red-teaming expert pour être développé
- OpenAI a effectué plusieurs mises à jour du stack de safeguards, mais un problème de configuration a empêché l’AISI de vérifier l’efficacité de la configuration finale
📌 Type et portée
Cet article est une publication de recherche officielle de l’AISI, visant à documenter l’évolution des capacités cyber offensives des modèles de langage frontier et à alerter sur une tendance d’amélioration rapide potentiellement liée aux progrès généraux en autonomie longue durée, raisonnement et codage.
🧠 TTPs et IOCs détectés
TTP
- T1595 — Active Scanning / Reconnaissance (Reconnaissance)
- T1078 — Valid Accounts (Credential Theft) (Defense Evasion)
- T1021 — Remote Services (Lateral Movement) (Lateral Movement)
- T1195 — Supply Chain Compromise (CI/CD pivot) (Initial Access)
- T1041 — Exfiltration Over C2 Channel (Exfiltration)
- T1059 — Command and Scripting Interpreter (Execution)
- T1190 — Exploit Public-Facing Application (HMI web) (Initial Access)
🟡 Indice de vérification factuelle : 40/100 (moyenne)
- ⬜ aisi.gov.uk — source non référencée (0pts)
- ✅ 9536 chars — texte complet (fulltext extrait) (15pts)
- ⬜ aucun IOC extrait (0pts)
- ⬜ pas d’IOC à vérifier (0pts)
- ✅ 7 TTPs MITRE identifiées (15pts)
- ✅ date extraite du HTML source (10pts)
- ⬜ aucun acteur de menace nommé (0pts)
- ⬜ pas de CVE à vérifier (0pts)
🔗 Source originale : https://www.aisi.gov.uk/blog/our-evaluation-of-openais-gpt-5-5-cyber-capabilities