🔍 Contexte

Publié le 30 avril 2026 par l’AI Security Institute (AISI) du Royaume-Uni, ce rapport présente les résultats d’une évaluation des capacités cyber offensives de GPT-5.5 d’OpenAI, réalisée sur un snapshot précoce du modèle. Il fait suite à une évaluation similaire du modèle Claude Mythos Preview d’Anthropic, premier modèle à avoir résolu une simulation d’attaque réseau complète.

📊 Résultats sur les tâches cyber avancées

L’AISI utilise une suite de 95 tâches cyber réparties en 4 niveaux de difficulté, au format Capture The Flag (CTF). Les tâches avancées, développées avec les firmes Crystal Peak Security et Irregular, couvrent :

  • Reverse engineering de binaires strippés et firmware embarqué
  • Exploitation de stack/heap overflows, use-after-frees, type confusions
  • Attaques cryptographiques (padding-oracle, nonce-reuse, weak-RNG)
  • Races TOCTOU dans des chemins de code privilégiés
  • Désobfuscation de malwares
  • Découverte et weaponisation de vulnérabilités synthétiques dans des logiciels open-source réels

Sur les tâches de niveau Expert, GPT-5.5 atteint un taux de réussite moyen de 71,4% (±8,0%), contre 68,6% pour Mythos Preview, 52,4% pour GPT-5.4 et 48,6% pour Opus 4.7.

🎯 Résultats sur les cyber ranges

“The Last Ones” (TLO) — simulation d’attaque réseau d’entreprise en 32 étapes, construite avec SpecterOps :

  • Couvre 4 sous-réseaux, ~20 hôtes, plusieurs forêts Active Directory
  • Chaîne : reconnaissance → vol de credentials → mouvement latéral → pivot CI/CD supply-chain → exfiltration
  • Durée estimée pour un expert humain : ~20 heures
  • GPT-5.5 a complété TLO de bout en bout dans 2 tentatives sur 10 (budget 100M tokens)
  • Mythos Preview l’avait réussi dans 3/10 tentatives

“Cooling Tower” — simulation d’attaque ICS en 7 étapes, construite avec Hack The Box :

  • Cible un environnement de centrale électrique simulée (HMI, protocole propriétaire, PLCs)
  • Durée estimée : ~15 heures pour un expert humain
  • GPT-5.5 n’a pas résolu ce range ; aucun modèle ne l’a encore fait
  • L’échec est survenu sur les sections IT, non sur les étapes OT spécifiques

🔓 Évaluation des garde-fous

L’AISI a également évalué les safeguards de GPT-5.5 et conduit un red-teaming expert :

  • Un jailbreak universel a été identifié, permettant d’obtenir du contenu violatif sur toutes les requêtes cyber malveillantes testées, y compris en contexte multi-turn agentique
  • Ce jailbreak a nécessité 6 heures de red-teaming expert pour être développé
  • OpenAI a effectué plusieurs mises à jour du stack de safeguards, mais un problème de configuration a empêché l’AISI de vérifier l’efficacité de la configuration finale

📌 Type et portée

Cet article est une publication de recherche officielle de l’AISI, visant à documenter l’évolution des capacités cyber offensives des modèles de langage frontier et à alerter sur une tendance d’amélioration rapide potentiellement liée aux progrès généraux en autonomie longue durée, raisonnement et codage.

🧠 TTPs et IOCs détectés

TTP

  • T1595 — Active Scanning / Reconnaissance (Reconnaissance)
  • T1078 — Valid Accounts (Credential Theft) (Defense Evasion)
  • T1021 — Remote Services (Lateral Movement) (Lateral Movement)
  • T1195 — Supply Chain Compromise (CI/CD pivot) (Initial Access)
  • T1041 — Exfiltration Over C2 Channel (Exfiltration)
  • T1059 — Command and Scripting Interpreter (Execution)
  • T1190 — Exploit Public-Facing Application (HMI web) (Initial Access)

🟡 Indice de vérification factuelle : 40/100 (moyenne)

  • ⬜ aisi.gov.uk — source non référencée (0pts)
  • ✅ 9536 chars — texte complet (fulltext extrait) (15pts)
  • ⬜ aucun IOC extrait (0pts)
  • ⬜ pas d’IOC à vérifier (0pts)
  • ✅ 7 TTPs MITRE identifiées (15pts)
  • ✅ date extraite du HTML source (10pts)
  • ⬜ aucun acteur de menace nommé (0pts)
  • ⬜ pas de CVE à vérifier (0pts)

🔗 Source originale : https://www.aisi.gov.uk/blog/our-evaluation-of-openais-gpt-5-5-cyber-capabilities