📅 Source et contexte : Article publié le 6 mai 2026 sur le blog HackerOne par Michiel Prins, Saida Wijpkema et Miray Mazlumoglu. Il fait suite à un précédent benchmark sur Claude Opus 4.7 et intervient après la sortie de GPT-5.5 par OpenAI.

🔬 Méthodologie : Les trois modèles (GPT-5.5, Claude Opus 4.7, Claude Sonnet 4.6) ont été évalués sur le même harness de validation interne de HackerOne, comprenant :

  • Des CVEs publics sur des projets C/C++ (38 cas de test)
  • Des rapports de vulnérabilités réels sur une application web (XSS, SQLi, SSRF, RCE, IDOR)
  • Des rapports de qualité variable, incluant des soumissions fabriquées ou à impact surestimé

GPT-5.5 a été évalué via le programme OpenAI Trusted Access for Cyber.

📊 Résultats sur CVEs :

  • Les trois modèles sont très proches : un seul verdict sur 38 cas sépare le meilleur du moins bon (écart de 2,5%)
  • GPT-5.5 : plus conservateur, moins de faux positifs, 3x plus rapide que Sonnet et 50% plus rapide qu’Opus
  • Sonnet 4.6 : détecte davantage de vulnérabilités complexes (buffer overflow, memory corruption), mais génère plus de faux positifs sur du code patché
  • Opus 4.7 : raisonnement équilibré, cohérence forte sur les analyses multi-étapes
  • 75% des erreurs sont partagées par au moins deux modèles ; le vote majoritaire n’améliore pas les résultats

🌐 Résultats sur rapports applicatifs réels :

  • Opus 4.7 démontre le meilleur jugement sur les rapports trompeurs, avec des verdicts décisifs et moins d’appels d’outils (16 en moyenne vs 85 pour GPT-5.5 en mode raisonnement élevé)
  • GPT-5.5 présente une non-déterminisme : sur un SSRF confirmé, il a retourné « Fabricated » puis « Valid » avec des entrées identiques
  • Sonnet 4.6 identifie correctement les requêtes paramétrées mais s’arrête là, sans investiguer la fabrication des preuves
  • Avec un budget de raisonnement élevé, GPT-5.5 atteint la précision d’Opus mais avec une latence 5x supérieure

🛠️ Impact du tooling :

  • Avec un agent générique, tous les modèles atteignent 80%+ de précision
  • Avec un scaffolding optimisé (prompt diff-aware, navigation de code ciblée, workflow structuré), la précision monte à 98% indépendamment du modèle utilisé
  • Le gap entre agent générique et agent optimisé dépasse le gap entre modèles

📌 Type d’article : Publication de recherche comparative à visée opérationnelle, destinée aux équipes de sécurité utilisant des LLMs pour la validation de vulnérabilités à grande échelle.


🔴 Indice de vérification factuelle : 25/100 (basse)

  • ⬜ hackerone.com — source non référencée (0pts)
  • ✅ 14958 chars — texte complet (fulltext extrait) (15pts)
  • ⬜ aucun IOC extrait (0pts)
  • ⬜ pas d’IOC à vérifier (0pts)
  • ⬜ aucune TTP identifiée (0pts)
  • ✅ date extraite du HTML source (10pts)
  • ⬜ aucun acteur de menace nommé (0pts)
  • ⬜ pas de CVE à vérifier (0pts)

🔗 Source originale : https://www.hackerone.com/blog/vulnerability-exploitability-benchmark-gpt-5-5-vs-claude