📅 Source et contexte : Article publié le 6 mai 2026 sur le blog HackerOne par Michiel Prins, Saida Wijpkema et Miray Mazlumoglu. Il fait suite à un précédent benchmark sur Claude Opus 4.7 et intervient après la sortie de GPT-5.5 par OpenAI.
🔬 Méthodologie : Les trois modèles (GPT-5.5, Claude Opus 4.7, Claude Sonnet 4.6) ont été évalués sur le même harness de validation interne de HackerOne, comprenant :
- Des CVEs publics sur des projets C/C++ (38 cas de test)
- Des rapports de vulnérabilités réels sur une application web (XSS, SQLi, SSRF, RCE, IDOR)
- Des rapports de qualité variable, incluant des soumissions fabriquées ou à impact surestimé
GPT-5.5 a été évalué via le programme OpenAI Trusted Access for Cyber.
📊 Résultats sur CVEs :
- Les trois modèles sont très proches : un seul verdict sur 38 cas sépare le meilleur du moins bon (écart de 2,5%)
- GPT-5.5 : plus conservateur, moins de faux positifs, 3x plus rapide que Sonnet et 50% plus rapide qu’Opus
- Sonnet 4.6 : détecte davantage de vulnérabilités complexes (buffer overflow, memory corruption), mais génère plus de faux positifs sur du code patché
- Opus 4.7 : raisonnement équilibré, cohérence forte sur les analyses multi-étapes
- 75% des erreurs sont partagées par au moins deux modèles ; le vote majoritaire n’améliore pas les résultats
🌐 Résultats sur rapports applicatifs réels :
- Opus 4.7 démontre le meilleur jugement sur les rapports trompeurs, avec des verdicts décisifs et moins d’appels d’outils (16 en moyenne vs 85 pour GPT-5.5 en mode raisonnement élevé)
- GPT-5.5 présente une non-déterminisme : sur un SSRF confirmé, il a retourné « Fabricated » puis « Valid » avec des entrées identiques
- Sonnet 4.6 identifie correctement les requêtes paramétrées mais s’arrête là, sans investiguer la fabrication des preuves
- Avec un budget de raisonnement élevé, GPT-5.5 atteint la précision d’Opus mais avec une latence 5x supérieure
🛠️ Impact du tooling :
- Avec un agent générique, tous les modèles atteignent 80%+ de précision
- Avec un scaffolding optimisé (prompt diff-aware, navigation de code ciblée, workflow structuré), la précision monte à 98% indépendamment du modèle utilisé
- Le gap entre agent générique et agent optimisé dépasse le gap entre modèles
📌 Type d’article : Publication de recherche comparative à visée opérationnelle, destinée aux équipes de sécurité utilisant des LLMs pour la validation de vulnérabilités à grande échelle.
🔴 Indice de vérification factuelle : 25/100 (basse)
- ⬜ hackerone.com — source non référencée (0pts)
- ✅ 14958 chars — texte complet (fulltext extrait) (15pts)
- ⬜ aucun IOC extrait (0pts)
- ⬜ pas d’IOC à vérifier (0pts)
- ⬜ aucune TTP identifiée (0pts)
- ✅ date extraite du HTML source (10pts)
- ⬜ aucun acteur de menace nommé (0pts)
- ⬜ pas de CVE à vérifier (0pts)
🔗 Source originale : https://www.hackerone.com/blog/vulnerability-exploitability-benchmark-gpt-5-5-vs-claude