HackerOne : Benchmark GPT-5.5 vs Claude Opus 4.7 vs Sonnet 4.6 pour la validation de vulnérabilités

📅 Source et contexte : Article publié le 6 mai 2026 sur le blog HackerOne par Michiel Prins, Saida Wijpkema et Miray Mazlumoglu. Il fait suite à un précédent benchmark sur Claude Opus 4.7 et intervient après la sortie de GPT-5.5 par OpenAI.

🔬 Méthodologie : Les trois modèles (GPT-5.5, Claude Opus 4.7, Claude Sonnet 4.6) ont été évalués sur le même harness de validation interne de HackerOne, comprenant :

Des CVEs publics sur des projets C/C++ (38 cas de test)
Des rapports de vulnérabilités réels sur une application web (XSS, SQLi, SSRF, RCE, IDOR)
Des rapports de qualité variable, incluant des soumissions fabriquées ou à impact surestimé

GPT-5.5 a été évalué via le programme OpenAI Trusted Access for Cyber.

📊 Résultats sur CVEs :

Les trois modèles sont très proches : un seul verdict sur 38 cas sépare le meilleur du moins bon (écart de 2,5%)
GPT-5.5 : plus conservateur, moins de faux positifs, 3x plus rapide que Sonnet et 50% plus rapide qu’Opus
Sonnet 4.6 : détecte davantage de vulnérabilités complexes (buffer overflow, memory corruption), mais génère plus de faux positifs sur du code patché
Opus 4.7 : raisonnement équilibré, cohérence forte sur les analyses multi-étapes
75% des erreurs sont partagées par au moins deux modèles ; le vote majoritaire n’améliore pas les résultats

🌐 Résultats sur rapports applicatifs réels :

Opus 4.7 démontre le meilleur jugement sur les rapports trompeurs, avec des verdicts décisifs et moins d’appels d’outils (16 en moyenne vs 85 pour GPT-5.5 en mode raisonnement élevé)
GPT-5.5 présente une non-déterminisme : sur un SSRF confirmé, il a retourné « Fabricated » puis « Valid » avec des entrées identiques
Sonnet 4.6 identifie correctement les requêtes paramétrées mais s’arrête là, sans investiguer la fabrication des preuves
Avec un budget de raisonnement élevé, GPT-5.5 atteint la précision d’Opus mais avec une latence 5x supérieure

🛠️ Impact du tooling :

Avec un agent générique, tous les modèles atteignent 80%+ de précision
Avec un scaffolding optimisé (prompt diff-aware, navigation de code ciblée, workflow structuré), la précision monte à 98% indépendamment du modèle utilisé
Le gap entre agent générique et agent optimisé dépasse le gap entre modèles

📌 Type d’article : Publication de recherche comparative à visée opérationnelle, destinée aux équipes de sécurité utilisant des LLMs pour la validation de vulnérabilités à grande échelle.

🔴 Indice de vérification factuelle : 25/100 (basse)

⬜ hackerone.com — source non référencée (0pts)
✅ 14958 chars — texte complet (fulltext extrait) (15pts)
⬜ aucun IOC extrait (0pts)
⬜ pas d’IOC à vérifier (0pts)
⬜ aucune TTP identifiée (0pts)
✅ date extraite du HTML source (10pts)
⬜ aucun acteur de menace nommé (0pts)
⬜ pas de CVE à vérifier (0pts)

🔗 Source originale : https://www.hackerone.com/blog/vulnerability-exploitability-benchmark-gpt-5-5-vs-claude

🔴 Indice de vérification factuelle : 25/100 (basse)#

🔴 Indice de vérification factuelle : 25/100 (basse)