HackerOne : Benchmark GPT-5.5 vs Claude Opus 4.7 vs Sonnet 4.6 pour la validation de vulnérabilités

Wed, 06 May 2026 00:00:00 +0000

📅 Source et contexte : Article publié le 6 mai 2026 sur le blog HackerOne par Michiel Prins, Saida Wijpkema et Miray Mazlumoglu. Il fait suite à un précédent benchmark sur Claude Opus 4.7 et intervient après la sortie de GPT-5.5 par OpenAI.

🔬 Méthodologie : Les trois modèles (GPT-5.5, Claude Opus 4.7, Claude Sonnet 4.6) ont été évalués sur le même harness de validation interne de HackerOne, comprenant :

Des CVEs publics sur des projets C/C++ (38 cas de test)
Des rapports de vulnérabilités réels sur une application web (XSS, SQLi, SSRF, RCE, IDOR)
Des rapports de qualité variable, incluant des soumissions fabriquées ou à impact surestimé

GPT-5.5 a été évalué via le programme OpenAI Trusted Access for Cyber.

Vulnerability Validation on CyberVeille

HackerOne : Benchmark GPT-5.5 vs Claude Opus 4.7 vs Sonnet 4.6 pour la validation de vulnérabilités