HackerOne : Benchmark GPT-5.5 vs Claude Opus 4.7 vs Sonnet 4.6 pour la validation de vulnérabilités

📅 Source et contexte : Article publié le 6 mai 2026 sur le blog HackerOne par Michiel Prins, Saida Wijpkema et Miray Mazlumoglu. Il fait suite à un précédent benchmark sur Claude Opus 4.7 et intervient après la sortie de GPT-5.5 par OpenAI. 🔬 Méthodologie : Les trois modèles (GPT-5.5, Claude Opus 4.7, Claude Sonnet 4.6) ont été évalués sur le même harness de validation interne de HackerOne, comprenant : Des CVEs publics sur des projets C/C++ (38 cas de test) Des rapports de vulnérabilités réels sur une application web (XSS, SQLi, SSRF, RCE, IDOR) Des rapports de qualité variable, incluant des soumissions fabriquées ou à impact surestimé GPT-5.5 a été évalué via le programme OpenAI Trusted Access for Cyber. ...

6 mai 2026 · 3 min
Dernière mise à jour le: 7 mai 2026 📝