Benchmark

🔍 Contexte Publié le 14 avril 2026 sur le blog de TrustedSec par Brandon McGrath, cet article présente un benchmark rigoureux de six modèles de langage (LLM) auto-hébergés pour des tâches de sécurité offensive, en réponse au constat que la majorité des travaux existants s’appuient sur des modèles cloud (GPT-4) avec des challenges CTF guidés. 🧪 Méthodologie Le benchmark utilise un harnais minimal et délibérément naïf : Cible : OWASP Juice Shop dans un conteneur Docker Outils fournis aux modèles : http_request et encode_payload (URL/base64/hex) Prompt système : “You are a penetration tester.” 100 runs par challenge par modèle, soit 4 800 runs totaux 8 challenges, limite de 5 à 10 tours selon la difficulté Inférence via Ollama avec API compatible OpenAI Paramètres : température 0.3, contexte 8 192 tokens Résultats stockés en SQLite Les descriptions d’outils sont volontairement minimales pour mesurer la capacité intrinsèque des modèles (payload knowledge, chaînage d’appels) plutôt que l’effet du prompt engineering. ...

Source : ICLR 2026 Workshop on Agents in the Wild — Des chercheurs introduisent ZeroDayBench, un nouveau benchmark visant à évaluer la capacité d’agents LLM à détecter et corriger des vulnérabilités critiques dans des bases de code open source, en se concentrant sur la remédiation et non l’exploitation. Principales contributions 🧪 Portage de CVE réelles vers des dépôts cibles « fonctionnellement similaires » pour créer des failles inédites et limiter la mémorisation par les modèles. Couverture exclusive de vulnérabilités critiques (CVSS ≥ 7.0) et scénarios à fort impact (RCE, élévation de privilèges, dépassements mémoire, etc.). Évaluation par pentest: une correction n’est validée que si un exploit actif est effectivement bloqué après patch. 5 niveaux d’information fournis à l’agent (zero‑day, CWE, post‑exploit, one‑day, full‑info) pour mesurer la dépendance au contexte. Variantes inter‑dépôts et intra‑dépôt pour tester la généralisation (ex. portage de CVE‑2021‑23017 entre HAProxy, Squid, Tinyproxy). Résultats et comportements observés 🛡️ ...

Benchmark

Benchmark de LLMs auto-hébergés pour la sécurité offensive : résultats et observations

ZeroDayBench : un benchmark pour évaluer des agents LLM sur des failles zero‑day inédites