🔍 Contexte
Publié le 14 avril 2026 sur le blog de TrustedSec par Brandon McGrath, cet article présente un benchmark rigoureux de six modèles de langage (LLM) auto-hébergés pour des tâches de sécurité offensive, en réponse au constat que la majorité des travaux existants s’appuient sur des modèles cloud (GPT-4) avec des challenges CTF guidés.
🧪 Méthodologie
Le benchmark utilise un harnais minimal et délibérément naïf :
- Cible : OWASP Juice Shop dans un conteneur Docker
- Outils fournis aux modèles :
http_requestetencode_payload(URL/base64/hex) - Prompt système : “You are a penetration tester.”
- 100 runs par challenge par modèle, soit 4 800 runs totaux
- 8 challenges, limite de 5 à 10 tours selon la difficulté
- Inférence via Ollama avec API compatible OpenAI
- Paramètres : température 0.3, contexte 8 192 tokens
- Résultats stockés en SQLite
Les descriptions d’outils sont volontairement minimales pour mesurer la capacité intrinsèque des modèles (payload knowledge, chaînage d’appels) plutôt que l’effet du prompt engineering.
🤖 Modèles évalués
| Modèle | Taille | Famille |
|---|---|---|
| gemma4:31b | 31B | |
| qwen3.5:27b | 27B | Qwen |
| qwen3:32b | 32B | Qwen |
| qwen3-coder:latest | 30B | Qwen |
| devstral-small-2:24b | 24B | Mistral |
| nemotron-3-super | ~87B MoE | NVIDIA |
Modèles exclus : mistral-small:24b, llama3.3:70b, granite4:3b, phi4:14b, gpt-oss:20b (ces derniers échouant à produire des appels d’outils fiables).
⚠️ Observations notables
- Tous les modèles testés connaissent déjà OWASP Juice Shop et ses vulnérabilités (SQLi, XSS, SSRF, LFI, broken access control, etc.), ce qui constitue un biais à considérer dans l’interprétation des résultats.
- Les taux de réussite rapportés sont des bornes inférieures : de meilleures descriptions d’outils amélioreraient probablement les scores.
- Les conditions de succès sont binaires et basées sur le contenu de la réponse HTTP (ex : présence de “eyJ” pour un JWT, contenu spécifique pour LFI).
📋 Type d’article
Publication de recherche à visée comparative, destinée à évaluer objectivement les capacités offensives autonomes des LLMs locaux dans un contexte de pentest structuré.
🧠 TTPs et IOCs détectés
TTP
- T1190 — Exploit Public-Facing Application (Initial Access)
- T1059 — Command and Scripting Interpreter (Execution)
- T1110 — Brute Force (Credential Access)
- T1552 — Unsecured Credentials (Credential Access)
- T1083 — File and Directory Discovery (Discovery)
Malware / Outils
- Ollama (tool)
- OWASP Juice Shop (tool)
🔴 Indice de vérification factuelle : 30/100 (basse)
- ⬜ trustedsec.com — source non référencée (0pts)
- ✅ 15000 chars — texte complet (fulltext extrait) (15pts)
- ⬜ aucun IOC extrait (0pts)
- ⬜ pas d’IOC à vérifier (0pts)
- ✅ 5 TTPs MITRE identifiées (15pts)
- ⬜ date RSS ou approximée (0pts)
- ⬜ aucun acteur de menace nommé (0pts)
- ⬜ pas de CVE à vérifier (0pts)
🔗 Source originale : https://trustedsec.com/blog/benchmarking-self-hosted-llms-for-offensive-security