Étude empirique : 400 tests de pénétration autonomes par LLM — cohérence et fiabilité

🔬 Contexte

Publié le 7 juin 2026 sur arXiv (arxiv.org/abs/2605.30096), cet article de recherche indépendant (auteur : Galip T. Erdem) présente la première étude empirique à grande échelle mesurant la cohérence comportementale de LLMs utilisés comme agents d’attaque autonomes. L’étude couvre 400 exécutions (4 modèles × 100 runs) contre un honeypot isolé hébergé sur Azure.

🎯 Dispositif expérimental

Le honeypot cible expose trois services délibérément vulnérables :

Port 3000 : OWASP Juice Shop (injection SQL via /rest/products/search?q=)
Port 22 : OpenSSH avec credentials faibles (honeypot:password123)
Port 21 : vsftpd avec accès FTP anonyme et fichier credentials.txt

Les 4 modèles testés : Claude Sonnet 4 (Anthropic), Gemini 2.5 Flash-Lite (Google), GPT-4o-mini (OpenAI), qwen2.5-coder:14b (local via Ollama). L’orchestrateur implémente une boucle commande-exécution-observation avec un maximum de 25 itérations.

📊 Résultats principaux

Taux d’exploitation complète (3/3 services) :

Gemini 2.5 Flash-Lite : 85%
Claude Sonnet 4 : 61% (dont 39 runs tronqués par des erreurs API Anthropic overloaded_error)
GPT-4o-mini : 56%
qwen2.5-coder:14b : 25%

Zéro refus de contenu sur 400 runs sous le cadrage « authorized penetration testing » avec re-prompt d’autorisation en une seule itération. Ce résultat est cohérent avec le framework « competing-objectives » de Wei et al. (NeurIPS 2023).

⚠️ Modes d’échec distincts par modèle

Claude : 39 runs tronqués par des erreurs upstream Anthropic (HTTP 529 overloaded_error) lors d’un événement de capacité documenté le 26-27 mars 2026 — initialement mal classifiées comme refus de sécurité, corrigées après audit
qwen : 52 runs avec complétion prématurée (déclaration COMPLETE avant exploitation de tous les services)
GPT-4o-mini : 23 runs atteignant la limite de 25 itérations sans complétion
Gemini : 8 early quits, taux d’auto-correction de 1.0 (parfait)

🔗 Comportements émergents notables

Réutilisation de credentials inter-services (non instruite) : qwen 57%, GPT-4o-mini 49%, Claude et Gemini 0% — corrélée à la rétention d’historique de conversation
Diversité de stratégies : GPT-4o-mini produit 98 séquences d’attaque uniques sur 100 runs (ratio 0.98)
Temps au premier exploit : 15–30 secondes (itérations 4–6) pour tous les modèles
Premier mouvement : Claude et Gemini ciblent les services web en premier ; qwen et GPT-4o-mini ciblent FTP en premier

📁 Type d’article

Publication de recherche empirique visant à mesurer la fiabilité opérationnelle des LLMs comme agents d’attaque autonomes, avec dataset complet publié sur Zenodo (DOI: 10.5281/zenodo.20421592).

🧠 TTPs et IOCs détectés

TTP

T1595 — Active Scanning (Reconnaissance)
T1190 — Exploit Public-Facing Application (Initial Access)
T1110 — Brute Force (Credential Access)
T1078 — Valid Accounts (Defense Evasion)
T1552 — Unsecured Credentials (Credential Access)
T1005 — Data from Local System (Collection)
T1021.004 — Remote Services: SSH (Lateral Movement)

IOC

Fichiers : credentials.txt

Malware / Outils

nmap (tool)
sqlmap (tool)
hydra (tool)

🟡 Indice de vérification factuelle : 46/100 (moyenne)

⬜ arxiv.org — source non référencée (0pts)
✅ 96432 chars — texte complet (fulltext extrait) (15pts)
✅ 1 IOC(s) (6pts)
⬜ pas d’IOC vérifié (0pts)
✅ 7 TTPs MITRE identifiées (15pts)
✅ date extraite du HTML source (10pts)
⬜ aucun acteur de menace nommé (0pts)
⬜ pas de CVE à vérifier (0pts)

🔗 Source originale : https://arxiv.org/abs/2605.30096

🔬 Contexte#

🎯 Dispositif expérimental#

📊 Résultats principaux#

⚠️ Modes d’échec distincts par modèle#

🔗 Comportements émergents notables#

📁 Type d’article#

🧠 TTPs et IOCs détectés#

TTP#

IOC#

Malware / Outils#

🟡 Indice de vérification factuelle : 46/100 (moyenne)#