Étude empirique : 400 tests de pénétration autonomes par LLM — cohérence et fiabilité
🔬 Contexte Publié le 7 juin 2026 sur arXiv (arxiv.org/abs/2605.30096), cet article de recherche indépendant (auteur : Galip T. Erdem) présente la première étude empirique à grande échelle mesurant la cohérence comportementale de LLMs utilisés comme agents d’attaque autonomes. L’étude couvre 400 exécutions (4 modèles × 100 runs) contre un honeypot isolé hébergé sur Azure. 🎯 Dispositif expérimental Le honeypot cible expose trois services délibérément vulnérables : Port 3000 : OWASP Juice Shop (injection SQL via /rest/products/search?q=) Port 22 : OpenSSH avec credentials faibles (honeypot:password123) Port 21 : vsftpd avec accès FTP anonyme et fichier credentials.txt Les 4 modèles testés : Claude Sonnet 4 (Anthropic), Gemini 2.5 Flash-Lite (Google), GPT-4o-mini (OpenAI), qwen2.5-coder:14b (local via Ollama). L’orchestrateur implémente une boucle commande-exécution-observation avec un maximum de 25 itérations. ...