Étude empirique : 400 tests de pénétration autonomes par LLM — cohérence et fiabilité

🔬 Contexte Publié le 7 juin 2026 sur arXiv (arxiv.org/abs/2605.30096), cet article de recherche indépendant (auteur : Galip T. Erdem) présente la première étude empirique à grande échelle mesurant la cohérence comportementale de LLMs utilisés comme agents d’attaque autonomes. L’étude couvre 400 exécutions (4 modèles × 100 runs) contre un honeypot isolé hébergé sur Azure. 🎯 Dispositif expérimental Le honeypot cible expose trois services délibérément vulnérables : Port 3000 : OWASP Juice Shop (injection SQL via /rest/products/search?q=) Port 22 : OpenSSH avec credentials faibles (honeypot:password123) Port 21 : vsftpd avec accès FTP anonyme et fichier credentials.txt Les 4 modèles testés : Claude Sonnet 4 (Anthropic), Gemini 2.5 Flash-Lite (Google), GPT-4o-mini (OpenAI), qwen2.5-coder:14b (local via Ollama). L’orchestrateur implémente une boucle commande-exécution-observation avec un maximum de 25 itérations. ...

7 juin 2026 · 3 min

Pentest autonome par LLM multi-agents sur environnements robotiques ROS/ROS2

🔬 Contexte Article de recherche publié sur arXiv le 29 mars 2026 par des chercheurs de JOANNEUM RESEARCH (Graz, Autriche), TU Graz, Alias Robotics (Espagne) et Jamk University (Finlande), dans le cadre du projet européen ResilMesh (GA No. 101119681). 🤖 Architecture proposée Les auteurs présentent un workflow multi-agents basé sur LangGraph pour l’automatisation des tests de pénétration sur des environnements ROS (Robot Operating System) / ROS2. L’architecture repose sur trois agents coopératifs : ...

29 mars 2026 · 3 min
Dernière mise à jour le: 4 juillet 2026 📝