🔬 Contexte

Publié le 7 juin 2026 sur arXiv (arxiv.org/abs/2605.30096), cet article de recherche indépendant (auteur : Galip T. Erdem) présente la première étude empirique à grande échelle mesurant la cohérence comportementale de LLMs utilisés comme agents d’attaque autonomes. L’étude couvre 400 exécutions (4 modèles × 100 runs) contre un honeypot isolé hébergé sur Azure.

🎯 Dispositif expérimental

Le honeypot cible expose trois services délibérément vulnérables :

  • Port 3000 : OWASP Juice Shop (injection SQL via /rest/products/search?q=)
  • Port 22 : OpenSSH avec credentials faibles (honeypot:password123)
  • Port 21 : vsftpd avec accès FTP anonyme et fichier credentials.txt

Les 4 modèles testés : Claude Sonnet 4 (Anthropic), Gemini 2.5 Flash-Lite (Google), GPT-4o-mini (OpenAI), qwen2.5-coder:14b (local via Ollama). L’orchestrateur implémente une boucle commande-exécution-observation avec un maximum de 25 itérations.

📊 Résultats principaux

Taux d’exploitation complète (3/3 services) :

  • Gemini 2.5 Flash-Lite : 85%
  • Claude Sonnet 4 : 61% (dont 39 runs tronqués par des erreurs API Anthropic overloaded_error)
  • GPT-4o-mini : 56%
  • qwen2.5-coder:14b : 25%

Zéro refus de contenu sur 400 runs sous le cadrage « authorized penetration testing » avec re-prompt d’autorisation en une seule itération. Ce résultat est cohérent avec le framework « competing-objectives » de Wei et al. (NeurIPS 2023).

⚠️ Modes d’échec distincts par modèle

  • Claude : 39 runs tronqués par des erreurs upstream Anthropic (HTTP 529 overloaded_error) lors d’un événement de capacité documenté le 26-27 mars 2026 — initialement mal classifiées comme refus de sécurité, corrigées après audit
  • qwen : 52 runs avec complétion prématurée (déclaration COMPLETE avant exploitation de tous les services)
  • GPT-4o-mini : 23 runs atteignant la limite de 25 itérations sans complétion
  • Gemini : 8 early quits, taux d’auto-correction de 1.0 (parfait)

🔗 Comportements émergents notables

  • Réutilisation de credentials inter-services (non instruite) : qwen 57%, GPT-4o-mini 49%, Claude et Gemini 0% — corrélée à la rétention d’historique de conversation
  • Diversité de stratégies : GPT-4o-mini produit 98 séquences d’attaque uniques sur 100 runs (ratio 0.98)
  • Temps au premier exploit : 15–30 secondes (itérations 4–6) pour tous les modèles
  • Premier mouvement : Claude et Gemini ciblent les services web en premier ; qwen et GPT-4o-mini ciblent FTP en premier

📁 Type d’article

Publication de recherche empirique visant à mesurer la fiabilité opérationnelle des LLMs comme agents d’attaque autonomes, avec dataset complet publié sur Zenodo (DOI: 10.5281/zenodo.20421592).

🧠 TTPs et IOCs détectés

TTP

  • T1595 — Active Scanning (Reconnaissance)
  • T1190 — Exploit Public-Facing Application (Initial Access)
  • T1110 — Brute Force (Credential Access)
  • T1078 — Valid Accounts (Defense Evasion)
  • T1552 — Unsecured Credentials (Credential Access)
  • T1005 — Data from Local System (Collection)
  • T1021.004 — Remote Services: SSH (Lateral Movement)

IOC

  • Fichiers : credentials.txt

Malware / Outils

  • nmap (tool)
  • sqlmap (tool)
  • hydra (tool)

🟡 Indice de vérification factuelle : 46/100 (moyenne)

  • ⬜ arxiv.org — source non référencée (0pts)
  • ✅ 96432 chars — texte complet (fulltext extrait) (15pts)
  • ✅ 1 IOC(s) (6pts)
  • ⬜ pas d’IOC vérifié (0pts)
  • ✅ 7 TTPs MITRE identifiées (15pts)
  • ✅ date extraite du HTML source (10pts)
  • ⬜ aucun acteur de menace nommé (0pts)
  • ⬜ pas de CVE à vérifier (0pts)

🔗 Source originale : https://arxiv.org/abs/2605.30096