Pentest autonome par LLM multi-agents sur environnements robotiques ROS/ROS2

🔬 Contexte

Article de recherche publié sur arXiv le 29 mars 2026 par des chercheurs de JOANNEUM RESEARCH (Graz, Autriche), TU Graz, Alias Robotics (Espagne) et Jamk University (Finlande), dans le cadre du projet européen ResilMesh (GA No. 101119681).

🤖 Architecture proposée

Les auteurs présentent un workflow multi-agents basé sur LangGraph pour l’automatisation des tests de pénétration sur des environnements ROS (Robot Operating System) / ROS2. L’architecture repose sur trois agents coopératifs :

Planner : génère des listes de tâches structurées
Executor : traduit les tâches en commandes exécutables (Nmap, scripts Bash ROS)
Memory Agent : structure les résultats dans une mémoire graphe persistante (GraphMemory)

Le système construit dynamiquement un graphe de connaissance représentant la topologie réseau découverte, les canaux de communication, les vulnérabilités et les exploits tentés.

🎯 Environnement cible et vulnérabilités

Le banc de test est un réseau Docker émulant un environnement de fabrication industrielle robotisée, comprenant :

Deux conteneurs ROS (ros_noetic ROS1, ros2_foxy ROS2) interconnectés via un ros_bridge
Un automate programmable (PLC) openplc
Un bras robotique Universal Robots (UR)

Les vulnérabilités exploitées sont inhérentes à ROS1 (ros_noetic) : absence d’authentification et de chiffrement, ports ouverts non authentifiés, échange de messages en clair, susceptibilité au node spoofing, énumération de topics sans restriction. ROS2 (ros2_foxy) présente également des risques si les mécanismes de sécurité DDS ne sont pas activés (sniffing, DoS, injection de messages).

📊 Résultats

Évaluation sur un scénario Capture-the-Flag (CTF) en 4 étapes :

CTF-0 : Découverte des 6 nœuds réseau
CTF-1 : Identification du port ROS master (11311) sur 172.19.0.3
CTF-2 : Énumération des topics ROS actifs (chatter, rosout, rosout_agg)
CTF-3 : Lecture d’un message de topic (Hello_from_ROS_1)

Avec le modèle llama-3.3-70b-instruct, le workflow proposé atteint 100% de succès (5/5) sur toutes les étapes, surpassant significativement le benchmark HackSynth qui échoue sur CTF-2 et CTF-3. Les modèles deepseek-v3.2, gemma-3-27b-it et hermes-2-pro-llama-3-8b montrent des performances variables, notamment des échecs liés à des comportements de type Task Derailment (2.3) et Reasoning-Action Mismatch (2.6) selon la taxonomie MAST.

🔍 Comparaison avec l’état de l’art

Le système surpasse HackSynth (paradigme planner-summarizer) et PentestGPT sur les tâches spécifiques ROS. Les lacunes identifiées dans les approches existantes sont : automatisation incomplète, absence de gestion de contexte persistant, et traçabilité limitée.

📋 Type d’article

Publication de recherche académique présentant une nouvelle architecture technique pour l’automatisation du pentest sur OT/robotique, avec évaluation comparative quantitative et analyse des échecs selon la taxonomie MAST.

🧠 TTPs et IOCs détectés

TTP

T1046 — Network Service Discovery (Discovery)
T1595.001 — Active Scanning: Scanning IP Blocks (Reconnaissance)
T1595.002 — Active Scanning: Vulnerability Scanning (Reconnaissance)
T1040 — Network Sniffing (Credential Access)
T1557 — Adversary-in-the-Middle (Collection)
T1499 — Endpoint Denial of Service (Impact)

Malware / Outils

Nmap (tool)
PentestGPT (framework)
HackSynth (framework)
AutoAttacker (framework)

🔗 Source originale : https://arxiv.org/abs/2603.24221

🔬 Contexte#

🤖 Architecture proposée#

🎯 Environnement cible et vulnérabilités#

📊 Résultats#

🔍 Comparaison avec l’état de l’art#

📋 Type d’article#

🧠 TTPs et IOCs détectés#

TTP#

Malware / Outils#