🔬 Contexte
Article de recherche publié sur arXiv le 29 mars 2026 par des chercheurs de JOANNEUM RESEARCH (Graz, Autriche), TU Graz, Alias Robotics (Espagne) et Jamk University (Finlande), dans le cadre du projet européen ResilMesh (GA No. 101119681).
🤖 Architecture proposée
Les auteurs présentent un workflow multi-agents basé sur LangGraph pour l’automatisation des tests de pénétration sur des environnements ROS (Robot Operating System) / ROS2. L’architecture repose sur trois agents coopératifs :
- Planner : génère des listes de tâches structurées
- Executor : traduit les tâches en commandes exécutables (Nmap, scripts Bash ROS)
- Memory Agent : structure les résultats dans une mémoire graphe persistante (GraphMemory)
Le système construit dynamiquement un graphe de connaissance représentant la topologie réseau découverte, les canaux de communication, les vulnérabilités et les exploits tentés.
🎯 Environnement cible et vulnérabilités
Le banc de test est un réseau Docker émulant un environnement de fabrication industrielle robotisée, comprenant :
- Deux conteneurs ROS (ros_noetic ROS1, ros2_foxy ROS2) interconnectés via un ros_bridge
- Un automate programmable (PLC) openplc
- Un bras robotique Universal Robots (UR)
Les vulnérabilités exploitées sont inhérentes à ROS1 (ros_noetic) : absence d’authentification et de chiffrement, ports ouverts non authentifiés, échange de messages en clair, susceptibilité au node spoofing, énumération de topics sans restriction. ROS2 (ros2_foxy) présente également des risques si les mécanismes de sécurité DDS ne sont pas activés (sniffing, DoS, injection de messages).
📊 Résultats
Évaluation sur un scénario Capture-the-Flag (CTF) en 4 étapes :
- CTF-0 : Découverte des 6 nœuds réseau
- CTF-1 : Identification du port ROS master (11311) sur 172.19.0.3
- CTF-2 : Énumération des topics ROS actifs (chatter, rosout, rosout_agg)
- CTF-3 : Lecture d’un message de topic (Hello_from_ROS_1)
Avec le modèle llama-3.3-70b-instruct, le workflow proposé atteint 100% de succès (5/5) sur toutes les étapes, surpassant significativement le benchmark HackSynth qui échoue sur CTF-2 et CTF-3. Les modèles deepseek-v3.2, gemma-3-27b-it et hermes-2-pro-llama-3-8b montrent des performances variables, notamment des échecs liés à des comportements de type Task Derailment (2.3) et Reasoning-Action Mismatch (2.6) selon la taxonomie MAST.
🔍 Comparaison avec l’état de l’art
Le système surpasse HackSynth (paradigme planner-summarizer) et PentestGPT sur les tâches spécifiques ROS. Les lacunes identifiées dans les approches existantes sont : automatisation incomplète, absence de gestion de contexte persistant, et traçabilité limitée.
📋 Type d’article
Publication de recherche académique présentant une nouvelle architecture technique pour l’automatisation du pentest sur OT/robotique, avec évaluation comparative quantitative et analyse des échecs selon la taxonomie MAST.
🧠 TTPs et IOCs détectés
TTP
- T1046 — Network Service Discovery (Discovery)
- T1595.001 — Active Scanning: Scanning IP Blocks (Reconnaissance)
- T1595.002 — Active Scanning: Vulnerability Scanning (Reconnaissance)
- T1040 — Network Sniffing (Credential Access)
- T1557 — Adversary-in-the-Middle (Collection)
- T1499 — Endpoint Denial of Service (Impact)
Malware / Outils
- Nmap (tool)
- PentestGPT (framework)
- HackSynth (framework)
- AutoAttacker (framework)
🔗 Source originale : https://arxiv.org/abs/2603.24221