Framework de threat hunting basé sur IA agentique, DRL et LLM intégré à Splunk

🔬 Contexte

Article de recherche académique publié sur arXiv le 25 mars 2026, co-écrit par des chercheurs de l’Université de l’Illinois (Springfield), de l’Université de Lancaster (UK), du KIIT (Inde) et de l’équipe de recherche Splunk/Cisco. Il présente un framework de threat hunting proactif et automatisé.

🎯 Problématique adressée

Les approches de sécurité traditionnelles (EDR, SIEM à base de règles) sont insuffisantes face aux APT (Advanced Persistent Threats) en constante évolution. Les analystes SOC sont submergés par le volume de logs. Kaspersky rapporte une augmentation de 74% des APTs en 2024, et Fortinet signale une hausse de 16,7% par an de l’activité de reconnaissance.

🏗️ Architecture du framework

Le framework intègre plusieurs composantes en pipeline :

SIEM Indexing : collecte et indexation des logs via Splunk Universal Forwarder
Autoencoder-Based Anomaly Detection (AAD) : réseau neuronal reconstruction-based (architecture 8-2-8) entraîné sur le trafic bénin pour scorer les anomalies
Deep Reinforcement Learning (DRL) : agent MLP (2×64 neurones) formalisé comme MDP, utilisant PPO avec 4 profils de récompense (Modes A-D) pour décider containment/allow sur des fenêtres temporelles de 5 minutes
Prioritisation : score = DRL_Action × AAD_Score, pour filtrer les flux avant transmission au LLM
LLM Multi-Agent Triage : framework CrewAI avec ChatGPT, deux agents spécialisés (Senior SOC Triage Analyst et Threat Intelligence Analyst) générant des résumés, des requêtes SPL et des mappings MITRE ATT&CK
Validation Splunk : l’analyste SOC valide les insights LLM via les requêtes SPL générées

📊 Résultats expérimentaux

Évaluation sur le dataset public Boss of the SOC (BOTSv3) (~12 000 instances) et un dataset simulé (~300 000 instances, trafic Suricata IDS) :

Mode B : meilleur F1-score (0,861) et recall (0,873) sur BOTSv3
Mode D : régret moyen le plus faible (1,358), meilleure robustesse aux variations temporelles
Réduction du trafic transmis au LLM de 63% à 65% selon le mode
Détection confirmée de C2 beaconing DNS (T1071) et network scanning (T1046) via validation Splunk

🔐 Cas d’usage simulé

Environnement : Kali Linux (attaquant) → Windows 11 (cible, Suricata IDS + Splunk Universal Forwarder) → Windows Server 2019 (Splunk Enterprise). Attaques simulées : network scanning et UDP flood (DoS volumétrique).

📄 Type d’article

Publication de recherche académique présentant un framework technique original avec évaluation expérimentale, destinée à la communauté CTI/SOC et aux chercheurs en sécurité.

🧠 TTPs et IOCs détectés

TTP

T1071 — Application Layer Protocol (Command and Control)
T1046 — Network Service Discovery (Discovery)
T1552.005 — Unsecured Credentials: Cloud Instance Metadata API (Credential Access)

🔗 Source originale : https://arxiv.org/abs/2603.23966

🔬 Contexte#

🎯 Problématique adressée#

🏗️ Architecture du framework#

📊 Résultats expérimentaux#

🔐 Cas d’usage simulé#

📄 Type d’article#

🧠 TTPs et IOCs détectés#

TTP#