Transferabilité des modèles ML pour la détection de malwares PE Windows : étude comparative

🔬 Contexte

Publié le 3 avril 2026 sur arXiv (preprint), cet article de recherche académique est produit par des chercheurs du GECAD/ISEP (Polytechnic of Porto, Portugal). Il évalue la transférabilité de modèles de Machine Learning (ML) pour la détection statique de fichiers Portable Executable (PE) Windows malveillants, en s’appuyant sur le standard de features EMBER-v2 (2 381 dimensions).

🎯 Problématique

Les auteurs identifient deux défis majeurs dans la détection ML de malwares :

Incompatibilité des features entre datasets publics, limitant la reproductibilité et la généralisation
Concept drift : l’évolution des malwares dépasse la capacité d’adaptation des détecteurs statiques
Les techniques d’obfuscation (packing, polymorphisme, obfuscation source/binaire) dégradent les performances hors du domaine d’entraînement

🗂️ Datasets utilisés

Dataset	Taille	Caractéristiques
EMBER-2018	1,1M échantillons	Référence open, PE jusqu’à 2018
SOREL-20M	~20M échantillons	2017-2020, splits temporels
BODMAS	~134K échantillons	2019-2020, 581 familles
ERMDS	~106K échantillons	Obfuscations binaire/source/packer
TRITIUM	~37K échantillons	Menaces naturelles 2022
INFERNO	~2 864 échantillons	Red team / C2 personnalisé

⚙️ Méthodologie

Deux configurations d’entraînement sont testées :

EB : EMBER + BODMAS
EBR : EMBER + BODMAS + ERMDS

La pipeline inclut : Robust Scaling → MinMax Scaling → réduction dimensionnelle (PCA ou XGBFS à 128/256/384 dims) → entraînement de paires de modèles (LightGBM, XGBoost, Extra Trees, Random Forest) avec hyperparamètres optimisés via FLAML et combinaison par soft voting pondéré.

📊 Résultats clés

XGBFS surpasse systématiquement PCA à dimensionnalité équivalente
Meilleur modèle EB (LightGBM, 384 dims, XGBFS) : F1=98,27%, AUC=99,84%, TPR@1%FPR=97,50%, TPR@0,1%FPR=91,25%
Sur TRITIUM et INFERNO : bonne généralisation (F1 > 94%, AUC > 98%)
Sur SOREL-20M : dégradation sévère (F1 jusqu’à 56,73%, AUC 65,42%) — sensibilité aux shifts temporels et domaine
Sur ERMDS (externe) : effondrement des performances (AUC 55,03%) — impact de l’obfuscation sur les distributions de features
L’ajout d’ERMDS en entraînement (EBR) améliore la robustesse à l’obfuscation mais réduit la généralisation vers SOREL-20M

📌 Type d’article

Publication de recherche académique (preprint arXiv). Objectif principal : évaluer et comparer des approches de prétraitement et de réduction dimensionnelle pour améliorer la transférabilité des détecteurs ML de malwares PE statiques entre datasets hétérogènes.

🧠 TTPs et IOCs détectés

TTP

T1027 — Obfuscated Files or Information (Defense Evasion)
T1027.002 — Obfuscated Files or Information: Software Packing (Defense Evasion)

🔗 Source originale : https://arxiv.org/html/2603.26632v1

🔬 Contexte#

🎯 Problématique#

🗂️ Datasets utilisés#

⚙️ Méthodologie#

📊 Résultats clés#

📌 Type d’article#

🧠 TTPs et IOCs détectés#

TTP#