🔬 Contexte

Publié le 3 avril 2026 sur arXiv (preprint), cet article de recherche académique est produit par des chercheurs du GECAD/ISEP (Polytechnic of Porto, Portugal). Il évalue la transférabilité de modèles de Machine Learning (ML) pour la détection statique de fichiers Portable Executable (PE) Windows malveillants, en s’appuyant sur le standard de features EMBER-v2 (2 381 dimensions).

🎯 Problématique

Les auteurs identifient deux défis majeurs dans la détection ML de malwares :

  • Incompatibilité des features entre datasets publics, limitant la reproductibilité et la généralisation
  • Concept drift : l’évolution des malwares dépasse la capacité d’adaptation des détecteurs statiques
  • Les techniques d’obfuscation (packing, polymorphisme, obfuscation source/binaire) dégradent les performances hors du domaine d’entraînement

🗂️ Datasets utilisés

Dataset Taille Caractéristiques
EMBER-2018 1,1M échantillons Référence open, PE jusqu’à 2018
SOREL-20M ~20M échantillons 2017-2020, splits temporels
BODMAS ~134K échantillons 2019-2020, 581 familles
ERMDS ~106K échantillons Obfuscations binaire/source/packer
TRITIUM ~37K échantillons Menaces naturelles 2022
INFERNO ~2 864 échantillons Red team / C2 personnalisé

⚙️ Méthodologie

Deux configurations d’entraînement sont testées :

  • EB : EMBER + BODMAS
  • EBR : EMBER + BODMAS + ERMDS

La pipeline inclut : Robust Scaling → MinMax Scaling → réduction dimensionnelle (PCA ou XGBFS à 128/256/384 dims) → entraînement de paires de modèles (LightGBM, XGBoost, Extra Trees, Random Forest) avec hyperparamètres optimisés via FLAML et combinaison par soft voting pondéré.

📊 Résultats clés

  • XGBFS surpasse systématiquement PCA à dimensionnalité équivalente
  • Meilleur modèle EB (LightGBM, 384 dims, XGBFS) : F1=98,27%, AUC=99,84%, TPR@1%FPR=97,50%, TPR@0,1%FPR=91,25%
  • Sur TRITIUM et INFERNO : bonne généralisation (F1 > 94%, AUC > 98%)
  • Sur SOREL-20M : dégradation sévère (F1 jusqu’à 56,73%, AUC 65,42%) — sensibilité aux shifts temporels et domaine
  • Sur ERMDS (externe) : effondrement des performances (AUC 55,03%) — impact de l’obfuscation sur les distributions de features
  • L’ajout d’ERMDS en entraînement (EBR) améliore la robustesse à l’obfuscation mais réduit la généralisation vers SOREL-20M

📌 Type d’article

Publication de recherche académique (preprint arXiv). Objectif principal : évaluer et comparer des approches de prétraitement et de réduction dimensionnelle pour améliorer la transférabilité des détecteurs ML de malwares PE statiques entre datasets hétérogènes.

🧠 TTPs et IOCs détectés

TTP

  • T1027 — Obfuscated Files or Information (Defense Evasion)
  • T1027.002 — Obfuscated Files or Information: Software Packing (Defense Evasion)

🔗 Source originale : https://arxiv.org/html/2603.26632v1