Source: CrowdStrike (blog). CrowdStrike présente EMBER2024, une mise à jour majeure du jeu de données EMBER pour l’entraînement et l’évaluation de modèles de détection de malwares, avec plus de 3,2 millions de fichiers couvrant six formats (Win32, Win64, .NET, APK, PDF, ELF) et des étiquettes adaptées à sept tâches de classification (dont détection de malware, classification par famille, identification de comportements), incluant l’évaluation face à des échantillons évasifs.
Points clés 🧠
- Objectif: lever les freins d’accès à des jeux de données en cybersécurité et permettre le développement de modèles ML avancés pour la détection de malwares.
- Couverture multi-format: Windows PE (Win32, Win64, .NET), Android APK, Linux ELF, PDF pour une analyse statique à large spectre.
Contributions techniques 🔧
- Modernisation de l’infrastructure: remplacement de la dépendance LIEF par pefile pour l’extraction de caractéristiques, assurant la compatibilité avec les versions Python actuelles.
- Nouvelles caractéristiques: prise en compte de richheader, des signatures Authenticode, et des warnings de parsing pefile.
Ressources fournies 📦
- 14 modèles de référence (benchmarks).
- Code source pour le calcul des features et l’entraînement des modèles.
- Jeu de données au niveau fonction: 16,3 millions de fonctions malveillantes identifiées via l’outil capa de FLARE.
Portée et usages 🔎
- Support de l’analyse statique multi-format et de diverses tâches de classification, avec un accent sur l’évaluation contre des malwares évasifs.
IOCs et TTPs
- Aucun IOC ni TTP spécifique n’est fourni dans cet extrait.
Type d’article: publication de recherche visant à proposer un benchmark et des ressources techniques pour améliorer l’entraînement et l’évaluation de modèles ML en détection de malwares.
🔗 Source originale : https://www.crowdstrike.com/en-us/blog/ember-2024-advancing-cybersecurity-ml-training-on-evasive-malware/