Selon le blog d’Outflank (7 août 2025), des chercheurs montrent qu’un petit LLM spécialisé peut surpasser des modèles généralistes sur des tâches cybersécurité, en présentant Dante-7B capable de générer automatiquement des chargeurs de shellcode Cobalt Strike qui contournent Microsoft Defender for Endpoint.
Le travail met en avant une approche par Reinforcement Learning with Verifiable Rewards (RLVR) pour produire des artefacts malveillants fonctionnels et furtifs sans utiliser de jeux de données de malwares traditionnels. L’objectif est de démontrer les implications pour la recherche offensive et la préparation défensive 🧪🛡️.
Côté méthode, l’entraînement se déroule en deux phases: Supervised Fine-Tuning (SFT) sur 53 000 exemples de programmation, puis RLVR avec Group Relative Policy Optimization (GRPO). Un système de vérification automatise l’évaluation selon plusieurs métriques: succès de compilation, validation de fonctionnalité et capacité d’évasion face à Microsoft Defender for Endpoint.
Les résultats indiquent un taux d’évasion complète >8%, avec des coûts opérationnels sensiblement inférieurs à ceux des grands modèles généralistes. L’entraînement a mobilisé 8× H100 durant 69 heures (13 h SFT, 56 h RLVR).
TTPs observés:
- Génération de chargeurs de shellcode Cobalt Strike
- Évasion EDR ciblant Microsoft Defender for Endpoint
- RLVR/GRPO pour optimiser la génération et la furtivité
- Vérification automatisée (compilation, fonctionnalité, evasion)
Type d’article: publication de recherche visant à démontrer l’efficacité de LLMs spécialisés en tâches offensives et leurs implications pour la défense.
🔗 Source originale : https://www.outflank.nl/blog/2025/08/07/training-specialist-models/