Selon une publication de recherche d’Orange Innovation Poland, ce travail examine comment la cyber threat intelligence (CTI) doit évoluer pour couvrir les menaces propres aux systèmes d’IA, en structurant les sources (vulnérabilités, incidents, TTP), en définissant des IoC spécifiques à l’IA et en proposant des méthodes de similarité pour détecter modèles/datasets malveillants.
-
Le papier compare la CTI « classique » et la CTI pour l’IA, en listant des actifs et vulnérabilités propres à l’IA (ex. empoisonnement de données, backdoors dans les modèles, adversarial examples, inversion de modèle, prompt injection). Il cartographie les phases d’attaque adaptées au cycle ML (reconnaissance des artefacts ML, accès initial via API/produit, exécution, persistance via backdoor, élévation de privilèges notamment sur LLMs, évasion, exfiltration et impact).
-
Le panorama des sources de connaissance inclut des référentiels de vulnérabilités et bonnes pratiques (AVID, OWASP AI Security and Privacy Guide, ENISA, SAIF), des bases d’incidents (AI Incident Database avec plus de 1000 rapports/1366 incidents au total selon le MIT AI Incident Tracker) et des cadres adversaires (MITRE ATLAS, rapport Comiter). Le CSET AI Harm Taxonomy et le GMF aident à classifier impacts, secteurs, causes techniques et modes d’échec.
-
La publication recense des datasets de prompt injection et en évalue la qualité (✔️ recommandés : Qualifire Prompt Injections Benchmark, Prompt Injection Attack Dataset, Multilingual Prompt Injections, Prompt Injection Safety Dataset ; ⚠️ « à utiliser avec précaution » et ❌ « non recommandés » pour d’autres jeux moins bien labellisés/couverts). Elle illustre aussi la chaîne d’approvisionnement IA avec des exemples de modèles malveillants hébergés publiquement et les IoC associés.
-
Le document propose des IoC pour l’IA (hash de poids de modèles, empreintes de tokenizer, profils de datasets, dépôts/réseaux) et détaille des méthodes de similarité pour la détection/triage à grande échelle, dont deep hashing, TLSH/LZJD et des approches plus récentes comme la semantic consistency hashing (SCH), ainsi que le fuzzy hashing pour repérer des variantes proches.
-
Il conclut sur les lacunes actuelles (qualité/complétude inégales des sources) et les pistes de recherche (IoC IA plus robustes, signaux de compromission des modèles, intégration outillée de taxonomies AVID/CSET/GMF et TTP MITRE ATLAS).
IoC extraits (exemples concrets) 🧩
- Dépôts Hugging Face liés à modèles malveillants (source: ReversingLabs/NSFOCUS) :
- glockr1/ballr7 — PyTorch SHA1: 1733506c584dd6801accf7f58dc92a4a1285db1f ; Pickle SHA1: 79601f536b1b351c695507bf37236139f42201b0
- who-r-u0000/0000000000000000000000000000000000000 — PyTorch SHA1: 0dcc38fc90eca38810805bb03b9f6bb44945bbc0 ; Pickle SHA1: 85c898c5db096635a21a9e8b5be0a58648205b47
- Adresse IP associée : 107.173.7.141
TTPs mentionnées (MITRE ATLAS et cadre ML) 🎯
- Reconnaissance d’artefacts ML, empoisonnement de données/modèles, adversarial examples, exécution de code via artefacts ML, persistance par backdoor, élévation de privilèges (LLM/jailbreak/plugins), évasion des contrôles ML, accès aux identifiants, exfiltration (modèles/datasets), impact (dégradation, manipulation des sorties).
Il s’agit d’une publication de recherche qui dresse un état de l’art structuré et opérationnalisable de la CTI appliquée à l’IA, avec exemples d’IoC, TTP et techniques de similarité.
🧠 TTPs et IOCs détectés
TTP
Reconnaissance d’artefacts ML, empoisonnement de données/modèles, adversarial examples, exécution de code via artefacts ML, persistance par backdoor, élévation de privilèges (LLM/jailbreak/plugins), évasion des contrôles ML, accès aux identifiants, exfiltration (modèles/datasets), impact (dégradation, manipulation des sorties)
IOC
Dépôts Hugging Face : glockr1/ballr7 — PyTorch SHA1: 1733506c584dd6801accf7f58dc92a4a1285db1f, Pickle SHA1: 79601f536b1b351c695507bf37236139f42201b0 ; who-r-u0000/0000000000000000000000000000000000000 — PyTorch SHA1: 0dcc38fc90eca38810805bb03b9f6bb44945bbc0, Pickle SHA1: 85c898c5db096635a21a9e8b5be0a58648205b47 ; Adresse IP : 107.173.7.141
🔗 Source originale : https://arxiv.org/abs/2603.05068