LLM | CyberVeille

Benchmark CTI : Fable 5 d'Anthropic jugé contre-productif pour les défenseurs cyber

🔍 Contexte Publié le 17 juin 2026 par Graphistry sur leur blog officiel, cet article constitue un retour d’expérience pratique sur le modèle Fable 5 d’Anthropic (une configuration du modèle Mythos 5 avec politiques de sécurité IA intégrées), désormais interdit par le gouvernement américain. L’évaluation porte sur deux axes : le codage et les investigations cybersécurité. ✅ Points positifs : codage Fable 5 est décrit comme remarquablement autonome pour les tâches de développement complexes Il a accompli en 2 jours un projet de modernisation de bibliothèques CPU/GPU (lié à Apache Arrow) qui nécessitait auparavant une intervention manuelle fréquente Comparé à Opus 4.8 et Codex 5.5, Fable se pilote davantage seul Il a détecté et corrigé des bugs dans des plugins HTTP binaires personnalisés pour Arrow et Fastify ❌ Points négatifs : cybersécurité défensive Graphistry a utilisé deux benchmarks publics pour évaluer Fable sur des tâches SOC : ...

DarkMoon : moteur open source de pentest autonome avec agents IA et orchestration Docker

📰 Source : LinuxFR — Article publié le 20 juin 2026 par Mehdi, édité par Benoît Sibaud. 🔍 Contexte général DarkMoon est un moteur de pentest automatisé open source publié sous licence GNU GPLv3. Le projet est récent : premier commit en novembre 2025, dépôt rendu public en mai 2026, avec environ 500 clonages et 1300 téléchargements d’images Docker au moment de la publication. ⚙️ Architecture et fonctionnement L’outil repose sur trois composants principaux : ...

IA dans les forums cybercriminels : usages, outils et scepticisme observés par Sophos CTU

🔍 Contexte Publié le 17 juin 2026 par la Sophos Counter Threat Unit (CTU), ce rapport analyse les discussions et activités liées à l’intelligence artificielle (IA) observées sur des forums cybercriminels et canaux Telegram souterrains. L’analyse couvre des observations depuis janvier 2026. 🔑 Accès et partage de connaissances Les chercheurs CTU ont observé la vente de clés API pour des outils d’IA générative (ChatGPT, Claude, Grok) via des comptes partagés et des plateformes alternatives. Des personas comme CyberThreat et VOLTC proposent un accès mutualisé à ces outils. Un manque de connaissances est notable : les acteurs se tournent vers des canaux dédiés pour apprendre les bases, le jailbreaking et les techniques de prompt engineering. Depuis janvier 2026, des offres de recrutement de prompt engineers OpenAI ont été observées. ...

Anthropic cartographie l'usage malveillant de l'IA sur MITRE ATT&CK : 832 comptes analysés

🗓️ Contexte Publié le 3 juin 2026 par Anthropic (Kyla Guru, Alex Moix, Jacob Klein), ce rapport analyse 832 comptes bannis de la plateforme Claude entre mars 2025 et mars 2026 pour violation de la politique d’utilisation liée à des activités cyber malveillantes. Les résultats ont partiellement alimenté le Verizon Data Breach Investigation Report (DBIR) 2026. 📊 Méthodologie 13 873 observations d’activités malveillantes mappées sur le framework MITRE ATT&CK V18 482 sous-techniques uniques couvrant les 14 tactiques ATT&CK Nouveau score de risque : ARiES (AI Risk Enablement Score), composite de 0 à 100 basé sur trois dimensions : Threat (0–35), Vulnerability (0–35), Impact (0–30) Données collectées via Claude.ai, Claude Code et l’API Anthropic 🔑 Résultats clés 1. Croissance du risque : ...

Bugonomics : analyse économique de la découverte de vulnérabilités assistée par LLM

🔬 Contexte et source Article académique publié sur arXiv (soumis le 23 mai 2026) par des chercheurs de Bynario, Vanta et University College London. Il s’appuie sur les données publiques des campagnes Anthropic Mythos Preview et Mozilla Firefox pour analyser les implications économiques des LLM dans la découverte de vulnérabilités. 📐 Concept central : le « bugonomics » Les auteurs introduisent le terme bugonomics comme cadre d’analyse des coûts et incitations liés à la production d’artefacts de sécurité. Ils distinguent explicitement plusieurs catégories économiquement distinctes : ...

Étude empirique : 400 tests de pénétration autonomes par LLM — cohérence et fiabilité

🔬 Contexte Publié le 7 juin 2026 sur arXiv (arxiv.org/abs/2605.30096), cet article de recherche indépendant (auteur : Galip T. Erdem) présente la première étude empirique à grande échelle mesurant la cohérence comportementale de LLMs utilisés comme agents d’attaque autonomes. L’étude couvre 400 exécutions (4 modèles × 100 runs) contre un honeypot isolé hébergé sur Azure. 🎯 Dispositif expérimental Le honeypot cible expose trois services délibérément vulnérables : Port 3000 : OWASP Juice Shop (injection SQL via /rest/products/search?q=) Port 22 : OpenSSH avec credentials faibles (honeypot:password123) Port 21 : vsftpd avec accès FTP anonyme et fichier credentials.txt Les 4 modèles testés : Claude Sonnet 4 (Anthropic), Gemini 2.5 Flash-Lite (Google), GPT-4o-mini (OpenAI), qwen2.5-coder:14b (local via Ollama). L’orchestrateur implémente une boucle commande-exécution-observation avec un maximum de 25 itérations. ...

TeamPCP vend le code source volé de Mistral AI après l'attaque supply-chain Mini Shai-Hulud

🗓️ Contexte Source : BleepingComputer, publié le 14 mai 2026. L’article rapporte une tentative d’extorsion par le groupe cybercriminel TeamPCP à l’encontre de Mistral AI, société française spécialisée dans les grands modèles de langage (LLM). 🎯 Incident L’attaque s’inscrit dans le cadre de l’opération Mini Shai-Hulud, une attaque de la chaîne d’approvisionnement logicielle qui a débuté par la compromission de packages officiels de TanStack et Mistral AI via des identifiants CI/CD volés et des workflows légitimes détournés. ...

Des attaques adaptatives contournent 12 défenses LLM contre jailbreaks et injections de prompts

🔬 Contexte Cet article est un preprint académique soumis en octobre 2025 par des chercheurs affiliés à OpenAI, Anthropic, Google DeepMind, ETH Zürich, Northeastern University et HackAPrompt. Il évalue la robustesse des défenses actuelles contre les jailbreaks et injections de prompts dans les grands modèles de langage (LLM). 🎯 Problème identifié Les défenses LLM existantes sont évaluées contre des ensembles statiques d’attaques ou des méthodes d’optimisation faibles non adaptées à la défense ciblée. Les auteurs arguent que cette approche est fondamentalement défaillante car elle ne reflète pas la capacité d’un attaquant réel à adapter sa stratégie. ...

CVE-2026-7482 : Fuite mémoire critique non authentifiée dans Ollama (Bleeding Llama)

🔍 Contexte Publié le 5 mai 2026 par Dor Attias de Cyera Research, cet article détaille la découverte d’une vulnérabilité critique CVE-2026-7482 (CVSS 9.1) dans Ollama, une plateforme open-source permettant d’exécuter des LLMs localement. Ollama compte environ 170 000 étoiles GitHub et plus de 100 millions de téléchargements sur Docker Hub. 🐛 Nature de la vulnérabilité La vulnérabilité est un out-of-bounds heap read situé dans le code de quantification des modèles GGUF, dans la fonction WriteTo qui utilise le package Go unsafe. Le mécanisme d’exploitation repose sur : ...

HackerOne : Benchmark GPT-5.5 vs Claude Opus 4.7 vs Sonnet 4.6 pour la validation de vulnérabilités

📅 Source et contexte : Article publié le 6 mai 2026 sur le blog HackerOne par Michiel Prins, Saida Wijpkema et Miray Mazlumoglu. Il fait suite à un précédent benchmark sur Claude Opus 4.7 et intervient après la sortie de GPT-5.5 par OpenAI. 🔬 Méthodologie : Les trois modèles (GPT-5.5, Claude Opus 4.7, Claude Sonnet 4.6) ont été évalués sur le même harness de validation interne de HackerOne, comprenant : Des CVEs publics sur des projets C/C++ (38 cas de test) Des rapports de vulnérabilités réels sur une application web (XSS, SQLi, SSRF, RCE, IDOR) Des rapports de qualité variable, incluant des soumissions fabriquées ou à impact surestimé GPT-5.5 a été évalué via le programme OpenAI Trusted Access for Cyber. ...