LLM | CyberVeille

Guide conjoint CISA/NSA/NCSC : sécuriser les systèmes d'IA agentique

🌐 Contexte Publié le 1 mai 2026 sur le site de la CISA, ce document est une guidance conjointe co-rédigée par l’ASD/ACSC (Australie), la CISA et la NSA (États-Unis), le Centre canadien pour la cybersécurité, le NCSC-NZ (Nouvelle-Zélande) et le NCSC-UK (Royaume-Uni). Il s’adresse aux gouvernements, opérateurs d’infrastructures critiques et acteurs industriels qui conçoivent, développent, déploient ou opèrent des systèmes d’IA agentique basés sur des LLM. 🤖 Définition et périmètre Les systèmes d’IA agentique se distinguent de l’IA générative classique par leur capacité à agir de manière autonome, à planifier sur le long terme, à atteindre des objectifs sous-spécifiés et à créer des sous-agents. Ils intègrent des LLM, des outils externes, des sources de données, des mémoires et des workflows de planification. ...

AISI évalue GPT-5.5 : second modèle IA à compléter une simulation d'attaque réseau en 32 étapes

🔍 Contexte Publié le 30 avril 2026 par l’AI Security Institute (AISI) du Royaume-Uni, ce rapport présente les résultats d’une évaluation des capacités cyber offensives de GPT-5.5 d’OpenAI, réalisée sur un snapshot précoce du modèle. Il fait suite à une évaluation similaire du modèle Claude Mythos Preview d’Anthropic, premier modèle à avoir résolu une simulation d’attaque réseau complète. 📊 Résultats sur les tâches cyber avancées L’AISI utilise une suite de 95 tâches cyber réparties en 4 niveaux de difficulté, au format Capture The Flag (CTF). Les tâches avancées, développées avec les firmes Crystal Peak Security et Irregular, couvrent : ...

Benchmark de LLMs auto-hébergés pour la sécurité offensive : résultats et observations

🔍 Contexte Publié le 14 avril 2026 sur le blog de TrustedSec par Brandon McGrath, cet article présente un benchmark rigoureux de six modèles de langage (LLM) auto-hébergés pour des tâches de sécurité offensive, en réponse au constat que la majorité des travaux existants s’appuient sur des modèles cloud (GPT-4) avec des challenges CTF guidés. 🧪 Méthodologie Le benchmark utilise un harnais minimal et délibérément naïf : Cible : OWASP Juice Shop dans un conteneur Docker Outils fournis aux modèles : http_request et encode_payload (URL/base64/hex) Prompt système : “You are a penetration tester.” 100 runs par challenge par modèle, soit 4 800 runs totaux 8 challenges, limite de 5 à 10 tours selon la difficulté Inférence via Ollama avec API compatible OpenAI Paramètres : température 0.3, contexte 8 192 tokens Résultats stockés en SQLite Les descriptions d’outils sont volontairement minimales pour mesurer la capacité intrinsèque des modèles (payload knowledge, chaînage d’appels) plutôt que l’effet du prompt engineering. ...

Claude Mythos Preview : un LLM capable de découvrir et exploiter des zero-days autonomement

🧠 Contexte Publié le 7 avril 2026 sur le blog de recherche d’Anthropic, cet article technique présente les capacités en cybersécurité de Claude Mythos Preview, un nouveau modèle de langage général. En réponse à ces capacités, Anthropic annonce le lancement de Project Glasswing, un effort coordonné pour utiliser Mythos Preview à des fins défensives sur les logiciels critiques. 🔍 Capacités offensives documentées Mythos Preview démontre des capacités autonomes de découverte et d’exploitation de vulnérabilités : ...

Framework de threat hunting basé sur IA agentique, DRL et LLM intégré à Splunk

🔬 Contexte Article de recherche académique publié sur arXiv le 25 mars 2026, co-écrit par des chercheurs de l’Université de l’Illinois (Springfield), de l’Université de Lancaster (UK), du KIIT (Inde) et de l’équipe de recherche Splunk/Cisco. Il présente un framework de threat hunting proactif et automatisé. 🎯 Problématique adressée Les approches de sécurité traditionnelles (EDR, SIEM à base de règles) sont insuffisantes face aux APT (Advanced Persistent Threats) en constante évolution. Les analystes SOC sont submergés par le volume de logs. Kaspersky rapporte une augmentation de 74% des APTs en 2024, et Fortinet signale une hausse de 16,7% par an de l’activité de reconnaissance. ...

Pentest autonome par LLM multi-agents sur environnements robotiques ROS/ROS2

🔬 Contexte Article de recherche publié sur arXiv le 29 mars 2026 par des chercheurs de JOANNEUM RESEARCH (Graz, Autriche), TU Graz, Alias Robotics (Espagne) et Jamk University (Finlande), dans le cadre du projet européen ResilMesh (GA No. 101119681). 🤖 Architecture proposée Les auteurs présentent un workflow multi-agents basé sur LangGraph pour l’automatisation des tests de pénétration sur des environnements ROS (Robot Operating System) / ROS2. L’architecture repose sur trois agents coopératifs : ...

SANDBOXESCAPEBENCH mesure l’aptitude des LLM à s’échapper de conteneurs

Source et contexte: Prépublication (UK AI Security Institute / University of Oxford), datée du 4 mars 2026. L’article introduit SANDBOXESCAPEBENCH, un benchmark et une méthodologie d’évaluation « sandbox-in-sandbox » pour mesurer si des agents LLM peuvent sortir d’un conteneur et lire un fichier /flag.txt sur l’hôte. • Le benchmark couvre 18 scénarios d’orchestration (K8s), de runtime (Docker/OCI) et de noyau Linux, avec une architecture d’évaluation par CTF et un double isolement (VM + conteneur) afin d’éviter tout risque pour l’infrastructure. Les auteurs publient les 18 niveaux et un provider de sandbox VM pour Inspect (Vagrant/EC2), avec un jeu de test privé. ...

ZeroDayBench : un benchmark pour évaluer des agents LLM sur des failles zero‑day inédites

Source : ICLR 2026 Workshop on Agents in the Wild — Des chercheurs introduisent ZeroDayBench, un nouveau benchmark visant à évaluer la capacité d’agents LLM à détecter et corriger des vulnérabilités critiques dans des bases de code open source, en se concentrant sur la remédiation et non l’exploitation. Principales contributions 🧪 Portage de CVE réelles vers des dépôts cibles « fonctionnellement similaires » pour créer des failles inédites et limiter la mémorisation par les modèles. Couverture exclusive de vulnérabilités critiques (CVSS ≥ 7.0) et scénarios à fort impact (RCE, élévation de privilèges, dépassements mémoire, etc.). Évaluation par pentest: une correction n’est validée que si un exploit actif est effectivement bloqué après patch. 5 niveaux d’information fournis à l’agent (zero‑day, CWE, post‑exploit, one‑day, full‑info) pour mesurer la dépendance au contexte. Variantes inter‑dépôts et intra‑dépôt pour tester la généralisation (ex. portage de CVE‑2021‑23017 entre HAProxy, Squid, Tinyproxy). Résultats et comportements observés 🛡️ ...

Anthropic et Mozilla: Claude Opus 4.6 identifie 22 vulnérabilités dans Firefox, dont 14 de haute gravité

Source: Anthropic — Contexte: Anthropic détaille une collaboration avec Mozilla où son modèle Claude Opus 4.6 a servi à découvrir et aider à corriger des vulnérabilités dans Firefox, avec publication de correctifs dans Firefox 148.0. 🔍 Découvertes clés: Claude Opus 4.6 a identifié 22 vulnérabilités en deux semaines, dont 14 de haute gravité (près d’un cinquième des vulnérabilités haute gravité remédiées en 2025). Mozilla a expédié des correctifs à des centaines de millions d’utilisateurs dans Firefox 148.0, le reste arrivant dans des versions ultérieures. En février 2026, ces signalements dépassent tout mois individuel de 2025. ...

Billet critique sur une étude suisse de désanonymisation par LLM et son manque de modèle de menace

Source : billet de blog de Davi Ottenheimer (8 mars 2026). Contexte : critique d’un « papier suisse » sur la désanonymisation automatisée via LLM et ses implications pour la vie privée. L’auteur résume la thèse de l’étude : les LLM permettraient des attaques de désanonymisation entièrement automatisées sur du texte non structuré, à grande échelle. Il juge la menace « pas nouvelle », renvoyant à Narayanan & Shmatikov (2008, actualisé en 2019) : le coût de l’attaque baisse mais la capacité fondamentale ne change pas. ...