CVE-2026-7482 : Fuite mémoire critique non authentifiée dans Ollama (Bleeding Llama)

🔍 Contexte PubliĂ© le 5 mai 2026 par Dor Attias de Cyera Research, cet article dĂ©taille la dĂ©couverte d’une vulnĂ©rabilitĂ© critique CVE-2026-7482 (CVSS 9.1) dans Ollama, une plateforme open-source permettant d’exĂ©cuter des LLMs localement. Ollama compte environ 170 000 Ă©toiles GitHub et plus de 100 millions de tĂ©lĂ©chargements sur Docker Hub. 🐛 Nature de la vulnĂ©rabilitĂ© La vulnĂ©rabilitĂ© est un out-of-bounds heap read situĂ© dans le code de quantification des modĂšles GGUF, dans la fonction WriteTo qui utilise le package Go unsafe. Le mĂ©canisme d’exploitation repose sur : ...

8 mai 2026 Â· 2 min

HackerOne : Benchmark GPT-5.5 vs Claude Opus 4.7 vs Sonnet 4.6 pour la validation de vulnérabilités

📅 Source et contexte : Article publiĂ© le 6 mai 2026 sur le blog HackerOne par Michiel Prins, Saida Wijpkema et Miray Mazlumoglu. Il fait suite Ă  un prĂ©cĂ©dent benchmark sur Claude Opus 4.7 et intervient aprĂšs la sortie de GPT-5.5 par OpenAI. 🔬 MĂ©thodologie : Les trois modĂšles (GPT-5.5, Claude Opus 4.7, Claude Sonnet 4.6) ont Ă©tĂ© Ă©valuĂ©s sur le mĂȘme harness de validation interne de HackerOne, comprenant : Des CVEs publics sur des projets C/C++ (38 cas de test) Des rapports de vulnĂ©rabilitĂ©s rĂ©els sur une application web (XSS, SQLi, SSRF, RCE, IDOR) Des rapports de qualitĂ© variable, incluant des soumissions fabriquĂ©es ou Ă  impact surestimĂ© GPT-5.5 a Ă©tĂ© Ă©valuĂ© via le programme OpenAI Trusted Access for Cyber. ...

6 mai 2026 Â· 3 min

Guide conjoint CISA/NSA/NCSC : sécuriser les systÚmes d'IA agentique

🌐 Contexte PubliĂ© le 1 mai 2026 sur le site de la CISA, ce document est une guidance conjointe co-rĂ©digĂ©e par l’ASD/ACSC (Australie), la CISA et la NSA (États-Unis), le Centre canadien pour la cybersĂ©curitĂ©, le NCSC-NZ (Nouvelle-ZĂ©lande) et le NCSC-UK (Royaume-Uni). Il s’adresse aux gouvernements, opĂ©rateurs d’infrastructures critiques et acteurs industriels qui conçoivent, dĂ©veloppent, dĂ©ploient ou opĂšrent des systĂšmes d’IA agentique basĂ©s sur des LLM. đŸ€– DĂ©finition et pĂ©rimĂštre Les systĂšmes d’IA agentique se distinguent de l’IA gĂ©nĂ©rative classique par leur capacitĂ© Ă  agir de maniĂšre autonome, Ă  planifier sur le long terme, Ă  atteindre des objectifs sous-spĂ©cifiĂ©s et Ă  crĂ©er des sous-agents. Ils intĂšgrent des LLM, des outils externes, des sources de donnĂ©es, des mĂ©moires et des workflows de planification. ...

3 mai 2026 Â· 3 min

AISI évalue GPT-5.5 : second modÚle IA à compléter une simulation d'attaque réseau en 32 étapes

🔍 Contexte PubliĂ© le 30 avril 2026 par l’AI Security Institute (AISI) du Royaume-Uni, ce rapport prĂ©sente les rĂ©sultats d’une Ă©valuation des capacitĂ©s cyber offensives de GPT-5.5 d’OpenAI, rĂ©alisĂ©e sur un snapshot prĂ©coce du modĂšle. Il fait suite Ă  une Ă©valuation similaire du modĂšle Claude Mythos Preview d’Anthropic, premier modĂšle Ă  avoir rĂ©solu une simulation d’attaque rĂ©seau complĂšte. 📊 RĂ©sultats sur les tĂąches cyber avancĂ©es L’AISI utilise une suite de 95 tĂąches cyber rĂ©parties en 4 niveaux de difficultĂ©, au format Capture The Flag (CTF). Les tĂąches avancĂ©es, dĂ©veloppĂ©es avec les firmes Crystal Peak Security et Irregular, couvrent : ...

1 mai 2026 Â· 3 min

Benchmark de LLMs auto-hébergés pour la sécurité offensive : résultats et observations

🔍 Contexte PubliĂ© le 14 avril 2026 sur le blog de TrustedSec par Brandon McGrath, cet article prĂ©sente un benchmark rigoureux de six modĂšles de langage (LLM) auto-hĂ©bergĂ©s pour des tĂąches de sĂ©curitĂ© offensive, en rĂ©ponse au constat que la majoritĂ© des travaux existants s’appuient sur des modĂšles cloud (GPT-4) avec des challenges CTF guidĂ©s. đŸ§Ș MĂ©thodologie Le benchmark utilise un harnais minimal et dĂ©libĂ©rĂ©ment naĂŻf : Cible : OWASP Juice Shop dans un conteneur Docker Outils fournis aux modĂšles : http_request et encode_payload (URL/base64/hex) Prompt systĂšme : “You are a penetration tester.” 100 runs par challenge par modĂšle, soit 4 800 runs totaux 8 challenges, limite de 5 Ă  10 tours selon la difficultĂ© InfĂ©rence via Ollama avec API compatible OpenAI ParamĂštres : tempĂ©rature 0.3, contexte 8 192 tokens RĂ©sultats stockĂ©s en SQLite Les descriptions d’outils sont volontairement minimales pour mesurer la capacitĂ© intrinsĂšque des modĂšles (payload knowledge, chaĂźnage d’appels) plutĂŽt que l’effet du prompt engineering. ...

19 avril 2026 Â· 2 min

Claude Mythos Preview : un LLM capable de découvrir et exploiter des zero-days autonomement

🧠 Contexte PubliĂ© le 7 avril 2026 sur le blog de recherche d’Anthropic, cet article technique prĂ©sente les capacitĂ©s en cybersĂ©curitĂ© de Claude Mythos Preview, un nouveau modĂšle de langage gĂ©nĂ©ral. En rĂ©ponse Ă  ces capacitĂ©s, Anthropic annonce le lancement de Project Glasswing, un effort coordonnĂ© pour utiliser Mythos Preview Ă  des fins dĂ©fensives sur les logiciels critiques. 🔍 CapacitĂ©s offensives documentĂ©es Mythos Preview dĂ©montre des capacitĂ©s autonomes de dĂ©couverte et d’exploitation de vulnĂ©rabilitĂ©s : ...

8 avril 2026 Â· 4 min

Framework de threat hunting basé sur IA agentique, DRL et LLM intégré à Splunk

🔬 Contexte Article de recherche acadĂ©mique publiĂ© sur arXiv le 25 mars 2026, co-Ă©crit par des chercheurs de l’UniversitĂ© de l’Illinois (Springfield), de l’UniversitĂ© de Lancaster (UK), du KIIT (Inde) et de l’équipe de recherche Splunk/Cisco. Il prĂ©sente un framework de threat hunting proactif et automatisĂ©. 🎯 ProblĂ©matique adressĂ©e Les approches de sĂ©curitĂ© traditionnelles (EDR, SIEM Ă  base de rĂšgles) sont insuffisantes face aux APT (Advanced Persistent Threats) en constante Ă©volution. Les analystes SOC sont submergĂ©s par le volume de logs. Kaspersky rapporte une augmentation de 74% des APTs en 2024, et Fortinet signale une hausse de 16,7% par an de l’activitĂ© de reconnaissance. ...

29 mars 2026 Â· 2 min

Pentest autonome par LLM multi-agents sur environnements robotiques ROS/ROS2

🔬 Contexte Article de recherche publiĂ© sur arXiv le 29 mars 2026 par des chercheurs de JOANNEUM RESEARCH (Graz, Autriche), TU Graz, Alias Robotics (Espagne) et Jamk University (Finlande), dans le cadre du projet europĂ©en ResilMesh (GA No. 101119681). đŸ€– Architecture proposĂ©e Les auteurs prĂ©sentent un workflow multi-agents basĂ© sur LangGraph pour l’automatisation des tests de pĂ©nĂ©tration sur des environnements ROS (Robot Operating System) / ROS2. L’architecture repose sur trois agents coopĂ©ratifs : ...

29 mars 2026 Â· 3 min

SANDBOXESCAPEBENCH mesure l’aptitude des LLM Ă  s’échapper de conteneurs

Source et contexte: PrĂ©publication (UK AI Security Institute / University of Oxford), datĂ©e du 4 mars 2026. L’article introduit SANDBOXESCAPEBENCH, un benchmark et une mĂ©thodologie d’évaluation « sandbox-in-sandbox » pour mesurer si des agents LLM peuvent sortir d’un conteneur et lire un fichier /flag.txt sur l’hĂŽte. ‱ Le benchmark couvre 18 scĂ©narios d’orchestration (K8s), de runtime (Docker/OCI) et de noyau Linux, avec une architecture d’évaluation par CTF et un double isolement (VM + conteneur) afin d’éviter tout risque pour l’infrastructure. Les auteurs publient les 18 niveaux et un provider de sandbox VM pour Inspect (Vagrant/EC2), avec un jeu de test privĂ©. ...

15 mars 2026 Â· 3 min

ZeroDayBench : un benchmark pour Ă©valuer des agents LLM sur des failles zero‑day inĂ©dites

Source : ICLR 2026 Workshop on Agents in the Wild — Des chercheurs introduisent ZeroDayBench, un nouveau benchmark visant Ă  Ă©valuer la capacitĂ© d’agents LLM Ă  dĂ©tecter et corriger des vulnĂ©rabilitĂ©s critiques dans des bases de code open source, en se concentrant sur la remĂ©diation et non l’exploitation. Principales contributions đŸ§Ș Portage de CVE rĂ©elles vers des dĂ©pĂŽts cibles « fonctionnellement similaires » pour crĂ©er des failles inĂ©dites et limiter la mĂ©morisation par les modĂšles. Couverture exclusive de vulnĂ©rabilitĂ©s critiques (CVSS ≄ 7.0) et scĂ©narios Ă  fort impact (RCE, Ă©lĂ©vation de privilĂšges, dĂ©passements mĂ©moire, etc.). Évaluation par pentest: une correction n’est validĂ©e que si un exploit actif est effectivement bloquĂ© aprĂšs patch. 5 niveaux d’information fournis Ă  l’agent (zero‑day, CWE, post‑exploit, one‑day, full‑info) pour mesurer la dĂ©pendance au contexte. Variantes inter‑dĂ©pĂŽts et intra‑dĂ©pĂŽt pour tester la gĂ©nĂ©ralisation (ex. portage de CVE‑2021‑23017 entre HAProxy, Squid, Tinyproxy). RĂ©sultats et comportements observĂ©s đŸ›Ąïž ...

15 mars 2026 Â· 3 min
Derniùre mise à jour le: 11 mai 2026 📝