LLM | CyberVeille

CrowdStrike révèle que des déclencheurs politiques augmentent les failles dans le code généré par DeepSeek‑R1

Selon CrowdStrike Research, des tests indépendants du modèle DeepSeek‑R1 (671B, publié en janvier 2025 par la startup chinoise DeepSeek) indiquent que certains déclencheurs politiques dans les prompts font significativement varier la sécurité du code généré. L’étude a été menée sur le modèle brut open source (hors garde‑fous API) et comparée à d’autres LLMs open source occidentaux, ainsi qu’à une version distillée (DeepSeek‑R1‑distill‑llama‑70B). ⚙️ Résultats de base: DeepSeek‑R1 est globalement performant en génération de code, avec un taux de vulnérabilités de 19% sans déclencheurs. Les modèles de raisonnement produisent en moyenne un code plus sûr que les non‑raisonnants; les modèles plus récents s’en sortent mieux que les plus anciens. ...

Whisper Leak : une attaque par canal auxiliaire révèle les sujets de conversations LLM malgré TLS

Source et contexte — Microsoft Security (Microsoft Defender Security Research Team) présente “Whisper Leak”, une nouvelle attaque par canal auxiliaire visant les modèles de langage à distance en mode streaming. Un adversaire capable d’observer le trafic réseau chiffré (TLS) peut inférer le sujet d’une conversation en se basant sur la taille des paquets et leurs timings, malgré le chiffrement de bout en bout. 🕵️‍♂️🔒 Détails techniques — L’attaque s’appuie sur les spécificités du streaming token-par-token des LLM et sur le fait que, hors compression, la taille du ciphertext reflète celle du plaintext (± constantes) avec les chiffrements symétriques (AES-GCM, ChaCha20). Les auteurs s’inscrivent dans la lignée de travaux 2024 sur les fuites de longueur de tokens, attaques de timing (speculative decoding), comptage de tokens de sortie et cache sharing. Hypothèse validée : la séquence de tailles de paquets et d’inter-arrivées permet de classifier le thème du prompt, même si la sortie est groupée. ...

Tenable révèle 7 vulnérabilités dans ChatGPT ouvrant la voie à des fuites de données privées

Selon Tenable Research (blog Tenable), une nouvelle étude dévoile sept vulnérabilités et techniques d’attaque affectant ChatGPT, dont certaines confirmées sur GPT‑5 et observées sur GPT‑4o, permettant l’exfiltration d’informations privées depuis les mémoires et l’historique de conversation, des attaques 0‑click via la recherche, des contournements de mécanismes de sécurité et des persistances entre sessions. Architecture et surface d’attaque identifiées : ChatGPT s’appuie sur un « System Prompt » enrichi par des « memories » (bio tool) pouvant contenir des données privées de l’utilisateur, et sur un web tool avec deux commandes: search (Search Context) et open_url (Browsing Context). D’après les tests, open_url délègue la navigation à un LLM isolé (« SearchGPT »), sans accès aux memories. Un mécanisme url_safe filtre les liens rendus à l’écran. ...

Pentest IA open source : exfiltration silencieuse de données et risques de conformité via APIs LLM

Selon Horizon3.ai, des frameworks de pentest IA open source (notamment Cyber-AutoAgent et Villager) créent des risques de conformité majeurs en transmettant des données sensibles de tests d’intrusion vers des fournisseurs LLM externes (ex. OpenAI, Anthropic). Le problème principal n’est pas l’entraînement des modèles, mais l’exfiltration immédiate et non autorisée de données vers des tiers non approuvés, contournant DLP et SIEM, et violant des exigences PCI, HIPAA, CJIS et FedRAMP. Côté technique, ces outils enchaînent reconnaissance et exploitation en envoyant la sortie des commandes aux endpoints LLM via des appels API, générant une fuite silencieuse au travers d’un trafic HTTPS légitime. Ils utilisent souvent des clés API publiques, ne disposent pas de contrôles de configuration pour restreindre les flux, embarquent des bibliothèques de télémétrie tierces et n’offrent pas de pistes d’audit. ...

Anthropic lance Claude Sonnet 4.5, axé cyberdéfense et SOTA sur Cybench/CyberGym

L’editeur d’intelligence artificielle Anthropic (red.anthropic.com) estime que l’IA atteint un point d’inflexion en cybersécurité et dévoile Claude Sonnet 4.5, une version renforcée pour la découverte et la remédiation de vulnérabilités, évaluée sur des benchmarks externes et testée avec des partenaires. 🛡️ Contexte et positionnement L’IA devient « utile en pratique » pour les tâches cyber, avec des progrès rapides observés sur la dernière année (ex. reproduction simulée de l’attaque Equifax 2017, performances en compétitions CTF, contributions à la découverte de vulnérabilités en interne, usages lors du DARPA AI Cyber Challenge). Anthropic affirme vouloir accélérer l’usage défensif de l’IA afin de ne pas laisser l’avantage aux attaquants, en investissant dans des compétences comme la découverte de vulnérabilités et le patching. 🚀 Produit et orientation cyber ...

SpAIware: vulnérabilité de Windsurf Cascade permettant une exfiltration persistante via mémoire et prompt injection

Selon un billet publié le 24 août 2025, un chercheur décrit une attaque « SpAIware » contre Windsurf Cascade exploitant la prompt injection et la persistance en mémoire pour exfiltrer des données de façon continue. Windsurf Cascade est une fonctionnalité intégrée à l’éditeur de code Windsurf (basé sur Visual Studio Code) qui s’appuie sur l’intelligence artificielle pour assister les développeurs. L’article explique que Windsurf Cascade dispose d’un outil interne « create_memory » qui est invqué automatiquement sans approbation humaine. Cette conception permet à un attaquant, via une prompt injection indirecte (par exemple dans un commentaire de code C, un ticket GitHub ou une page web), de persister des instructions malveillantes dans la mémoire à long terme de l’agent. L’impact revendiqué couvre la confidentialité, l’intégrité et la disponibilité des futures conversations. ...

Bishop Fox démontre l’automatisation du patch diffing par LLM, avec des gains de temps massifs

Source: Bishop Fox — Dans un billet de recherche, Bishop Fox présente une méthodologie exploitant des modèles de langage pour accélérer et fiabiliser le « patch diffing » afin d’orienter la découverte de vulnérabilités à partir de correctifs. 🧪 Méthodologie: Les chercheurs combinent Binary Ninja (décompilation), BinDiff (analyse différentielle) et un prompting itératif avec LLM pour classer les fonctions par pertinence vis-à-vis de la vulnérabilité. L’approche vise à prioriser rapidement les zones de code à auditer après l’application d’un patch. ...

CMU montre que des LLM peuvent planifier et exécuter des cyberattaques autonomes en environnement d’entreprise

Source: College of Engineering at Carnegie Mellon University (engineering.cmu.edu). Contexte: une équipe de CMU a étudié la capacité des modèles de langage à planifier et mener des attaques réseau complexes de manière autonome dans des environnements d’entreprise réalistes. 🔬 Les chercheurs montrent que des LLM, lorsqu’ils sont dotés d’une abstraction de « modèle mental » du red teaming et intégrés à un système hiérarchique d’agents, peuvent passer de simples outils passifs à de véritables agents de red team autonomes, capables de coordonner des cyberattaques multi‑étapes sans instructions humaines détaillées. ...

Prompt injection: principal risque pour les LLM, la défense en profondeur reste indispensable

Selon GuidePoint Security (blog), la prompt injection reste le risque de sécurité n°1 pour les modèles de langage (LLM), car ceux-ci ne distinguent pas de façon fiable les instructions système des entrées utilisateur dans une même fenêtre de contexte. Sur le plan technique, les attaques tirent parti du traitement token-based dans un contexte unifié où instructions système et requêtes utilisateur sont traitées de manière équivalente. Cette faiblesse structurelle permet de détourner le comportement de l’IA. ...

LameHug : un infostealer d’APT28 qui intègre un LLM pour générer des commandes en temps réel

Selon Picus Security, s’appuyant sur une découverte du CERT ukrainien, un nouveau malware baptisé LameHug et attribué à APT28 (Fancy Bear) constitue le premier cas documenté publiquement d’un logiciel malveillant intégrant opérationnellement un LLM pour générer des commandes en temps réel. LameHug est un infostealer Python déployé via des campagnes de spear-phishing ciblant des agences gouvernementales ukrainiennes. Il utilise le modèle Qwen 2.5-Coder-32B-Instruct d’Alibaba Cloud via l’API Hugging Face pour produire à la volée des chaînes de commandes Windows, permettant des attaques adaptatives sans mise à jour binaire et en évitant les signatures traditionnelles. 🤖 ...