Sécurité Des LLM

LLM salting: une nouvelle défense qui neutralise les jailbreaks pré‑calculés

Selon Sophos News (section Emerging Technology Security), des chercheurs décrivent « LLM salting », une technique de fine-tuning conçue pour durcir les grands modèles de langage face aux attaques de jailbreak, avec une évaluation sur LLaMA‑2‑7B et Vicuna‑7B. 🔒🧂 Présentation: La méthode « LLM salting », inspirée du salage de mots de passe, protège contre les jailbreaks en faisant tourner les représentations internes de refus. Elle vise à contrer le risque créé par la réutilisation d’architectures de LLM identiques, en empêchant la réutilisation de jailbreaks pré‑calculés. ...

Sécurité des LLM : guide technique sur vulnérabilités OWASP, risques émergents et mitigations

Source : Mend.io — Dans un guide détaillé, le média présente une analyse technique et opérationnelle des principaux risques de sécurité liés aux grands modèles de langage (LLM) et propose des contre-mesures concrètes de bout en bout. Le contenu couvre les vulnérabilités majeures inspirées de l’« OWASP Top 10 » pour LLM, dont injection de prompt, gestion de sortie non sécurisée, empoisonnement des données d’entraînement et déni de service du modèle. Il met aussi en avant des risques émergents liés à l’IA agentique, aux modèles open source et aux déploiements sensibles géopolitiquement, avec une approche cycle de vie intégrale, de la collecte de données jusqu’aux opérations post-déploiement. ...

Trend Micro détaille trois vecteurs de compromission des LLM : code embarqué, empoisonnement des données et LoRA malveillantes

Source : Trend Micro (Emerging Technology Security). Le billet présente une analyse des techniques de compromission des modèles de langage et insiste sur une démarche de sécurité « verify, then trust » pour protéger la chaîne d’approvisionnement IA. L’analyse met en avant trois méthodes clés de compromission : l’injection de code malveillant dans les fichiers de modèles (notamment via des vulnérabilités de sérialisation pickle), des adapteurs LoRA malveillants capables de manipuler le comportement du modèle, et l’empoisonnement des données de formation pour implanter des portes dérobées. Elle évoque également des attaques par ré‑entraînement direct du modèle. 🔎 ...

Failles critiques d’exfiltration de données dans l’agent IA Google Jules via injections de prompt

Selon Embrace The Red, un chercheur en sécurité a mis au jour plusieurs vulnérabilités critiques d’exfiltration de données affectant Google Jules, un agent IA de codage asynchrone, démontrant un enchaînement de type « lethal trifecta »: injection de prompt → confused deputy → invocation automatique d’outils. 🚨 Principaux vecteurs d’attaque mis en évidence: Rendu d’images Markdown: ajout de données sensibles à des URLs tierces lors du rendu, permettant l’exfiltration via requêtes sortantes. Abus de l’outil view_text_website: utilisation de la fonction pour exfiltrer des données vers des serveurs contrôlés par l’attaquant. Exécution de code à distance (RCE) avec accès Internet non restreint. Le chercheur explique que l’architecture multi‑agents de Jules, où un agent planificateur principal coordonne des agents « workers » à forts privilèges, est au cœur de l’exposition: des attaques ciblant le planificateur peuvent contourner les contrôles « human‑in‑the‑loop », sans nécessiter les capacités des workers. ...