Sécurité LLM

MCP d’Anthropic : risques de sécurité majeurs et mesures de mitigation

Selon Black Hills Information Security (BHIS), dans un contexte d’« Emerging Technology Security », le Model Context Protocol (MCP) — un standard ouvert d’Anthropic pour relier des applications LLM à des données et outils externes — introduit des risques notables en raison d’un manque de contrôles de sécurité intégrés. Le protocole MCP adopte une architecture client–serveur où les clients LLM utilisent JSON-RPC pour solliciter des capacités auprès de serveurs MCP via trois briques : Tools (fonctions exécutables), Resources (données en lecture seule) et Prompts (gabarits d’instructions). Les vulnérabilités découlent d’une confiance implicite, de l’absence de validation d’entrées et de l’inexistence de contrôles d’accès natifs. Le design favorise la fonctionnalité en connectant des systèmes probabilistes (LLM) à des outils déterministes sans frontières de confiance imposées. ...

BHIS détaille les vulnérabilités d’injection de prompt dans les LLM

Selon Black Hills Information Security (BHIS), ce deuxième volet d’une série sur le hacking de l’IA dissèque les vulnérabilités d’injection de prompt dans les grands modèles de langue (LLM) et explique comment des acteurs peuvent manipuler ou contourner les consignes système. L’article souligne une faiblesse centrale : l’absence de frontières de privilèges entre les consignes développeur (system prompts) et les entrées utilisateur, et la nature hautement suggestible des LLM. Cette vulnérabilité est présentée comme une menace critique pour les systèmes IA, comparable à une injection SQL dans les applications traditionnelles. Des plateformes de pratique sont évoquées pour développer les compétences de test en sécurité IA. 🚨 ...

MCP : deux vecteurs d’attaque contre les LLM (injection via outils et « tool shadowing »)

Source: Netskope — Dans une analyse technique, Netskope explore des attaques visant le Model Context Protocol (MCP) utilisé dans les déploiements de LLM, en montrant comment des adversaires peuvent manipuler le comportement des modèles sans intervention directe de l’utilisateur. L’étude présente deux vecteurs majeurs: injection de prompt via les définitions d’outils et cross-server tool shadowing. Ces attaques exploitent le fait que les LLM traitent les métadonnées d’outils comme des instructions de système de confiance, permettant d’induire des actions non autorisées de manière invisible pour l’utilisateur. ...