Zenity Labs dĂ©voile des faiblesses structurelles dans les guardrails d’OpenAI AgentKit

Source: Zenity Labs — Dans une publication de recherche, Zenity Labs analyse en profondeur les guardrails d’OpenAI AgentKit et met en Ă©vidence des faiblesses fondamentales communes : des contrĂŽles « souples » basĂ©s sur des modĂšles probabilistes Ă©valuant d’autres modĂšles, crĂ©ant des dĂ©pendances circulaires exploitables par des attaquants. Points clĂ©s mis en avant: DĂ©tection de PII: Ă©chec face aux formats non standard (ex. ‘SNN’ au lieu de ‘SSN’) et aux variations de casse. DĂ©tection d’hallucinations: s’appuie sur l’auto‑évaluation par LLM (score de confiance d’un modĂšle sur un autre), approche jugĂ©e fragile pour la vĂ©rification factuelle. Filtres de modĂ©ration: contournables via substitution de caractĂšres, encodage et obfuscation (ex. ‘k🧹ill’). DĂ©tection de jailbreak: inefficace contre les attaques multi‑tours, payloads intĂ©grĂ©s ou prompts dĂ©guisĂ©s. RĂ©sumĂ© technique: ...

10 octobre 2025 Â· 2 min

OpenAI AgentKitxa0: analyse des risques de sécurité et limites des guardrails

Selon Zenity Labs, cette analyse dĂ©taille les risques de sĂ©curitĂ© liĂ©s Ă  la nouvelle plateforme OpenAI AgentKit pour concevoir des workflows d’agents, couvrant son architecture (Agent Builder, Connector Registry via MCP, ChatKit) et ses mĂ©canismes de sĂ©curitĂ© intĂ©grĂ©s. L’article dĂ©crit l’architecture node-based d’Agent Builder, avec des nƓuds principaux (Agent, Start, End), des nƓuds d’outils (dont des Guardrails pour la dĂ©tection PII et jailbreak) et des nƓuds logiques (conditionnels, boucles, User Approval). Le Connector Registry Ă©tend les agents via des connecteurs MCP vers des services externes, et ChatKit fournit l’intĂ©gration UI. ...

9 octobre 2025 Â· 2 min

Faille critique dans GitHub Copilot Chat: exfiltration silencieuse via contournement CSP et prompt injection

Selon Legit Security, des chercheurs ont dĂ©couvert une vulnĂ©rabilitĂ© critique (CVSS 9.6) affectant GitHub Copilot Chat, permettant l’exfiltration silencieuse de secrets et de code source depuis des dĂ©pĂŽts privĂ©s, tout en manipulant les rĂ©ponses/suggestions de Copilot. ‱ Contexte et impact: La faille combinait un contournement de la Content Security Policy (CSP) via l’infrastructure Camo proxy de GitHub et des prompt injections distantes insĂ©rĂ©es dans des commentaires invisibles de descriptions de pull requests. ExploitĂ©e, elle permettait d’accĂ©der Ă  des dĂ©pĂŽts privĂ©s avec les permissions de la victime et de voler des informations sensibles (dont des vulnĂ©rabilitĂ©s zero-day et des clĂ©s AWS), et de contrĂŽler les rĂ©ponses/suggestions de Copilot. ...

8 octobre 2025 Â· 2 min

Escalade de privilÚges croisée entre agents IA via écrasement de configurations

Source: Embrace The Red — Une recherche met en Ă©vidence un nouveau schĂ©ma de vulnĂ©rabilitĂ© oĂč des agents IA de codage, opĂ©rant dans un mĂȘme environnement, peuvent s’accorder mutuellement des privilĂšges en altĂ©rant leurs fichiers de configuration. 🚹 L’étude dĂ©crit une chaĂźne d’attaque dĂ©butant par une injection de prompt indirecte compromettant un premier agent. Celui-ci Ă©crase les configurations d’un autre agent (p. ex. MCP de Claude Code) afin d’y ajouter des serveurs malveillants ou de modifier ses instructions, conduisant Ă  une exĂ©cution de code arbitraire ou Ă  des capacitĂ©s Ă©largies lors du rechargement des paramĂštres. ...

25 septembre 2025 Â· 2 min

ShadowLeak : exfiltration zero‑click cĂŽtĂ© service via l’agent Deep Research de ChatGPT

Selon Radware (radware.com), des chercheurs ont mis au jour ShadowLeak, une attaque zero‑click exploitant l’agent Deep Research de ChatGPT lorsqu’il est connectĂ© Ă  Gmail et Ă  la navigation web, permettant une exfiltration de donnĂ©es cĂŽtĂ© service depuis l’infrastructure d’OpenAI. L’attaque, basĂ©e sur une injection indirecte de prompt camouflĂ©e dans le HTML d’un email, a atteint un taux de rĂ©ussite de 100% avant correction et a Ă©tĂ© corrigĂ©e par OpenAI dĂ©but aoĂ»t 2025. ...

24 septembre 2025 Â· 3 min

AgentHopper : un virus d’IA exploite des prompt injections pour se propager via Git

Selon le blog Embrace The Red, un chercheur de sĂ©curitĂ© a dĂ©montrĂ© AgentHopper, un malware conceptuel ciblant des agents de codage via des injections de prompts et se propageant au travers de dĂ©pĂŽts Git. Les vulnĂ©rabilitĂ©s rĂ©fĂ©rencĂ©es ont Ă©tĂ© corrigĂ©es, et la recherche met en lumiĂšre la nĂ©cessitĂ© de contrĂŽles de sĂ©curitĂ© renforcĂ©s (protection des branches, passphrases pour clĂ©s SSH, principe du moindre privilĂšge pour les agents d’IA). AgentHopper abuse d’injections de prompt indirectes pour atteindre une exĂ©cution de code arbitraire sur plusieurs agents d’IA populaires. Le malware utilise des payloads universels conditionnels capables de dĂ©clencher des chemins d’exploitation spĂ©cifiques selon l’agent ciblĂ©, facilitant une infection multi‑plateforme Ă  partir d’un seul contenu malveillant dans le dĂ©pĂŽt. ...

31 aoĂ»t 2025 Â· 2 min

Un cadre pour analyser les incidents d’agents IA et les donnĂ©es Ă  collecter

Selon un papier de recherche acadĂ©mique (Harvard University et Centre for the Governance of AI), les auteurs proposent un cadre structurĂ© pour analyser les incidents impliquant des agents IA et dĂ©taillent quelles donnĂ©es opĂ©rationnelles doivent ĂȘtre conservĂ©es et partagĂ©es pour permettre des enquĂȘtes efficaces. ‱ Le cadre identifie trois catĂ©gories de causes d’incident: facteurs systĂšme (donnĂ©es d’entraĂźnement/feedback, mĂ©thodes d’apprentissage, prompts systĂšme, scaffolding), facteurs contextuels (dĂ©finition de la tĂąche, outils et leurs accĂšs, environnement informationnel incluant les injections de prompts) et erreurs cognitives observables de l’agent (observation, comprĂ©hension, dĂ©cision, exĂ©cution). Il s’inspire des approches « human factors » (ex. HFACS) utilisĂ©es en aviation et autres domaines critiques. ...

31 aoĂ»t 2025 Â· 3 min

Brave révÚle une injection indirecte de prompts dans Perplexity Comet permettant des actions cross-domain

Source: Brave.com blog (20 aoĂ»t 2025). Brave prĂ©sente une recherche montrant qu’une vulnĂ©rabilitĂ© dans l’agent de navigation Comet de Perplexity permet des attaques d’injection indirecte de prompts, contournant les hypothĂšses classiques de sĂ©curitĂ© Web et entraĂźnant des risques majeurs en sessions authentifiĂ©es. Brave explique que Comet, lorsqu’on lui demande de rĂ©sumer une page, transmet une partie du contenu de la page directement au LLM sans distinguer les instructions de l’utilisateur du contenu non fiable de la page. Cette conception ouvre la voie Ă  une injection indirecte de prompts oĂč des instructions malveillantes, dissimulĂ©es dans une page Web ou un commentaire social, sont traitĂ©es comme des commandes par l’agent. ...

27 aoĂ»t 2025 Â· 3 min

Phishing Gmail avec injection de prompt pour contourner les défenses IA

Source: malwr-analysis.com (24–25 aoĂ»t 2025). Contexte: un chercheur dĂ©crit une Ă©volution d’une chaĂźne de phishing Gmail oĂč les attaquants ciblent Ă  la fois les utilisateurs et les dĂ©fenses automatisĂ©es, en insĂ©rant un texte d’« injection de prompt » dans la section MIME en clair pour distraire/perturber l’analyse par IA. Leurres et chaĂźne de livraison 🚹: l’email de phishing imite un avis d’expiration de mot de passe (sujet: « Login Expiry Notice 8/20/2025 4:56:21 p.m. »), envoyĂ© via SendGrid avec SPF/DKIM OK mais DMARC en Ă©chec, ce qui a permis de franchir certains filtres. La campagne abuse Microsoft Dynamics pour une redirection de mise en scĂšne, puis bascule vers un domaine attaquant avec captcha (empĂȘchant crawlers/sandboxes) avant la page principale de phishing brandĂ©e Gmail. Le kit effectue une requĂȘte GeoIP pour profiler l’utilisateur et un beacon tĂ©lĂ©mĂ©trique pour distinguer humains et bots. ...

25 aoĂ»t 2025 Â· 3 min

SpAIware: vulnérabilité de Windsurf Cascade permettant une exfiltration persistante via mémoire et prompt injection

Selon un billet publiĂ© le 24 aoĂ»t 2025, un chercheur dĂ©crit une attaque « SpAIware » contre Windsurf Cascade exploitant la prompt injection et la persistance en mĂ©moire pour exfiltrer des donnĂ©es de façon continue. Windsurf Cascade est une fonctionnalitĂ© intĂ©grĂ©e Ă  l’éditeur de code Windsurf (basĂ© sur Visual Studio Code) qui s’appuie sur l’intelligence artificielle pour assister les dĂ©veloppeurs. L’article explique que Windsurf Cascade dispose d’un outil interne « create_memory » qui est invquĂ© automatiquement sans approbation humaine. Cette conception permet Ă  un attaquant, via une prompt injection indirecte (par exemple dans un commentaire de code C, un ticket GitHub ou une page web), de persister des instructions malveillantes dans la mĂ©moire Ă  long terme de l’agent. L’impact revendiquĂ© couvre la confidentialitĂ©, l’intĂ©gritĂ© et la disponibilitĂ© des futures conversations. ...

24 aoĂ»t 2025 Â· 3 min
Derniùre mise à jour le: 26 Jan 2026 📝