OpenAI AgentKit : analyse des risques de sécurité et limites des guardrails

Selon Zenity Labs, cette analyse détaille les risques de sécurité liés à la nouvelle plateforme OpenAI AgentKit pour concevoir des workflows d’agents, couvrant son architecture (Agent Builder, Connector Registry via MCP, ChatKit) et ses mécanismes de sécurité intégrés.

L’article décrit l’architecture node-based d’Agent Builder, avec des nœuds principaux (Agent, Start, End), des nœuds d’outils (dont des Guardrails pour la détection PII et jailbreak) et des nœuds logiques (conditionnels, boucles, User Approval). Le Connector Registry étend les agents via des connecteurs MCP vers des services externes, et ChatKit fournit l’intégration UI.

Principales vulnérabilités identifiées :

Prompt injection via File Search (vecteurs/BDV) et connecteurs MCP, pouvant divulguer ou corrompre des données sensibles.
Excessive agency lorsque les agents disposent de droits étendus, notamment des opérations en écriture.
Frontières « molles » de sécurité où les schémas LLM-as-a-Judge sont contournables.
Définitions d’instructions dangereuses, p. ex. inclusion directe de variables comme input_as_text dans les instructions d’agent.

Critique des guardrails d’OpenAI : distinction entre soft guardrails (Jailbreak, Hallucination – probabilistes, pilotés par LLM) et hard guardrails (PII, Moderation – règle-based, déterministes). Limites clés : les guardrails classifient sans corriger/sanitariser le contenu, les soft guardrails sont bypassables par encodage/obfuscation/attaques multi‑tours, les hard guardrails ratent des informations sensibles dépendantes du contexte, et la sortie binaire (pass/fail) impose aux développeurs d’implémenter une logique de reprise. Le mécanisme User Approval introduit de l’humain‑dans‑la‑boucle mais reste vulnérable à la manipulation sociale et aux erreurs utilisateur.

Conclusion : si AgentKit simplifie le développement d’agents, la sécurité réelle dépend d’une conception soignée, d’un monitoring approprié et de frontières applicatives contraignantes au‑delà des guardrails actuels. Il s’agit d’une analyse technique visant à exposer les risques, les limites des protections intégrées et les zones nécessitant des contrôles supplémentaires. 🔐⚠️

TTPs observés/mentionnés :

Prompt injection
Contournement par encodage/obfuscation
Attaques multi‑tours
Permissions excessives/outillage en écriture
Ingénierie sociale (contre l’User Approval)

IOCs :

Aucun indicateur technique fourni.

🧠 TTPs et IOCs détectés

TTPs

Prompt injection, Contournement par encodage/obfuscation, Attaques multi-tours, Permissions excessives/outillage en écriture, Ingénierie sociale (contre l’User Approval)

IOCs

Aucun indicateur technique fourni

🔗 Source originale : https://labs.zenity.io/p/analyzing-the-security-risks-of-openai-s-agentkit

🖴 Archive : https://web.archive.org/web/20251009071223/https://labs.zenity.io/p/analyzing-the-security-risks-of-openai-s-agentkit

🧠 TTPs et IOCs détectés#

TTPs#

IOCs#

🧠 TTPs et IOCs détectés

TTPs

IOCs