Source: Zenity Labs — Dans une publication de recherche, Zenity Labs analyse en profondeur les guardrails d’OpenAI AgentKit et met en évidence des faiblesses fondamentales communes : des contrôles « souples » basés sur des modèles probabilistes évaluant d’autres modèles, créant des dépendances circulaires exploitables par des attaquants.
Points clés mis en avant:
- Détection de PII: échec face aux formats non standard (ex. ‘SNN’ au lieu de ‘SSN’) et aux variations de casse.
- Détection d’hallucinations: s’appuie sur l’auto‑évaluation par LLM (score de confiance d’un modèle sur un autre), approche jugée fragile pour la vérification factuelle.
- Filtres de modération: contournables via substitution de caractères, encodage et obfuscation (ex. ‘k🧨ill’).
- Détection de jailbreak: inefficace contre les attaques multi‑tours, payloads intégrés ou prompts déguisés.
Résumé technique:
- Chaque guardrail implémente des instructions système demandant au modèle de classifier l’intention ou de faire du pattern‑matching.
- Ces approches probabilistes manquent de mécanismes d’application capables de contraindre réellement le comportement des agents.
Produits/portée:
- Produit concerné: OpenAI AgentKit (guardrails de PII, hallucinations, modération, jailbreak).
- Impact: possibilité de contourner les contrôles avec des techniques d’évasion relativement simples et évolutives.
TTPs et éléments observés:
- Obfuscation (ex. caractères spéciaux, substitutions visuelles).
- Encodage et transformations du texte.
- Évasion par variations de casse et formats non standard (PII).
- Prompt injection multi‑tours, payloads imbriqués, prompts déguisés.
- Évasion du pattern‑matching et exploitation de l’auto‑évaluation LLM. 🔓🧩
Conclusion: Publication de recherche visant à détailler les limites de sécurité des guardrails d’AgentKit et à démontrer des techniques de contournement pour chacune des catégories de contrôle.
🔗 Source originale : https://labs.zenity.io/p/breaking-down-agentkit-s-guardrails
🖴 Archive : https://web.archive.org/web/20251010171646/https://labs.zenity.io/p/breaking-down-agentkit-s-guardrails