Zenity Labs dévoile des faiblesses structurelles dans les guardrails d’OpenAI AgentKit

Source: Zenity Labs — Dans une publication de recherche, Zenity Labs analyse en profondeur les guardrails d’OpenAI AgentKit et met en évidence des faiblesses fondamentales communes : des contrôles « souples » basés sur des modèles probabilistes évaluant d’autres modèles, créant des dépendances circulaires exploitables par des attaquants.

Points clés mis en avant:

Détection de PII: échec face aux formats non standard (ex. ‘SNN’ au lieu de ‘SSN’) et aux variations de casse.
Détection d’hallucinations: s’appuie sur l’auto‑évaluation par LLM (score de confiance d’un modèle sur un autre), approche jugée fragile pour la vérification factuelle.
Filtres de modération: contournables via substitution de caractères, encodage et obfuscation (ex. ‘k🧨ill’).
Détection de jailbreak: inefficace contre les attaques multi‑tours, payloads intégrés ou prompts déguisés.

Résumé technique:

Chaque guardrail implémente des instructions système demandant au modèle de classifier l’intention ou de faire du pattern‑matching.
Ces approches probabilistes manquent de mécanismes d’application capables de contraindre réellement le comportement des agents.

Produits/portée:

Produit concerné: OpenAI AgentKit (guardrails de PII, hallucinations, modération, jailbreak).
Impact: possibilité de contourner les contrôles avec des techniques d’évasion relativement simples et évolutives.

TTPs et éléments observés:

Obfuscation (ex. caractères spéciaux, substitutions visuelles).
Encodage et transformations du texte.
Évasion par variations de casse et formats non standard (PII).
Prompt injection multi‑tours, payloads imbriqués, prompts déguisés.
Évasion du pattern‑matching et exploitation de l’auto‑évaluation LLM. 🔓🧩

Conclusion: Publication de recherche visant à détailler les limites de sécurité des guardrails d’AgentKit et à démontrer des techniques de contournement pour chacune des catégories de contrôle.

🔗 Source originale : https://labs.zenity.io/p/breaking-down-agentkit-s-guardrails

🖴 Archive : https://web.archive.org/web/20251010171646/https://labs.zenity.io/p/breaking-down-agentkit-s-guardrails