Zenity Labs dévoile des faiblesses structurelles dans les guardrails d’OpenAI AgentKit
Source: Zenity Labs — Dans une publication de recherche, Zenity Labs analyse en profondeur les guardrails d’OpenAI AgentKit et met en évidence des faiblesses fondamentales communes : des contrôles « souples » basés sur des modèles probabilistes évaluant d’autres modèles, créant des dépendances circulaires exploitables par des attaquants. Points clés mis en avant: Détection de PII: échec face aux formats non standard (ex. ‘SNN’ au lieu de ‘SSN’) et aux variations de casse. Détection d’hallucinations: s’appuie sur l’auto‑évaluation par LLM (score de confiance d’un modèle sur un autre), approche jugée fragile pour la vérification factuelle. Filtres de modération: contournables via substitution de caractères, encodage et obfuscation (ex. ‘k🧨ill’). Détection de jailbreak: inefficace contre les attaques multi‑tours, payloads intégrés ou prompts déguisés. Résumé technique: ...