Zenity Labs dĂ©voile des faiblesses structurelles dans les guardrails d’OpenAI AgentKit

Source: Zenity Labs — Dans une publication de recherche, Zenity Labs analyse en profondeur les guardrails d’OpenAI AgentKit et met en Ă©vidence des faiblesses fondamentales communes : des contrĂŽles « souples » basĂ©s sur des modĂšles probabilistes Ă©valuant d’autres modĂšles, crĂ©ant des dĂ©pendances circulaires exploitables par des attaquants. Points clĂ©s mis en avant: DĂ©tection de PII: Ă©chec face aux formats non standard (ex. ‘SNN’ au lieu de ‘SSN’) et aux variations de casse. DĂ©tection d’hallucinations: s’appuie sur l’auto‑évaluation par LLM (score de confiance d’un modĂšle sur un autre), approche jugĂ©e fragile pour la vĂ©rification factuelle. Filtres de modĂ©ration: contournables via substitution de caractĂšres, encodage et obfuscation (ex. ‘k🧹ill’). DĂ©tection de jailbreak: inefficace contre les attaques multi‑tours, payloads intĂ©grĂ©s ou prompts dĂ©guisĂ©s. RĂ©sumĂ© technique: ...

10 octobre 2025 Â· 2 min
Derniùre mise à jour le: 26 Oct 2025 📝