Zenity Labs dĂ©voile des faiblesses structurelles dans les guardrails dâOpenAI AgentKit
Source: Zenity Labs â Dans une publication de recherche, Zenity Labs analyse en profondeur les guardrails dâOpenAI AgentKit et met en Ă©vidence des faiblesses fondamentales communes : des contrĂŽles «âŻsouplesâŻÂ» basĂ©s sur des modĂšles probabilistes Ă©valuant dâautres modĂšles, crĂ©ant des dĂ©pendances circulaires exploitables par des attaquants. Points clĂ©s mis en avant: DĂ©tection de PII: Ă©chec face aux formats non standard (ex. âSNNâ au lieu de âSSNâ) et aux variations de casse. DĂ©tection dâhallucinations: sâappuie sur lâautoâĂ©valuation par LLM (score de confiance dâun modĂšle sur un autre), approche jugĂ©e fragile pour la vĂ©rification factuelle. Filtres de modĂ©ration: contournables via substitution de caractĂšres, encodage et obfuscation (ex. âkđ§šillâ). DĂ©tection de jailbreak: inefficace contre les attaques multiâtours, payloads intĂ©grĂ©s ou prompts dĂ©guisĂ©s. RĂ©sumĂ© technique: ...