LLM salting: une nouvelle dĂ©fense qui neutralise les jailbreaks prĂ©âcalculĂ©s
Selon Sophos News (section Emerging Technology Security), des chercheurs dĂ©crivent « LLM salting », une technique de fine-tuning conçue pour durcir les grands modĂšles de langage face aux attaques de jailbreak, avec une Ă©valuation sur LLaMAâ2â7B et Vicunaâ7B. đđ§ PrĂ©sentation: La mĂ©thode « LLM salting », inspirĂ©e du salage de mots de passe, protĂšge contre les jailbreaks en faisant tourner les reprĂ©sentations internes de refus. Elle vise Ă contrer le risque créé par la rĂ©utilisation dâarchitectures de LLM identiques, en empĂȘchant la rĂ©utilisation de jailbreaks prĂ©âcalculĂ©s. ...