Apprentissage Automatique Adversarial

Selon Sophos News (section Emerging Technology Security), des chercheurs décrivent « LLM salting », une technique de fine-tuning conçue pour durcir les grands modèles de langage face aux attaques de jailbreak, avec une évaluation sur LLaMA‑2‑7B et Vicuna‑7B. 🔒🧂 Présentation: La méthode « LLM salting », inspirée du salage de mots de passe, protège contre les jailbreaks en faisant tourner les représentations internes de refus. Elle vise à contrer le risque créé par la réutilisation d’architectures de LLM identiques, en empêchant la réutilisation de jailbreaks pré‑calculés. ...