Selon Sophos News (section Emerging Technology Security), des chercheurs décrivent « LLM salting », une technique de fine-tuning conçue pour durcir les grands modèles de langage face aux attaques de jailbreak, avec une évaluation sur LLaMA‑2‑7B et Vicuna‑7B.
🔒🧂 Présentation: La méthode « LLM salting », inspirée du salage de mots de passe, protège contre les jailbreaks en faisant tourner les représentations internes de refus. Elle vise à contrer le risque créé par la réutilisation d’architectures de LLM identiques, en empêchant la réutilisation de jailbreaks pré‑calculés.
🧠 Détails techniques: Le procédé modifie la fonction de perte pour appliquer une perte cosinus (salting loss) qui « fait pivoter » le sous‑espace de refus dans les activations, réduisant l’alignement avec des directions de refus pré‑calculées. L’entraînement utilise un jeu de données combiné (90% d’instructions utiles/inoffensives de hh‑rlhf, 10% de prompts nuisibles d’AdvBench) et applique cette perte aux couches 16 à 20, sans affecter les capacités générales.
📊 Résultats: Évaluée contre 300 jailbreaks Greedy Coordinate Gradient (GCG), la technique fait chuter le taux de succès des attaques à 2,75% (LLaMA‑2) et 1,35% (Vicuna), contre 100% avant défense, tout en préservant la performance sur les entrées bénignes et en maintenant l’exactitude MMLU dans le bruit statistique.
🚀 Portée: La défense casse la transférabilité des jailbreaks pré‑computés sans dégrader les capacités du modèle, avec une analogie explicite au salage de mots de passe face aux « rainbow tables ». Les modèles concernés dans les tests sont LLaMA‑2‑7B et Vicuna‑7B.
TTPs observés:
- Jailbreaks pré‑calculés de type GCG (Greedy Coordinate Gradient)
- Attaques de jailbreak/prompt injection transférables
Type d’article: publication de recherche sécuritaire mise en avant par un média spécialisé, présentant une technique défensive et ses résultats expérimentaux.
🔗 Source originale : https://news.sophos.com/en-us/2025/10/24/locking-it-down-a-new-technique-to-prevent-llm-jailbreaks/