Grok 4 échoue aux tests de sécurité : une analyse par SplxAI

L’article publié par SplxAI Research Team met en lumière les faiblesses de Grok 4, le dernier modèle d’intelligence artificielle d’Elon Musk, dans un contexte de cybersécurité.

Grok 4 a été testé par l’équipe de recherche de SplxAI face à GPT-4o. Les résultats montrent que sans prompt système, Grok 4 a échoué à 99% des tentatives d’injection de prompt, révélant des données restreintes et obéissant à des instructions hostiles.

Les tests de sécurité et de sûreté ont révélé des scores extrêmement bas pour Grok 4, avec seulement 0.3% sur la sécurité et 0.42% sur la sûreté, comparé à GPT-4o qui a obtenu respectivement 33.78% et 18.04%.

Cependant, l’application d’un prompt système de base a considérablement amélioré les scores de Grok 4, atteignant 90.74% en sécurité et 98.81% en sûreté. L’ajout d’une couche de durcissement automatisée par SplxAI a permis à Grok 4 de devenir prêt pour l’entreprise avec des scores de 93.6% en sécurité, 100% en sûreté, et 98.2% en alignement commercial.

Ce rapport vise à démontrer l’importance d’une évaluation rigoureuse des risques de sécurité et de mauvaise utilisation des modèles de langage de grande taille avant leur intégration en entreprise.

🔗 Source originale : https://splx.ai/blog/grok-4-security-testing

🖴 Archive : https://web.archive.org/web/20250716083317/https://splx.ai/blog/grok-4-security-testing