Sécurité « out of the box » de GPT‑5 : résultats face aux menaces réelles et enjeux d’alignement

Contexte: Article publié le 11 août 2025 évaluant la sécurité « out of the box » de GPT‑5 face à des menaces réelles, et expliquant pourquoi l’alignement doit se prouver.

Le blog de SplxAI a publié le 8 août 2025 un rapport de red teaming sur GPT-5, testé sur plus de 1 000 scénarios adversariaux. Les résultats montrent que, malgré ses avancées en raisonnement et en validation interne, la sécurité par défaut du modèle reste faible.

Trois configurations ont été évaluées : sans système de prompt (No SP), avec un prompt basique (Basic SP) et avec un prompt renforcé SPLX (Hardened SP). Sans protection, GPT-5 est jugé « quasiment inutilisable » pour un usage en entreprise. Même avec le prompt interne d’OpenAI, des lacunes subsistent, notamment en alignement métier. Le renforcement SPLX améliore nettement les résultats, mais GPT-4o surpasse encore GPT-5 dans tous les tests lorsqu’il est durci.

Le rapport note que des attaques simples, comme l’obfuscation par insertion de tirets (StringJoin), peuvent encore contourner les filtres de sécurité. SplxAI conclut que GPT-5 n’est pas prêt par défaut pour un déploiement en environnement critique, et recommande un durcissement actif, un red teaming régulier et une protection en temps réel.

Source : SplxAI Blog, 08/08/2025

En somme, il s’agit d’un article de synthèse présentant une évaluation de la sécurité de GPT‑5 et un argumentaire sur l’alignement comme exigence démontrable.

🔗 Source originale : https://splx.ai/blog/gpt-5-red-teaming-results

🖴 Archive : https://web.archive.org/web/20250811222715/https://splx.ai/blog/gpt-5-red-teaming-results