<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>LLM Cybersécurité on CyberVeille</title>
    <link>https://cyberveille.ch/tags/llm-cybers%C3%A9curit%C3%A9/</link>
    <description>Recent content in LLM Cybersécurité on CyberVeille</description>
    <generator>Hugo -- 0.146.0</generator>
    <language>fr-fr</language>
    <copyright>Cyberveille CC BY-NC-SA 4.0</copyright>
    <lastBuildDate>Sun, 19 Apr 2026 00:00:00 +0000</lastBuildDate>
    <atom:link href="https://cyberveille.ch/tags/llm-cybers%C3%A9curit%C3%A9/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>L&#39;AISI évalue Claude Mythos Preview : capacités offensives autonomes en cybersécurité</title>
      <link>https://cyberveille.ch/posts/2026-04-19-l-aisi-evalue-claude-mythos-preview-capacites-offensives-autonomes-en-cybersecurite/</link>
      <pubDate>Sun, 19 Apr 2026 00:00:00 +0000</pubDate>
      <guid>https://cyberveille.ch/posts/2026-04-19-l-aisi-evalue-claude-mythos-preview-capacites-offensives-autonomes-en-cybersecurite/</guid>
      <description>&lt;h2 id=&#34;-contexte&#34;&gt;🔍 Contexte&lt;/h2&gt;
&lt;p&gt;L&amp;rsquo;&lt;strong&gt;AI Security Institute (AISI)&lt;/strong&gt; du Royaume-Uni a publié le 19 avril 2026 une évaluation des capacités cybersécurité du modèle &lt;strong&gt;Claude Mythos Preview&lt;/strong&gt; d&amp;rsquo;Anthropic. Cette évaluation s&amp;rsquo;inscrit dans un suivi continu des capacités cyber des IA depuis 2023, avec des environnements de test progressivement plus complexes.&lt;/p&gt;
&lt;h2 id=&#34;-résultats-ctf-capture-the-flag&#34;&gt;📊 Résultats CTF (Capture The Flag)&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;Sur les tâches de niveau &lt;strong&gt;expert&lt;/strong&gt; (aucun modèle ne pouvait les résoudre avant avril 2025), Mythos Preview réussit &lt;strong&gt;73% du temps&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;Les évaluations couvrent des modèles depuis GPT-3.5 Turbo jusqu&amp;rsquo;à Mythos Preview, avec des budgets de tokens allant jusqu&amp;rsquo;à &lt;strong&gt;50M tokens&lt;/strong&gt; pour les niveaux expert&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;-résultats-sur-le-cyber-range--the-last-ones--tlo&#34;&gt;🏭 Résultats sur le cyber range « The Last Ones » (TLO)&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;TLO&lt;/strong&gt; est une simulation d&amp;rsquo;attaque réseau d&amp;rsquo;entreprise en &lt;strong&gt;32 étapes&lt;/strong&gt;, estimée à &lt;strong&gt;20 heures de travail humain&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Claude Mythos Preview&lt;/strong&gt; est le &lt;strong&gt;premier modèle à résoudre TLO de bout en bout&lt;/strong&gt;, dans 3 tentatives sur 10&lt;/li&gt;
&lt;li&gt;En moyenne, il complète &lt;strong&gt;22 étapes sur 32&lt;/strong&gt; sur l&amp;rsquo;ensemble de ses tentatives&lt;/li&gt;
&lt;li&gt;Le modèle suivant, &lt;strong&gt;Claude Opus 4.6&lt;/strong&gt;, complète en moyenne &lt;strong&gt;16 étapes&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;Les performances continuent de progresser avec l&amp;rsquo;augmentation du budget de tokens (jusqu&amp;rsquo;à &lt;strong&gt;100M tokens&lt;/strong&gt; testés)&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;-limites-observées&#34;&gt;⚠️ Limites observées&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;Mythos Preview n&amp;rsquo;a pas pu compléter le cyber range &lt;strong&gt;« Cooling Tower »&lt;/strong&gt; (axé sur les technologies opérationnelles / OT), bien que le blocage soit survenu sur des sections IT&lt;/li&gt;
&lt;li&gt;Les environnements de test sont plus simples que le monde réel : absence de défenseurs actifs, d&amp;rsquo;outils de détection, et aucune pénalité pour les actions déclenchant des alertes&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;-implications-cti&#34;&gt;🎯 Implications CTI&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;Le modèle est capable d&amp;rsquo;&lt;strong&gt;attaquer de manière autonome des systèmes d&amp;rsquo;entreprise faiblement défendus&lt;/strong&gt; si un accès réseau lui est fourni&lt;/li&gt;
&lt;li&gt;Les évaluations futures intégreront des environnements &lt;strong&gt;durcis et défendus&lt;/strong&gt; (EDR, SOC actif, réponse à incident en temps réel)&lt;/li&gt;
&lt;li&gt;L&amp;rsquo;AISI prévoit également de tester les capacités de &lt;strong&gt;découverte de vulnérabilités et de pentest&lt;/strong&gt; sur des systèmes réels&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;-type-darticle&#34;&gt;📄 Type d&amp;rsquo;article&lt;/h2&gt;
&lt;p&gt;Il s&amp;rsquo;agit d&amp;rsquo;une &lt;strong&gt;publication de recherche&lt;/strong&gt; officielle de l&amp;rsquo;AISI visant à documenter l&amp;rsquo;évolution des capacités offensives des modèles d&amp;rsquo;IA frontier et à informer la communauté cybersécurité sur les risques émergents liés à l&amp;rsquo;IA autonome.&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
