🔍 Contexte
Article d’investigation publié par The Guardian le 14 mars 2026, rédigé par Hannah Devlin et Tom Burgis. UK Biobank est une base de données médicales britannique fondée en 2003, détenant les dossiers de santé de 500 000 volontaires britanniques, incluant séquences génomiques, scanners, échantillons sanguins et données de style de vie.
📂 Nature de l’incident
Des données de santé confidentielles ont été exposées publiquement en ligne à de nombreuses reprises par des chercheurs ayant accidentellement publié des jeux de données Biobank sur GitHub en même temps que leur code d’analyse. Cette pratique résulte de l’obligation croissante des journaux scientifiques et financeurs de publier le code source des analyses.
- Un jeu de données découvert en janvier 2026 contenait des diagnostics hospitaliers et dates associées pour environ 413 000 participants, ainsi que leur sexe et mois/année de naissance
- Entre juillet et décembre 2025, UK Biobank a émis 80 notices légales à GitHub, entraînant la suppression d’environ 500 dépôts
- Malgré ces actions, de nombreux fichiers restaient accessibles sur un site d’archivage de code au moment de la publication
🎯 Risque de ré-identification
Le Guardian a testé le risque de ré-identification avec le consentement de volontaires :
- Une femme dans la soixantaine a été identifiée de manière unique dans le jeu de données en utilisant uniquement son mois/année de naissance et la date de son hystérectomie
- Cinq autres diagnostics non divulgués initialement ont corroboré la correspondance
- Des experts comme Dr Luc Rocher (Oxford Internet Institute) confirment que la suppression des identifiants ne garantit pas l’anonymat
🏛️ Réponse de UK Biobank
UK Biobank, via son directeur général Prof Sir Rory Collins, a rejeté les préoccupations, affirmant n’avoir jamais observé de ré-identification d’un participant. L’organisation a mis en avant ses mesures proactives : recherche sur GitHub, contact direct des chercheurs, et émission de notices légales.
👨🔬 Avis d’experts
- Prof Felix Ritchie (Université de l’Ouest de l’Angleterre) : qualifier l’approche de Biobank d’irréaliste à l’ère des réseaux sociaux et de l’IA
- Prof Niels Peek (Université de Cambridge) : qualifie l’échelle du problème de « choquante »
- Dr Luc Rocher : souligne que des données comme une date d’anniversaire et une date de fracture suffisent à identifier un individu avec haute confiance
📰 Type d’article
Article d’investigation journalistique à caractère de rapport d’incident de confidentialité/conformité, visant à documenter des expositions répétées de données médicales sensibles et à évaluer les risques de ré-identification dans un contexte de recherche scientifique ouverte.
🧠 TTPs et IOCs détectés
TTP
- T1213 — Data from Information Repositories (Collection)
🔗 Source originale : https://www.theguardian.com/science/2026/mar/14/confidential-health-records-exposed-online-uk-biobank