Différences entre les versions de « Faut-il confier les radios de mamie à Microsoft et Doctolib - Adrien Parrot »

De April MediaWiki
Aller à la navigationAller à la recherche
Ligne 102 : Ligne 102 :
  
 
==13’ 59==
 
==13’ 59==
 +
 +
===Entrepôts de données de santé===
 +
 +
Un petit point sur les entrepôts de données. <br/>
 +
C’est Aaron Swartz. Il n’a pas fait un entrepôt de données de santé. C’est quelqu’un qui a contribué à plusieurs initiatives <em>open source</em> dont les flux RSS, qui a beaucoup contribué à Wikipédia et qui a disparu, qui s’est suicidé après avoir tenté de libérer la revue scientifique mondiale JSTOR[<em>Journal Storage</em>] ; c’était un étudiant du MIT. <em>The Internet's Own Boy</em> est un super film sur lui.<br/>
 +
Pourquoi je mentionne Aaron Swartz ? Ça c’est un schéma de l’architecture de l’entrepôt de données de l’AP-UH. Ce qui m’a beaucoup plu c’est qu’on reprenait un peu les principes d’Aaron Swartz : toutes les technologies qu’on utilise sont strictement <em>open source</em>, voire libres, donc on peut avoir accès librement au code.<br/>
 +
Par exemple pour la base de données, il y a un concurrent qui s’appelle Oracle, qui est d’ailleurs américain, eh bien on utilise plutôt Postgres ; pour la recherche textuelle Solar ???, des technos de décentralisation, de redondance ; Spar ??? pour synchroniser ; des API standard en santé comme Fire et Jupiter qui est un environnement pour faire de la data science et évidemment des <em>librairies</em> Python ou R qui sont <em>open source</em>. En tout cas toutes les technos mentionnées ici sont strictement <em>open source</em>. L’idée de tout ça c’est de pouvoir faire du code à plusieurs et de partager dans différents centres, de ne pas faire dix fois le même boulot.
 +
 +
Après 42 j’ai travaillé pendant deux ans à l’entrepôt des données de santé des hôpitaux de Paris. On a vu arriver le Health Data Hub en 2019/2020. Le Health Data Hub s’est construit autour de Microsoft avec toutes les problématiques autour de la protection des données, de l’utilisation potentielle des données de santé par les services de renseignement américain. On a donc créé, avec l’ingénieur en chef de l’entrepôt, une asso qui s’appelle InterHop.
 +
 +
L’objectif d’InterHop c’est de faire un chaton, un peu au sens Framasoft. Un chaton c’est ce qu’est l’asso 42. Du coup ça promeut essentiellement, je ne sais pas si vous aussi, le logiciel <em>open source</em>, le logiciel libre et, pour nous, avec la particularité qu’on stocke des données de santé, donc il faut des certifications particulières pour les données de santé. En fait nous sommes un chaton HDS, hébergeur de données de santé, et on héberge des softs sur les serveurs HDS comme Toobib qui est un outil de prise de rendez-vous ou Goupile qui est un outil de recueil de données. On a des activités juridiques. Une avocate nous accompagne et fait des combats juridiques avec nous.
 +
 +
Pour finir, rien à voir ni avec 42, ni avec InterHop, mais ça rentre dans une définition vaste de la santé, c’est que les réserves en minéraux rares, mais pas que, diminuent, par exemple le cuivre. Pour le cuivre il y a 37 années de cuivre, l’or sept ans ; toutes les matières premières sont en train de se raréfier et beaucoup de ces matières premières sont utilisées par faire des serveurs, du coup aussi pour faire le l‘intelligence artificielle.<br/>
 +
À côté de cette problématique de raréfaction des terres rares, il y a une aussi une problématique énergétique liée au numérique, qui consomme 10 % de l’énergie mondiale et 20 % en 2025.
 +
 +
Pourquoi je vous parle de ça ? C’est qu’en fait le numérique a aussi un impact sur la santé puisqu’il est générateur de pollution parce qu’il consomme de l’énergie. Tout ça s’intercale.
 +
 +
Évidemment que l’intelligence artificielle, l’idée de centraliser les données, de traiter les données de santé, c’est d’essayer d’améliorer la santé des personnes pour mieux les traiter, mieux prévenir leurs maladies. Mais la preuve scientifique de l’intérêt de l’intelligence artificielle, des réseaux de neurones, reste à démontrer et aussi l’intelligence artificielle, comme elle est consommatrice d’énergie, elle a des impacts néfastes aussi sur l’environnement donc aussi sur les humains, le monde.
 +
 +
Il faut réussir à essayer de traiter cette définition, qui est la définition de la santé selon l’OMS, « un état de complet bien-être physique, mental, social et pas seulement l’absence de maladie ». Je pense que c’est aussi c’est le rôle d’un ingénieur, surtout s’il traite dans le domaine de la santé, d’avoir la vision d’ensemble, ou tenter d’avoir la vision d’ensemble, de voir, peut-être, les bénéfices de l’algo qu’il développe et aussi les risques sur les données, sur l’utilisation des données et aussi sur l’environnement des outils qu’il développe.
 +
 +
[Applaudissements]
 +
 +
===Échanges avec le public===
 +
 +
<b>Claire : </b>Avant de commencer un échange avec vous, j’imagine que vous avez sûrement des questions, on va revenir un petit peu sur la raison d’être d’InterHop, on va sûrement revenir sur des points que vous abordez sur la juridiction mais aussi sur des failles techniques. On va voir aussi au-delà de ces failles juridiques et techniques, ça peut être un modèle de santé qui est celui français qui est basé sur la solidarité. Vous nous expliquerez peut-être aussi comment on fait autrement, parce qu’en tant que développeurs c’est peut-être aussi ce qu’on a envie de faire.
 +
 +
Dans vos combats vous avez beaucoup lutté contre le Health Data Hub et aussi contre le partenariat entre Doctolib et l’État français. Le principal argument qui revenait c’était l’hébergement. Déjà pourquoi est-ce un problème de tout centraliser, peut-être déjà d’un point de vue juridique ?
 +
 +
<b>Adrien Parrot : </b>En effet, avec l’avocate Juliette Alibert qui devait être là, nous sommes allés deux fois au Conseil d’État. La première fois on a attaqué en effet le Health Data Hub.<br/>
 +
À partir du moment où c’est partiellement remboursé, les données vont au Health Data Hub : le médecin généraliste, le laboratoire, les imageries, les hôpitaux, le kyné, toutes ces données de santé vont au Health Data Hub, c’est donc vraiment un volume de données absolument majeur.
 +
 +
<b>Public : </b>À quoi correspond le Dossier Médical Partagé par rapport au Health Data Hub ?
 +
 +
<b>Adrien Parrot : </b>Le Health Data Hub c’est le volet recherche. Le Dossier Médical Partagé c’est pour faire du soin, c’est de la santé.
 +
 +
<b>Public : </b>Et tout est consolidé du coup ?
 +
 +
<b>Adrien Parrot : </b>Récemment il y a eu une extension du Dossier Médical Partagé , ça a changé de nom, maintenant c’est Mon espace santé, en gros ça a gonflé. La grosse différence c’est déjà que dans le DMP ce sont des données personnelles directement identifiantes, alors que dans le Health Data Hub ce sont des données pseudonymisées et la finalité, l’objectif du recueil des données est différent puisque un c’est pour faire de la recherche et l’autre c’est pour faire les soins.<br/>
 +
Pour l’instant l’ancien DMP, Mon espace santé, les données ne sont pas envoyées dans le Health Data Hub, mais à terme toutes les données de santé doivent aller au Health Data Hub, à mon sens elles vont y aller, mais actuellement ce n’est pas le cas.
 +
 +
Donc on a attaqué le Health Data Hub puis, après, la campagne de vaccination. La campagne de vaccination a été grandement aidée par Doctolib et les données de Doctolib sont hébergées par AWS, Amazon Web Services. Donc pour les mêmes motifs – mêmes causes, mêmes conséquences – on a aussi attaqué la campagne de vaccination, pas Doctolib, l’État qui choisit Doctolib qui est Amazon.<br/>
 +
C’est en effet toujours le même argument, c’est le risque qui est pointé par la CNIL, donc par le régulateur français qui veille à l’application le RGPD, le Règlement européen sur la protection des données en France, qui dit que les données peuvent être accédées, que les données ne sont pas protégées sur des serveurs sous juridiction américaine. C’est vraiment ça le cœur de l’attaque. Vous avez peut-être vu que récemment la CNIL a émis un avis négatif face aux Google Analytics. Ce sont exactement les mêmes problématiques, c’est parce que les Google Analytics sont hébergés chez Google et qu’on peut accéder aux données via les États-Unis sans que les utilisateurs soient au courant.
 +
 +
<b>Claire : </b>Alors que ce n’est pas le cas en Europe du coup ? Il y a une différence de juridiction entre les deux.
 +
 +
<b>Adrien Parrot : </b>Oui. En Europe je ne peux pas certifier qu’il y a zéro accès par les services de renseignement, clairement, par contre il y a un cadre juridique, c’est un cadre exceptionnel. Ce qui a fait arrêter les échanges de données entre l’Union européenne et les États-Unis et a fait la décision de la Cour de justice de l’Union européenne c’est le caractère exorbitant et sans limitation de l’accès aux données. Le RGPD dit d’ailleurs qu’il peut y avoir des accès aux données, mais que ces accès aux données doivent être limités, sous condition, ce qui n’est pas le cas.
 +
 +
<b>Claire : </b>On voit donc juridiquement, que le cadre est peut-être plus laxiste aux États-Unis, mais du coup techniquement ? Dans vos réquisitoires, je ne sais comment on appelle ça, au Conseil d’État vous arguez aussi du fait que techniquement il y a un problème à la centralisation. Naïvement on pourrait se dire que c’est pratique, tout est au même endroit, on sécurise bien tout dans un coffre-fort, c’est vachement plus facile et, en fait, vous dites « non c’est l’inverse ». Pourquoi, techniquement, c’est compliqué de tout centraliser ?
 +
 +
<b>Adrien Parrot : </b>En fait ça dépend de la perspective. On ne remet pas en cause la qualité des outils américains contre un assaillant externe. C’est sûr que d’essayer de rentrer par l’extérieur dans un serveur Microsoft, même s’il y a quand même beaucoup de failles, il y en a régulièrement, mais il y a aussi des ingés, beaucoup d’ingés qui travaillent pour que les outils Amazon, les <em>clouds</em> des Américains soient protégés de l’extérieur. Ils ont quand même un niveau de sécurité qui est important.<br/>
 +
La grosse problématique, ce qui peut très facilement se passer c’est que les services de renseignement ont juste à aller voir Microsoft et lui dire « vous nous filez un accès à votre machine » et, du coup, ils peuvent récupérer les données directement. En fait c’est un accès root SSH classique, on se connecte et, si on a la clé, on rentre. Ce ne sont même pas des accès non voulus. Et Microsoft, en l’occurrence, est obligé de le faire. Ce qui est aussi dans le texte FISA, le texte américain que j’ai mentionné, ils doivent le faire sans que la qualité de leurs services soit impactée, ils sont obligés de faire ça. C’est un accès root.
 +
 +
<b>Public : </b>Du coup, vis-vis du Health Data Hub, c’est bien Microsoft qui hébergera les données, comme tu l’as dit ?
 +
 +
<b>Adrien Parrot : </b>Actuellement c’est Microsoft Azure qui héberge.
 +
 +
<b>Public : </b>Du coup comment l’État français qui doit chercher à défendre ses intérêts, peut décider de placer les données de la population dans les mains des Américains ? Comment en sont-ils arrivés à prendre cette décision ? Ce sont quand même les données de chez eux ! D’accord nous sommes amis avec les États-Unis d’Amérique, mais c'est quand même étrange qu’il place autant de données chez Américains, c’est bizarre ! Vous savez comment ils en sont arrivés à cette conclusion ? Quels sont leurs arguments ? Ou pas ?
 +
 +
<b>Claire : </b>Je crois qu’il n’y a pas eu d’appel d’offres et que ça fait aussi partie des problèmes que vous avez soulevés.
 +
 +
<b>Adrien Parrot : </b>La conférence est enregistrée ! Il n’y a pas eu d’appel d’offres, en effet. Ce qui est sûr c’est que l’AP-HP, les hôpitaux de Paris ont été partie prenante initialement dans les missions de préfiguration du Health Data Hub, je parle de l’AP-HP, mais sûrement d’autres hôpitaux, je l’ai vu de l’intérieur. On a proposé au Health Data Hub de filer le code qu’on avait fait pour qu’ils puissent faire leur entrepôt, l’améliorer, qu’on co-travaille ensemble. Le directeur de l’AP-PH a même proposé de filer des serveurs de l’AP-HP pour que le truc soit lancé.<br/>
 +
Après pourquoi c’est allé dans une autre direction ? Déjà il y a beaucoup d’habitudes. En ce moment les cabinets de conseil font un peu scandale. L’État est conseillé par des cabinets de conseil qui sont parfois, on va dire, américains. Et ces cabinets de conseil, même quand ils sont européens, ont l’habitude d’utiliser des technos américaines, donc il y a aussi cette habitude.<br/>
 +
En effet c’est malheureux, il y avait des alternatives.
 +
 +
==28’ 58==
 +
 +
<b>Public : </b>Est-ce que ce n’est pas aussi une question de coût

Version du 1 novembre 2022 à 17:58


Titre : Faut-il confier les radios de mamie à Microsoft et Doctolib ?

Intervenant·e·s : Adrien Parrot

Lieu : Paris - Association 42l

Date : 23 mars 2022

Durée : 1 h 12 min 39

Vidéo

Licence de la transcription : Verbatim

Illustration : À prévoir

NB : transcription réalisée par nos soins, fidèle aux propos des intervenant·e·s, mais rendant le discours fluide.
Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas nécessairement celles de l'April, qui ne sera en aucun cas tenue responsable de leurs propos.

Transcrit MO

Description

L’association 42l a le plaisir de recevoir Adrien Parrot, médecin et ancien étudiant de 42, membre de l'association InterHop.

En 2018, l’État français souhaite lancer le projet Health Data Hub. Le but ? Rassembler les données des français·e·s au sein d’une même plateforme afin de mener des études et d’aider la recherche. Mais il y a un petit bémol, ou plutôt deux : en plus de centraliser au même endroit beaucoup de données sensibles, c’est à Microsoft que l’hébergement de ces données va être confié.

2018, c'est aussi l'année où Adrien Parrot, alors étudiant en médecine et à 42, travaille dans des entrepôts de données des hôpitaux de Paris. Il commence à se poser des questions sur ce que cette hypercentralisation des données voudrait vraiment dire.

Inquiet des dérives possibles, il fonde l'association InterHop avec des professionnels de santé, des avocat·e·s et ingénieur·e·s. Pourquoi confier les radios de mamie à des géants du numérique n'est pas si anodin ? Quels sont les problèmes techniques et juridiques que cela peut poser ? Quel rôle devons-nous jouer en tant que citoyen·nes et developpeur·euses ?

A l'origine de recours en justice contre ce projet, l'association InterHop viendra nous parler des enjeux autour du numérique et nos données de santé, et de comment mieux les protéger d'un point de vue technique et juridique.

Transcription

Claire : Bonjour à tous. Désolée de vous interrompre, c’est un peu brutal.
On est super contents de vous retrouver pour cette nouvelle conférence parce que ça fait trois mois qu’on n’a pas eu d’invité. On est super contents de recevoir aujourd’hui Adrien Parrot qui, en plus d’être médecin anesthésiste et ingénieur, est aussi un alumni de 42. Il a été scolarisé – si on peut dire scolarisé pour l’école 42 – ici entre 2016 et 2019. Il est médecin anesthésiste et il travaille aujourd’hui à Saint-Malo en tant qu’anesthésiste. En 2019 il a aussi fondé l’association InterHop qui regroupe des professionnels de santé, des avocats, des ingénieurs et qui est là, finalement, pour défendre les patients et leurs données contre des entreprises comme le Health Data Hub qui est une entreprise de centralisation des données de santé par l’État français ou encore contre le partenariat entre Doctolib et l’État français, donc, en fait, tout ce qui va toucher une centralisation de nos données de santé.
Il a une petite présentation où il va peut-être revenir un petit peu sur son parcours et sur les enjeux qu’il défend.
Je te laisse la parole.

Adrien Parrot : Rapidement l’intelligence artificielle. À la suite de 42, j’ai été à l’entrepôt des données de santé des hôpitaux de Paris qui est lieu où tous les systèmes d’information de l’AP-HP, les hôpitaux de Paris, sont récupérés pour pouvoir faire de l’intelligence artificielle, qui est simplement une classe d’algorithmes qui simulent l’intelligence humaine.

Qu’est-ce que l’intelligence humaine ? Si nous définissons, c’est quelque chose qui est très vaste.

L’intelligence artificielle

L’intelligence artificielle a évolué au cours des 70 dernières années avec le deep learning et les réseaux neurones, par exemple avec Yann Le Cun, l’imagerie NLP [Natural Language Processin], le traitement du texte ; c’est l’intelligence artificielle mais c’est une des modalités d’intelligence artificielle qui sont relativement récentes.

À côté il y a le machine learning et les systèmes experts, par exemple une forêt d’arbres qui décrit un parcours de connaissance c’est aussi de l’intelligence artificielle et c’est quelque chose qui date des années 50, pour le coup on a du recul sur ça.

En santé, la démarche scientifique c’est de se poser une question, normalement, d’émettre une hypothèse et, à la suite de ça, de recueillir des données pour tester cette hypothèse. Ça s’appelle de la déduction : on émet une hypothèse, quelque chose de général, et on tente de valider l’hypothèse dans un contexte particulier avec des données.
Le problème de l’intelligence artificielle c’est qu’elle renverse la démarche et, en tant qu’ingé, ça nous semble évident, on a l’impression que les données que l’on traite sont objectives et que, des données, on peut partir sur le général : à partir des données qu’on récolte qu’il y a par exemple dans l’entrepôt de données de santé, on peut émettre des théories générales sur la physiologie de telle on telle maladie, alors que finalement on recueille juste des données en rapport avec cette maladie, mais qui n’émettent pas de loi générale médicale ou scientifique, en général justement.

Là ça s’appelle l’induction. Induction rime avec corrélation. La problématique de l’induction : on fait des liens entre des variables, entre des données, et on peut arriver à des conclusions fallacieuses comme une corrélation entre les divorces dans un département aux États-Unis et la consommation de beurre ou de margarine, ce qui, évidemment, ne veut pas dire grand-chose. On ne peut pas émettre une théorie scientifique à partir de ça, on s’en rend très vite compte.

Les dérives de ça c’est aussi sur l’intelligence artificielle. On se dit que plus on va recueillir de données, meilleure va être l’intelligence artificielle, meilleure va être la prédiction de telle ou telle maladie ; plus on va montrer de photos de chats à une IA, meilleure sera l’IA pour reconnaître des chats versus des chiens. Là c’est l’IA de Microsoft qui disait : « Plus chattez avec Tay, plus elle est intelligente. » Elle a été brutalement arrêtée, parce qu’elle commençait à dire que Hitler était quelqu’un de bien. En fait elle apprend juste des données et si on lui balance de la merde, elle va écrire ce genre de chose.

Code is Law

On arrive sur cette théorie qui a été écrite par monsieur Lessig, un chercheur américain, sur la puissance du code, donc que maintenant « le code fait la loi ». Ça fait écho par exemple à Twitter qui a brutalement supprimé le compte de Donald Trump, qui avait quand même 88 millions d’abonnés. En même temps on peut se dire que c’est finalement légitime de supprimer le compte de quelqu’un qui fait n’importe quoi, mais qui peut décider ça ?, selon quel processus ? Normalement il y a une justice, des juges, des avocats, des contradicteurs. Là c’est de façon unilatérale : Twitter décide de supprimer le compte de Donald Trump, pour le bien ou pas, en tout cas il n’y a pas eu de jugement.

Finalement ça se renverse presque.
Ça ce sont les conditions générales de Lime, ce sont des trottinettes électroniques, et dans les conditions générales de Lime les données peuvent être utilisées comme le site veut. Vous avez donc toutes vos données de transport qui sont réutilisées librement par l’entreprise.

En fait les choses se renversent presque. Alors que le code faisait la loi, dans une certaine mesure aussi la loi est écrite dans le code et ça fait écho à plusieurs textes, je voulais vous en citer deux : le RGPD, le Règlement européen sur la protection des données, qui impose toute une série de mesures pour protéger les données des Européens, qui s’impose donc aussi aux codeurs. Le codeur a une influence sur la vie, a un rôle politique dans la cité : en codant il va faire des cut-off, il va y avoir des variables, des choix que le développeur fait et, finalement, les textes européens s’imposent aussi au codeur en retour. Il y a une sorte de dualité comme ça.

Ce règlement européen s’oppose notamment, à mon sens, à plusieurs textes étasuniens, comme le FISA, le Foreign Intelligence Surveillance Act et d’autres textes, le CLOUD Act, le PATRIOT Act, plein de textes américains qui, en fait, ont la problématique d’avoir une portée extraterritoriale, c’est-à-dire que les textes américains s’appliquent aussi en Europe. Cette problématique est illustrée par ce jugement de la Cour de justice de l’Union européenne, c’est la plus haute cour de justice pour les Européens, qui dit que la législation américaine permet aux autorités publiques américaines d’avoir accès sans limitation aux données personnelles des Européens. À cause du FISA, les services de renseignement mais pas que, la NSA, le FBI entre autres, ont accès à toutes les données des Européens, même si ces données sont hébergées sur des serveurs européens, en fait la condition c’est du moment que les boîtes sont de juridiction américaine.
Ça veut dire qu’à partir du moment où vous mettez des données sur un serveur américain – ça peut être aussi chinois, on est plus souvent à l’Ouest qu’à l’Est en Europe – à partir du moment où vous mettez des données chez Google, Microsoft ou Amazon, vos données peuvent être utilisées sans limitation par les juridictions américaines.

Les services de renseignement français par exemple, on en reparlera peut-être juste après avec la DGSE, peuvent aussi accéder aux données de certains serveurs, évidemment qu’ils ont des accès, d’ailleurs peut-être qu’ils me contrediront. Ce qui différencie beaucoup c’est le « sans limitation ». En fait il n’y a pas de garde-fou aux États-Unis et c’est pour ça que la Cour de justice de l’Union européenne limite ça.

Tout ça fait écho au rôle du codeur, au rôle de l’ingénieur, au rôle du technicien qui, derrière, sait que les données sont chez Microsoft parce qu’il déploie des services sur AWS d’Amazon par exemple, donc au rôle, par exemple, de 42.

Data = Power

La problématique du code est aussi actuelle, mais ce sont des combats qui ont commencé dans les années 90/2000. Actuellement on a rajouté une autre couche qui est la problématique autour des données.

Ça c’est un environnement qui est quand même un peu chargé, tous les patients ne sont pas comme ça, d’anesthésie/réanimation.
Si on résume – et c’est un peu ça qui m’a motivé à faire 42 par exemple – il y a des données très variées, des données de scope, qui sont des signaux en continu, du respirateur, donc aussi des signaux mais pas que. On peut alimenter des patients, donc combien, comment, à quel débit ; on a des tensions artérielles, des perfusions, plus tout le dossier médical avec les antécédents, les allergies, tout le dossier. C’est donc une quantité de données très importante et la particularité de la réanimation c’est que ce sont même des signaux en continu, haute-fréquence.

La numérisation du monde, évidemment ce n’est pas que la réa, c’est de tout le monde

Pour résumer un peu, ce n’est pas moi qui l’ai inventé, « si c’est gratuit c’est vous le produit », il y a clairement de ça. C’est parce que vos données, les données sont réutilisées que Google fournit des services super qui sont gratuits.

En fait plus que celui qui code a le pouvoir, c’est celui qui stocke les données qui a le pouvoir. Donc où mettez-vous vos données, chez qui, selon quelle juridiction : est-ce que c’est OVH qui est une boîte européenne, française ou est-ce que c’est chez AWS ?

Pour résumer, les gens du numérique l’ont bien compris, 30 % de la R&D de Alphabet c’est pour la santé. Donc les données sont un enjeu et les données de santé aussi.

Anonymat ?

Quelques mots sur l’anonymat.
Snowden, un célèbre lanceur d’alerte, dit qu’il faut se préoccuper du droit à sa vie privée au même titre qu’on se préoccupe de la liberté d’expression ou de la liberté de la presse. Il fait le parallèle très facilement. En médecine c’est très clair, on ne se pose pas trop la question sur les données de santé, sur le secret médical. Si vous avez un Sida, un VIH, des hémorroïdes, vous n’avez pas envie que tout le monde le sache, évidemment.

Donc évolution du monde avec les données, la massification, le cloud des données.

Ça c’est une caricature dans The New Yorker qui date des années 90, je crois. Il disait que c’est pratique : « Sur l'Internet, personne ne sait qui tu es, donc que tu es un chien ». Dans les années 2010, la caricature évolue. Maintenant on sait qui est derrière l’ordinateur et l’anonymat n’existe presque plus.

Maintenant je vais demander à tous et toutes de lever la main. Que les hommes gardent la main levée, ceux qui s’identifient comme un homme, nés en 1989, en janvier 1989, et qui habitent à Vannes. J’habite à Saint-Malo maintenant.
Ça ça fait écho à un article de Nature, une grosse revue scientifique, où avec une, deux, trois, quatre, cinq, six, sept variables, on identifie dans un jeu de données, à 99 %, un individu. Le Health Data Hub, peut-être qu’on développera un peu, regroupe toutes les données de santé de tous les citoyens français. On est sûr qu’on a l’entièreté des citoyens et des citoyennes françaises, donc on peut les identifier à 99 %. Surtout qu’on n’est pas à sept variables au Heath Data Hub, on a des milliers de variables.

13’ 59

Entrepôts de données de santé

Un petit point sur les entrepôts de données.
C’est Aaron Swartz. Il n’a pas fait un entrepôt de données de santé. C’est quelqu’un qui a contribué à plusieurs initiatives open source dont les flux RSS, qui a beaucoup contribué à Wikipédia et qui a disparu, qui s’est suicidé après avoir tenté de libérer la revue scientifique mondiale JSTOR[Journal Storage] ; c’était un étudiant du MIT. The Internet's Own Boy est un super film sur lui.
Pourquoi je mentionne Aaron Swartz ? Ça c’est un schéma de l’architecture de l’entrepôt de données de l’AP-UH. Ce qui m’a beaucoup plu c’est qu’on reprenait un peu les principes d’Aaron Swartz : toutes les technologies qu’on utilise sont strictement open source, voire libres, donc on peut avoir accès librement au code.
Par exemple pour la base de données, il y a un concurrent qui s’appelle Oracle, qui est d’ailleurs américain, eh bien on utilise plutôt Postgres ; pour la recherche textuelle Solar ???, des technos de décentralisation, de redondance ; Spar ??? pour synchroniser ; des API standard en santé comme Fire et Jupiter qui est un environnement pour faire de la data science et évidemment des librairies Python ou R qui sont open source. En tout cas toutes les technos mentionnées ici sont strictement open source. L’idée de tout ça c’est de pouvoir faire du code à plusieurs et de partager dans différents centres, de ne pas faire dix fois le même boulot.

Après 42 j’ai travaillé pendant deux ans à l’entrepôt des données de santé des hôpitaux de Paris. On a vu arriver le Health Data Hub en 2019/2020. Le Health Data Hub s’est construit autour de Microsoft avec toutes les problématiques autour de la protection des données, de l’utilisation potentielle des données de santé par les services de renseignement américain. On a donc créé, avec l’ingénieur en chef de l’entrepôt, une asso qui s’appelle InterHop.

L’objectif d’InterHop c’est de faire un chaton, un peu au sens Framasoft. Un chaton c’est ce qu’est l’asso 42. Du coup ça promeut essentiellement, je ne sais pas si vous aussi, le logiciel open source, le logiciel libre et, pour nous, avec la particularité qu’on stocke des données de santé, donc il faut des certifications particulières pour les données de santé. En fait nous sommes un chaton HDS, hébergeur de données de santé, et on héberge des softs sur les serveurs HDS comme Toobib qui est un outil de prise de rendez-vous ou Goupile qui est un outil de recueil de données. On a des activités juridiques. Une avocate nous accompagne et fait des combats juridiques avec nous.

Pour finir, rien à voir ni avec 42, ni avec InterHop, mais ça rentre dans une définition vaste de la santé, c’est que les réserves en minéraux rares, mais pas que, diminuent, par exemple le cuivre. Pour le cuivre il y a 37 années de cuivre, l’or sept ans ; toutes les matières premières sont en train de se raréfier et beaucoup de ces matières premières sont utilisées par faire des serveurs, du coup aussi pour faire le l‘intelligence artificielle.
À côté de cette problématique de raréfaction des terres rares, il y a une aussi une problématique énergétique liée au numérique, qui consomme 10 % de l’énergie mondiale et 20 % en 2025.

Pourquoi je vous parle de ça ? C’est qu’en fait le numérique a aussi un impact sur la santé puisqu’il est générateur de pollution parce qu’il consomme de l’énergie. Tout ça s’intercale.

Évidemment que l’intelligence artificielle, l’idée de centraliser les données, de traiter les données de santé, c’est d’essayer d’améliorer la santé des personnes pour mieux les traiter, mieux prévenir leurs maladies. Mais la preuve scientifique de l’intérêt de l’intelligence artificielle, des réseaux de neurones, reste à démontrer et aussi l’intelligence artificielle, comme elle est consommatrice d’énergie, elle a des impacts néfastes aussi sur l’environnement donc aussi sur les humains, le monde.

Il faut réussir à essayer de traiter cette définition, qui est la définition de la santé selon l’OMS, « un état de complet bien-être physique, mental, social et pas seulement l’absence de maladie ». Je pense que c’est aussi c’est le rôle d’un ingénieur, surtout s’il traite dans le domaine de la santé, d’avoir la vision d’ensemble, ou tenter d’avoir la vision d’ensemble, de voir, peut-être, les bénéfices de l’algo qu’il développe et aussi les risques sur les données, sur l’utilisation des données et aussi sur l’environnement des outils qu’il développe.

[Applaudissements]

Échanges avec le public

Claire : Avant de commencer un échange avec vous, j’imagine que vous avez sûrement des questions, on va revenir un petit peu sur la raison d’être d’InterHop, on va sûrement revenir sur des points que vous abordez sur la juridiction mais aussi sur des failles techniques. On va voir aussi au-delà de ces failles juridiques et techniques, ça peut être un modèle de santé qui est celui français qui est basé sur la solidarité. Vous nous expliquerez peut-être aussi comment on fait autrement, parce qu’en tant que développeurs c’est peut-être aussi ce qu’on a envie de faire.

Dans vos combats vous avez beaucoup lutté contre le Health Data Hub et aussi contre le partenariat entre Doctolib et l’État français. Le principal argument qui revenait c’était l’hébergement. Déjà pourquoi est-ce un problème de tout centraliser, peut-être déjà d’un point de vue juridique ?

Adrien Parrot : En effet, avec l’avocate Juliette Alibert qui devait être là, nous sommes allés deux fois au Conseil d’État. La première fois on a attaqué en effet le Health Data Hub.
À partir du moment où c’est partiellement remboursé, les données vont au Health Data Hub : le médecin généraliste, le laboratoire, les imageries, les hôpitaux, le kyné, toutes ces données de santé vont au Health Data Hub, c’est donc vraiment un volume de données absolument majeur.

Public : À quoi correspond le Dossier Médical Partagé par rapport au Health Data Hub ?

Adrien Parrot : Le Health Data Hub c’est le volet recherche. Le Dossier Médical Partagé c’est pour faire du soin, c’est de la santé.

Public : Et tout est consolidé du coup ?

Adrien Parrot : Récemment il y a eu une extension du Dossier Médical Partagé , ça a changé de nom, maintenant c’est Mon espace santé, en gros ça a gonflé. La grosse différence c’est déjà que dans le DMP ce sont des données personnelles directement identifiantes, alors que dans le Health Data Hub ce sont des données pseudonymisées et la finalité, l’objectif du recueil des données est différent puisque un c’est pour faire de la recherche et l’autre c’est pour faire les soins.
Pour l’instant l’ancien DMP, Mon espace santé, les données ne sont pas envoyées dans le Health Data Hub, mais à terme toutes les données de santé doivent aller au Health Data Hub, à mon sens elles vont y aller, mais actuellement ce n’est pas le cas.

Donc on a attaqué le Health Data Hub puis, après, la campagne de vaccination. La campagne de vaccination a été grandement aidée par Doctolib et les données de Doctolib sont hébergées par AWS, Amazon Web Services. Donc pour les mêmes motifs – mêmes causes, mêmes conséquences – on a aussi attaqué la campagne de vaccination, pas Doctolib, l’État qui choisit Doctolib qui est Amazon.
C’est en effet toujours le même argument, c’est le risque qui est pointé par la CNIL, donc par le régulateur français qui veille à l’application le RGPD, le Règlement européen sur la protection des données en France, qui dit que les données peuvent être accédées, que les données ne sont pas protégées sur des serveurs sous juridiction américaine. C’est vraiment ça le cœur de l’attaque. Vous avez peut-être vu que récemment la CNIL a émis un avis négatif face aux Google Analytics. Ce sont exactement les mêmes problématiques, c’est parce que les Google Analytics sont hébergés chez Google et qu’on peut accéder aux données via les États-Unis sans que les utilisateurs soient au courant.

Claire : Alors que ce n’est pas le cas en Europe du coup ? Il y a une différence de juridiction entre les deux.

Adrien Parrot : Oui. En Europe je ne peux pas certifier qu’il y a zéro accès par les services de renseignement, clairement, par contre il y a un cadre juridique, c’est un cadre exceptionnel. Ce qui a fait arrêter les échanges de données entre l’Union européenne et les États-Unis et a fait la décision de la Cour de justice de l’Union européenne c’est le caractère exorbitant et sans limitation de l’accès aux données. Le RGPD dit d’ailleurs qu’il peut y avoir des accès aux données, mais que ces accès aux données doivent être limités, sous condition, ce qui n’est pas le cas.

Claire : On voit donc juridiquement, que le cadre est peut-être plus laxiste aux États-Unis, mais du coup techniquement ? Dans vos réquisitoires, je ne sais comment on appelle ça, au Conseil d’État vous arguez aussi du fait que techniquement il y a un problème à la centralisation. Naïvement on pourrait se dire que c’est pratique, tout est au même endroit, on sécurise bien tout dans un coffre-fort, c’est vachement plus facile et, en fait, vous dites « non c’est l’inverse ». Pourquoi, techniquement, c’est compliqué de tout centraliser ?

Adrien Parrot : En fait ça dépend de la perspective. On ne remet pas en cause la qualité des outils américains contre un assaillant externe. C’est sûr que d’essayer de rentrer par l’extérieur dans un serveur Microsoft, même s’il y a quand même beaucoup de failles, il y en a régulièrement, mais il y a aussi des ingés, beaucoup d’ingés qui travaillent pour que les outils Amazon, les clouds des Américains soient protégés de l’extérieur. Ils ont quand même un niveau de sécurité qui est important.
La grosse problématique, ce qui peut très facilement se passer c’est que les services de renseignement ont juste à aller voir Microsoft et lui dire « vous nous filez un accès à votre machine » et, du coup, ils peuvent récupérer les données directement. En fait c’est un accès root SSH classique, on se connecte et, si on a la clé, on rentre. Ce ne sont même pas des accès non voulus. Et Microsoft, en l’occurrence, est obligé de le faire. Ce qui est aussi dans le texte FISA, le texte américain que j’ai mentionné, ils doivent le faire sans que la qualité de leurs services soit impactée, ils sont obligés de faire ça. C’est un accès root.

Public : Du coup, vis-vis du Health Data Hub, c’est bien Microsoft qui hébergera les données, comme tu l’as dit ?

Adrien Parrot : Actuellement c’est Microsoft Azure qui héberge.

Public : Du coup comment l’État français qui doit chercher à défendre ses intérêts, peut décider de placer les données de la population dans les mains des Américains ? Comment en sont-ils arrivés à prendre cette décision ? Ce sont quand même les données de chez eux ! D’accord nous sommes amis avec les États-Unis d’Amérique, mais c'est quand même étrange qu’il place autant de données chez Américains, c’est bizarre ! Vous savez comment ils en sont arrivés à cette conclusion ? Quels sont leurs arguments ? Ou pas ?

Claire : Je crois qu’il n’y a pas eu d’appel d’offres et que ça fait aussi partie des problèmes que vous avez soulevés.

Adrien Parrot : La conférence est enregistrée ! Il n’y a pas eu d’appel d’offres, en effet. Ce qui est sûr c’est que l’AP-HP, les hôpitaux de Paris ont été partie prenante initialement dans les missions de préfiguration du Health Data Hub, je parle de l’AP-HP, mais sûrement d’autres hôpitaux, je l’ai vu de l’intérieur. On a proposé au Health Data Hub de filer le code qu’on avait fait pour qu’ils puissent faire leur entrepôt, l’améliorer, qu’on co-travaille ensemble. Le directeur de l’AP-PH a même proposé de filer des serveurs de l’AP-HP pour que le truc soit lancé.
Après pourquoi c’est allé dans une autre direction ? Déjà il y a beaucoup d’habitudes. En ce moment les cabinets de conseil font un peu scandale. L’État est conseillé par des cabinets de conseil qui sont parfois, on va dire, américains. Et ces cabinets de conseil, même quand ils sont européens, ont l’habitude d’utiliser des technos américaines, donc il y a aussi cette habitude.
En effet c’est malheureux, il y avait des alternatives.

28’ 58

Public : Est-ce que ce n’est pas aussi une question de coût