Faut-il confier les radios de mamie à Microsoft et Doctolib - Adrien Parrot

De April MediaWiki
Aller à la navigationAller à la recherche


Titre : Faut-il confier les radios de mamie à Microsoft et Doctolib ?

Intervenant·e·s : Adrien Parrot

Lieu : Paris - Association 42l

Date : 23 mars 2022

Durée : 1 h 12 min 39

Vidéo

Licence de la transcription : Verbatim

Illustration : À prévoir

NB : transcription réalisée par nos soins, fidèle aux propos des intervenant·e·s, mais rendant le discours fluide.
Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas nécessairement celles de l'April, qui ne sera en aucun cas tenue responsable de leurs propos.

Transcrit MO

Description

L’association 42l a le plaisir de recevoir Adrien Parrot, médecin et ancien étudiant de 42, membre de l'association InterHop.

En 2018, l’État français souhaite lancer le projet Health Data Hub. Le but ? Rassembler les données des français·e·s au sein d’une même plateforme afin de mener des études et d’aider la recherche. Mais il y a un petit bémol, ou plutôt deux : en plus de centraliser au même endroit beaucoup de données sensibles, c’est à Microsoft que l’hébergement de ces données va être confié.

2018, c'est aussi l'année où Adrien Parrot, alors étudiant en médecine et à 42, travaille dans des entrepôts de données des hôpitaux de Paris. Il commence à se poser des questions sur ce que cette hypercentralisation des données voudrait vraiment dire.

Inquiet des dérives possibles, il fonde l'association InterHop avec des professionnels de santé, des avocat·e·s et ingénieur·e·s. Pourquoi confier les radios de mamie à des géants du numérique n'est pas si anodin ? Quels sont les problèmes techniques et juridiques que cela peut poser ? Quel rôle devons-nous jouer en tant que citoyen·nes et developpeur·euses ?

A l'origine de recours en justice contre ce projet, l'association InterHop viendra nous parler des enjeux autour du numérique et nos données de santé, et de comment mieux les protéger d'un point de vue technique et juridique.

Transcription

Claire : Bonjour à tous. Désolée de vous interrompre, c’est un peu brutal.
On est super contents de vous retrouver pour cette nouvelle conférence parce que ça fait trois mois qu’on n’a pas eu d’invité. On est super contents de recevoir aujourd’hui Adrien Parrot qui, en plus d’être médecin anesthésiste et ingénieur, est aussi un alumni de 42. Il a été scolarisé – si on peut dire scolarisé pour l’école 42 – ici entre 2016 et 2019. Il est médecin anesthésiste et il travaille aujourd’hui à Saint-Malo en tant qu’anesthésiste. En 2019 il a aussi fondé l’association InterHop qui regroupe des professionnels de santé, des avocats, des ingénieurs et qui est là, finalement, pour défendre les patients et leurs données contre des entreprises comme le Health Data Hub qui est une entreprise de centralisation des données de santé par l’État français ou encore contre le partenariat entre Doctolib et l’État français, donc, en fait, tout ce qui va toucher une centralisation de nos données de santé.
Il a une petite présentation où il va peut-être revenir un petit peu sur son parcours et sur les enjeux qu’il défend.
Je te laisse la parole.

Adrien Parrot : Rapidement l’intelligence artificielle. À la suite de 42, j’ai été à l’entrepôt des données de santé des hôpitaux de Paris qui est lieu où tous les systèmes d’information de l’AP-HP, les hôpitaux de Paris, sont récupérés pour pouvoir faire de l’intelligence artificielle, qui est simplement une classe d’algorithmes qui simulent l’intelligence humaine.

Qu’est-ce que l’intelligence humaine ? Si nous définissons, c’est quelque chose qui est très vaste.

L’intelligence artificielle

L’intelligence artificielle a évolué au cours des 70 dernières années avec le deep learning et les réseaux neurones, par exemple avec Yann Le Cun, l’imagerie NLP [Natural Language Processin], le traitement du texte ; c’est l’intelligence artificielle mais c’est une des modalités d’intelligence artificielle qui sont relativement récentes.

À côté il y a le machine learning et les systèmes experts, par exemple une forêt d’arbres qui décrit un parcours de connaissance c’est aussi de l’intelligence artificielle et c’est quelque chose qui date des années 50, pour le coup on a du recul sur ça.

En santé, la démarche scientifique c’est de se poser une question, normalement, d’émettre une hypothèse et, à la suite de ça, de recueillir des données pour tester cette hypothèse. Ça s’appelle de la déduction : on émet une hypothèse, quelque chose de général, et on tente de valider l’hypothèse dans un contexte particulier avec des données.
Le problème de l’intelligence artificielle c’est qu’elle renverse la démarche et, en tant qu’ingé, ça nous semble évident, on a l’impression que les données que l’on traite sont objectives et que, des données, on peut partir sur le général : à partir des données qu’on récolte qu’il y a par exemple dans l’entrepôt de données de santé, on peut émettre des théories générales sur la physiologie de telle on telle maladie, alors que finalement on recueille juste des données en rapport avec cette maladie, mais qui n’émettent pas de loi générale médicale ou scientifique, en général justement.

Là ça s’appelle l’induction. Induction rime avec corrélation. La problématique de l’induction : on fait des liens entre des variables, entre des données, et on peut arriver à des conclusions fallacieuses comme une corrélation entre les divorces dans un département aux États-Unis et la consommation de beurre ou de margarine, ce qui, évidemment, ne veut pas dire grand-chose. On ne peut pas émettre une théorie scientifique à partir de ça, on s’en rend très vite compte.

Les dérives de ça c’est aussi sur l’intelligence artificielle. On se dit que plus on va recueillir de données, meilleure va être l’intelligence artificielle, meilleure va être la prédiction de telle ou telle maladie ; plus on va montrer de photos de chats à une IA, meilleure sera l’IA pour reconnaître des chats versus des chiens. Là c’est l’IA de Microsoft qui disait : « Plus chattez avec Tay, plus elle est intelligente. » Elle a été brutalement arrêtée, parce qu’elle commençait à dire que Hitler était quelqu’un de bien. En fait elle apprend juste des données et si on lui balance de la merde, elle va écrire ce genre de chose.

Code is Law

On arrive sur cette théorie qui a été écrite par monsieur Lessig, un chercheur américain, sur la puissance du code, donc que maintenant « le code fait la loi ». Ça fait écho par exemple à Twitter qui a brutalement supprimé le compte de Donald Trump, qui avait quand même 88 millions d’abonnés. En même temps on peut se dire que c’est finalement légitime de supprimer le compte de quelqu’un qui fait n’importe quoi, mais qui peut décider ça ?, selon quel processus ? Normalement il y a une justice, des juges, des avocats, des contradicteurs. Là c’est de façon unilatérale : Twitter décide de supprimer le compte de Donald Trump, pour le bien ou pas, en tout cas il n’y a pas eu de jugement.

Finalement ça se renverse presque.
Ça ce sont les conditions générales de Lime, ce sont des trottinettes électroniques, et dans les conditions générales de Lime les données peuvent être utilisées comme le site veut. Vous avez donc toutes vos données de transport qui sont réutilisées librement par l’entreprise.

En fait les choses se renversent presque. Alors que le code faisait la loi, dans une certaine mesure aussi la loi est écrite dans le code et ça fait écho à plusieurs textes, je voulais vous en citer deux : le RGPD, le Règlement européen sur la protection des données, qui impose toute une série de mesures pour protéger les données des Européens, qui s’impose donc aussi aux codeurs. Le codeur a une influence sur la vie, a un rôle politique dans la cité : en codant il va faire des cut-off, il va y avoir des variables, des choix que le développeur fait et, finalement, les textes européens s’imposent aussi au codeur en retour. Il y a une sorte de dualité comme ça.

Ce règlement européen s’oppose notamment, à mon sens, à plusieurs textes étasuniens, comme le FISA, le Foreign Intelligence Surveillance Act et d’autres textes, le CLOUD Act, le PATRIOT Act, plein de textes américains qui, en fait, ont la problématique d’avoir une portée extraterritoriale, c’est-à-dire que les textes américains s’appliquent aussi en Europe. Cette problématique est illustrée par ce jugement de la Cour de justice de l’Union européenne, c’est la plus haute cour de justice pour les Européens, qui dit que la législation américaine permet aux autorités publiques américaines d’avoir accès sans limitation aux données personnelles des Européens. À cause du FISA, les services de renseignement mais pas que, la NSA, le FBI entre autres, ont accès à toutes les données des Européens, même si ces données sont hébergées sur des serveurs européens, en fait la condition c’est du moment que les boîtes sont de juridiction américaine.
Ça veut dire qu’à partir du moment où vous mettez des données sur un serveur américain – ça peut être aussi chinois, on est plus souvent à l’Ouest qu’à l’Est en Europe – à partir du moment où vous mettez des données chez Google, Microsoft ou Amazon, vos données peuvent être utilisées sans limitation par les juridictions américaines.

Les services de renseignement français par exemple, on en reparlera peut-être juste après avec la DGSE, peuvent aussi accéder aux données de certains serveurs, évidemment qu’ils ont des accès, d’ailleurs peut-être qu’ils me contrediront. Ce qui différencie beaucoup c’est le « sans limitation ». En fait il n’y a pas de garde-fou aux États-Unis et c’est pour ça que la Cour de justice de l’Union européenne limite ça.

Tout ça fait écho au rôle du codeur, au rôle de l’ingénieur, au rôle du technicien qui, derrière, sait que les données sont chez Microsoft parce qu’il déploie des services sur AWS d’Amazon par exemple, donc au rôle, par exemple, de 42.

Data = Power

La problématique du code est aussi actuelle, mais ce sont des combats qui ont commencé dans les années 90/2000. Actuellement on a rajouté une autre couche qui est la problématique autour des données.

Ça c’est un environnement qui est quand même un peu chargé, tous les patients ne sont pas comme ça, d’anesthésie/réanimation.
Si on résume – et c’est un peu ça qui m’a motivé à faire 42 par exemple – il y a des données très variées, des données de scope, qui sont des signaux en continu, du respirateur, donc aussi des signaux mais pas que. On peut alimenter des patients, donc combien, comment, à quel débit ; on a des tensions artérielles, des perfusions, plus tout le dossier médical avec les antécédents, les allergies, tout le dossier. C’est donc une quantité de données très importante et la particularité de la réanimation c’est que ce sont même des signaux en continu, haute-fréquence.

La numérisation du monde, évidemment ce n’est pas que la réa, c’est de tout le monde

Pour résumer un peu, ce n’est pas moi qui l’ai inventé, « si c’est gratuit c’est vous le produit », il y a clairement de ça. C’est parce que vos données, les données sont réutilisées que Google fournit des services super qui sont gratuits.

En fait plus que celui qui code a le pouvoir, c’est celui qui stocke les données qui a le pouvoir. Donc où mettez-vous vos données, chez qui, selon quelle juridiction : est-ce que c’est OVH qui est une boîte européenne, française ou est-ce que c’est chez AWS ?

Pour résumer, les gens du numérique l’ont bien compris, 30 % de la R&D de Alphabet c’est pour la santé. Donc les données sont un enjeu et les données de santé aussi.

Anonymat ?

Quelques mots sur l’anonymat.
Snowden, un célèbre lanceur d’alerte, dit qu’il faut se préoccuper du droit à sa vie privée au même titre qu’on se préoccupe de la liberté d’expression ou de la liberté de la presse. Il fait le parallèle très facilement. En médecine c’est très clair, on ne se pose pas trop la question sur les données de santé, sur le secret médical. Si vous avez un Sida, un VIH, des hémorroïdes, vous n’avez pas envie que tout le monde le sache, évidemment.

Donc évolution du monde avec les données, la massification, le cloud des données.

Ça c’est une caricature dans The New Yorker qui date des années 90, je crois. Il disait que c’est pratique : « Sur l'Internet, personne ne sait qui tu es, donc que tu es un chien ». Dans les années 2010, la caricature évolue. Maintenant on sait qui est derrière l’ordinateur et l’anonymat n’existe presque plus.

Maintenant je vais demander à tous et toutes de lever la main. Que les hommes gardent la main levée, ceux qui s’identifient comme un homme, nés en 1989, en janvier 1989, et qui habitent à Vannes. J’habite à Saint-Malo maintenant.
Ça ça fait écho à un article de Nature, une grosse revue scientifique, où avec une, deux, trois, quatre, cinq, six, sept variables, on identifie dans un jeu de données, à 99 %, un individu. Le Health Data Hub, peut-être qu’on développera un peu, regroupe toutes les données de santé de tous les citoyens français. On est sûr qu’on a l’entièreté des citoyens et des citoyennes françaises, donc on peut les identifier à 99 %. Surtout qu’on n’est pas à sept variables au Heath Data Hub, on a des milliers de variables.

13’ 59