Éthique numérique, des datas sous serment - La méthode scientifique

De April MediaWiki
Aller à la navigationAller à la recherche


Titre : Éthique numérique, des datas sous serment

Intervenants : Frédéric Bardolle - Nozha Boujemaa - Nicolas Martin - Céline Loozen

Lieu : La méthode scientifique - France Culture

Date : 10 octobre 2018

Durée : 58 min 56

Écouter ou télécharger le podcast

Page de présentation de l'émission

Licence de la transcription : Verbatim

Illustration :

Statut :En cours de transcription par D_O

Description

Et si les développeurs et data scientists prêtaient serment, comme les médecins, pour une utilisation des données plus éthique ?

Transcription

[Début du générique]

Nicolas Martin : Dans le monde numérique qui est le nôtre, il est assez simple de penser qu'un algorithme et bien ce n'est qu'un programme, que foncièrement un programme est par essence neutre. Par exemple, quand je regarde une bande-annonce cinéma sur YouTube, bien à la fin YouTube m'en propose une autre et ainsi de suite et les vaches sont finalement assez bien gardées. Malheureusement, ce n'est pas toujours le cas et les conséquences des algorithmes auxquels nous sommes quotidiennement soumis sont tout sauf neutres. Or, nous n'avons aucun contrôle sur ces algorithmes et sur ces gens qui les programment. D'où cette question : Est-il temps d'imposer une éthique du numérique ?

[Suite du générique]

Nicolas Martin : Éthique numérique, des datas sous serment c'est le problème auquel nous allons nous atteler dans l'heure qui vient. Bienvenue dans La méthode scientifique.

[Fin du générique]

Nicolas Martin : Et pour décortiquer ce problème aux embranchements et aux conséquences fort complexes au moins aussi complexes que celle d'un algorithme, nous avons donc le plaisir de recevoir aujourd'hui : Nozha Boujemaa. Bonjour.

Nozha Boujemaa : Bonjour.

Nicolas Martin : Vous êtes directrice de recherche INRIA, directrice de l'institut DATAIA : institut de convergence français spécialisé en sciences des données, intelligence artificielle et société. Et bonjour Frédéric Bardolle.

Frédéric Bardolle : Bonjour.

Nicolas Martin : Vous êtes membre de l'association Data For Good et donc d'AlgoTransparency, une plateforme que vous avez développée et dont nous reparlerons tout à l'heure. Vous pouvez nous suivre comme chaque jour et bien en direct sur les ondes de France Culture, en différé, en podcast via votre application préférée et toujours à quelque moment que vous nous écoutiez, en complément via le fil Twitter de l'émission sur lequel nous allons poster un certain nombre de compléments d'information, d'articles, de graphiques qui vont venir éclairer ce qui va être dit au cours de cette heure et à ce micro. Alors pour commencer, et bien il y a une voix, une voix singulière qui s'est élevée pour réclamer une éthique numérique et dénoncer l'absence de transparence de la plupart des plateformes et des méthodes de programmation. C'est celle de Cathy O'Neil, elle est Américaine et mathématicienne. Je vous propose d'écouter un extrait de sa conférence TEDx qui date de l'an dernier.

2'40

Extrait du TEDx de Cathy O'Neil : Les algorithmes sont des opinions intégrées dans du code. C'est très différent de ce que les gens pensent des algorithmes. Ils pensent que les algorithmes sont objectifs, vrais et scientifiques. C'est une astuce marketing. C'en est une autre de vous intimider avec des algorithmes, de vous faire croire et craindre les algorithmes car vous croyez et craignez les mathématiques. Tout peut mal tourner quand on est une fois aveugle dans le Big data. Nous devons réclamer des comptes à nos souverains algorithmiques... L'ère de la confiance absolue dans le Big data doit prendre fin.

Nicolas Martin : Voilà, un extrait de ce TEDx de Cathy O'Neil. «L'ère de la confiance absolue dans le Big data doit prendre fin». Ça veut dire que il y a eu une ère de la confiance absolue dans le Big data Nozha Boujemaa?

Nozha Boujemaa : En fait, j'ai l'impression qu'on a survendu en fait les Big data et l'IA en disant que c'est objectif parce que c'est piloté par les données, c'est objectif parce que c'est algorithmique, parce que il y a de la modélisation donc c'est forcément objectif et c'est une baguette magique pour résoudre tout. Il y a eu des benchmarks de performance montrant que des algorithmes d'apprentissage étaient capables d'être plus performants en reconnaissance visuelle que l'oeil humain et à partir de là il y a eu je dirais entre guillemets «des envolées lyriques» sur les capacités de l'IA et des Big data pour tout tout faire, tout résoudre et donc je crois que justement, il faut démystifier et surtout revenir un peu sur terre quelque part. En fait, toute technologie a ses capacités, ses promesses et en fait ses réalités mais a également ses défauts et ses limites. Et ce dont on a beaucoup moins parlé ce sont les limites et je crois que il faut être ni techno-sceptique ni au contraire survendre l'IA, il faut avoir le juste équilibre et je crois que le efforts que nous sommes entrain de déployer à la fois dans le cadre de l'institut DATAIA mais aussi dans d'autres sphères internationales, européennes et aussi dans le cadre de l'OCDE, c'est avoir la juste mesure. Donc ne pas je dirais «faire confiance totale» là encore la question n'est pas la technologie très performante certainement c'est les gens qui l'utilisent et qui la déploient. C'est toujours les personnes qui sont derrière en fait.

Nicolas Martin : Qui sont devant ou derrière d'ailleurs dans un sens...

Nozha Boujemaa :Absolument.

Nicolas Martin : Ou dans l'autre. Alors on entendait, c'était intéressant cet extrait du TEDx de Cathy O'Neil parce qu'on entend tout de même quelque chose moi qui me surprend un peu. C'est assez récent ça date de l'année dernière, les travaux de Cathy O'Neil ont de deux trois ans, on est dans un champ qui on va le dire pour tout le long de cette heure, un champ très récent. Très récent à l'international et encore plus récent peut-être en France. On entend que finalement, le grand public aurait une sorte de confiance un peu aveugle en disant «Boh, les algorithmes, l'intelligence artificielle, ce qui m'est proposé, ces outils auxquels on m'a donné accès finalement je peux leur faire une sorte de confiance aveugle». J'ai plutôt le sentiment et je parle à titre tout à fait personnel, que la défiance est arrivée très très vite. Est-ce que il y a eu une sorte de phase de confiance aveugle vous pensez Frédéric Bardolle?

Frédéric Bardolle : Je ne pense pas. Il y a eu une espèce de période de foi, les gens avaient foi dans les algorithmes et ils l'ont encore en partie. Quand on a lancé le projet AlgoTransparency, l'idée c'était de montrer justement quelles étaient les recommandations faites par YouTube et vous le montrez justement, ces recommandations n'étaient pas neutres mais étaient orientées vers certaines vidéos, vers certains concepts,on en reparlera un peu plus tard.

Nicolas Martin : On en reparlera tout à l'heure oui.

Frédéric Bardolle : Mais quand on a commencé à parler de nos travaux, à les publier sur des plates-formes comme Facebook ou Twitter, les gens, les utilisateurs de YouTube nous ont répondu «Mais en fait vous vous êtes trompés, l'algorithme est neutre. Si il donne cette valeur-là, c'est parce qu'il a raison, c'est parce qu'il est programmé, il est neutre. Donc en fait, vous inventez une espèce de biais qui n'existe pas» et ça on l'a vu, concrètement on a vu des gens nous dire ça.

Nicolas Martin : Ça veut dire que il y a donc effectivement une ère de la confiance. Est-ce qu'aujourd'hui, il faut comme le dit Cathy O'Neil «passer à l'inverse, à la défiance»? Elle a cette phrase qui est très très forte, au début elle dit «L'algorithme c'est une opinion cachée dans du code». Est-ce que tout algorithme est nécessairement une opinion Nozha Boujemaa?

Nozha Boujemaa : Je confirme. Les algorithmes sont des opinions, enfin... Mon expression c'est «des opinions encapsulées dans du code» à travers les données d'apprentissage, à travers les données de paramétrage. Donc en fait, il y a toujours une opinion de celui qui a conçu ou le prescripteur en tout cas pour le développement de ces algorithmes. Maintenant ce qui est important, moi je dirais que c'est pas tant l'éthique c'est... Moi je dirais, je plaiderai davantage pour une IA de confiance, c'est différent en fait.

Nicolas Martin : Hm hm.

Nozha Boujemaa : Parce que ça inclut en fait, l'éthique est une partie de l'IA de confiance dans la mesure où je préfère parler de l'IA responsable. L'IA responsable c'est aussi... On peut se poser la question : Responsable dans quel référentiel et par rapport à quel référentiel? En fait on en a deux : conforme aux règles juridiques donc il y a la question de la responsabilité juridique mais aussi conforme aux valeurs éthiques. C'est-à-dire que la responsabilité inclut deux choses, effectivement c'est important d'intégrer ces deux dimensions dans l'IA responsable mais encore à l'IA de confiance je rajouterais l'IA robuste qui n'a nullement l'intention ni de nuire, ni d'occasionner je ne sais quel dégât sur les personnes et les sociétés. Mais des fois, on peut avoir des résultats différents et donc on peut croire à une discrimination qui n'en est pas une parce que celui qui a conçu l'algorithme n'a nullement l'intention de générer une discrimination. Mais tout simplement parce que son algorithme n'est pas reproductible : il est vulnérable, il subit des biais des données ou des algorithmes et en fait au final, c'est un manque de maîtrise technologique dans le déploiement de ces technos.

15'00

Nicolas Martin : On est tout de même arrivés aujourd'hui dans une ère de la mise en garde on va dire. C'est-à-dire au niveau institutionnel avec le déploiement du RGPD [Règlement Général sur la Protection des Données] mais même plus généralement dans le discours public. On entend souvent des gens alerter contre les biais dans les moteurs de recherche, les biais dans les réseaux sociaux pour parler des biais peut-être les plus apparents alors évidemment sur YouTube également. Est-ce que vous avez le sentiment qu'on est peut-être plus à l'heure de la confiance, pas encore tout à fait à l'heure du doute mais en tout cas peut-être dans une sorte d'ère de l'indifférence finalement. L'utilisateur final de l'interface, il s'en moque un peu.

Frédéric Bardolle : Finalement, les utilisateurs sont contents parce que ils ont ce qu'ils veulent. En fait, l'algorithme est vraiment conçu que pour ça : pour leur donner ce qu'ils veulent. Le problème c'est que ce qu'ils veulent, c'estpas forcément ce qui est le mieux pour eux. On a une métaphore un petit peu là-dessus c'est : imaginons que ce soit un algorithme qui fasse le menu à la cantine de nos enfants. Et un algorithme d'apprentissage automatique. Donc qui va s'apercevoir que les enfants aiment bien manger sucré-salé et que ça leur permet de finir plus rapidement de finir leurs assiettes. Au final si on entraîne cet algorithme avec des données de cantine d'enfants, il va finir par donner que les pires aliments qui existent, que les aliments les plus sucrés, les plus salés enfin vraiment les pires.

Nicolas Martin : Des frites au ketchup.

Frédéric Bardolle : C'est ça exactement. (rires) Et c'est ça le problème que souvent on entend des gens nous dire «Oui mais finalement, ces algorithmes ne font que donner aux gens ce qu'ils veulent». Mais ils font plus que ça. C'est-à-dire qu'ils vont nous fournir des choses qui ne sont pas les côtés les plus reluisants de l'humanité. Tout ça pour qu'on passe du temps en fait. Ce qu'on essaye... Ces algorithmes ont tous quelque chose à maximiser et ce que les plates-formes essaient de maximiser c'est le temps passé, c'est l'attention qu'on consacre à leurs plates-formes. C'est pas le bonheur de l'utilisateur, c'est pas son bien-être. C'est cette attention. Et pour maximiser cette attention, il faut des contenus additifs et c'est ça le danger.

Nicolas Martin : Sur ce sujet-là Nozha Boujemaa ?

Nozha Boujemaa : Oui. Donc là c'est le cas d'usage. YouTube effectivement qui maximise le temps de passage devant l'écran.

Nicolas Martin : YouTube mais c'est aussi vrai pour Facebook... Non pas tout à fait de la même façon?

Nohza Boujemaa : En fait pour les modèles d'affaires, pour les business models qui tendent à maximiser le temps de présence pour vendre plus de publicité. Pour tous les services gratuits c'est le cas, qui sont basés sur des modèles de publicité. Maintenant, je dirais que ça dépend énormément. C'est-à-dire que dans certains moteurs de recommandation, c'est pas forcément pour vous garder captif, ça peut aussi vous proposer, vous faire des recommandations pour déstocker. D'accord? C'est pour ça que je disais, ça dépend des cas d'usage, on peut vous recommander effectivement des biens ou des services qui ne sont pas forcément les plus personnalisés en fonction de votre parcours sur une certaine plate-forme mais pour les intérêts, c'est pour ça qu'on revient au point. C'est des opinions capsulées qui maximisent le profit de ceux qui mettent au service en fait, en service ces services numériques. Et au final, les services numériques maximisent l'intérêt de ceux qui les produisent. Enfin... Voilà.

Nicolas Martin : Il y a quelque chose, un point de vue que je veux vous soumettre et que j'aime assez bien parce que je trouve qu'il est assez représentatif effectivement pour répondre à cet argument de «Finalement la publicité ciblée, ça m'arrange plutôt puisqu'on me propose plutôt des choses que j'ai envie d'acheter que d'autres choses qui ne m'intéressent pas». C'est Antoinette Rouvroy qui est venue plusieurs fois à ce micro et qui disait «Le problème, c'est qu'à force de vous soumettre de la publicité ciblée, des choix ciblés et bien ça va transformer une décision d'achat». Je me connecte sur internet parce qu'à un moment donné je décide d'aller faire des courses pour acheter quelque chose dont j'ai besoin, en une pulsion d'achat. C'est-à-dire que d'un seul coup ça détruit la décision et ça rend la décision strictement pulsionnelle. Et là effectivement, j'ai l'impression que avec cet exemple-là, on touche du doigt un effet qui est nettement un effet pervers Frédéric Bardolle.

Frédéric Bardolle : Alors oui et même pour aller plus loin, un des problèmes sur les algorithmes en particulier les algorithmes d'apprentissage automatique puisque ce sont ceux dont on parle finalement. Il y a beaucoup d'algorithmes. En calcul le Pi, ça utilise un algorithme mais là voilà on parle surtout des algorithmes d'apprentissage automatique, machine learning. Le problème c'est que par essence ils sont conservateurs. C'est-à-dire que : ils ont été entraînés avec des données qui ont été mesurées sur des gens, sur vous sur peut-être d'autres gens mais en fait ils reflètent finalement seulement le passé, seulement la société tel qu'elle a pu exister, seulement votre comportement passé et elle vous dit «Bah vous êtes finalement tout le temps la même personne, tout le temps pareille et on va reproposer toujours la même chose». Un exemple concret par rapport à ça : c'est que pour faire de la traduction automatique, Google Traduction et d'autres, utilisent par exemple des textes qui sont à la fois en Français et en Anglais et ils essaient de les calquer. Ce qui se passe, c'est que à cause de ça, quand on essaie de traduire des termes qui n'ont pas de genre en Anglais par exemple "A nurse" ou "A doctor" donc pour parler d'infirmier/infirmière ou docteur mais docteur au féminin et bien on a toujours "A doctor" c'est un docteur au masculin et "A nurse" c'est une infirmière au féminin. Et ça en fait, ça n'a pas de sens linguistique. C'est juste parce que l'algorithme a vu des milliers d'exemples de cette catégorie-là et a dit «Bah c'est ça la réalité». Donc, ils sont conservateurs par un sens.

Nozha Boujemaa : Ça, c'est le manque de représentativité des données d'apprentissage qui fait partie des biais. J'aimerais bien qu'on fasse la différence entre les biais technique...

Nicolas Martin : Bien sûr... Oui oui oui...

Nozha Boujemaa : Et... Voilà.

Nicolas Martin : Entre les biais technique et ?

Nozha Boujemaa : En fait, il y a le côté intention de ne pas bien faire les choses ou de ne pas forcément faire les choses dans l'intérêt du consommateur du service mais dans l'intérêt du producteur du service. Et c'est de bonne guerre en fait. Donc on ne peut pas reprocher à celui qui produit un service de ne pas servir ses intérêts. Je dirais que ça c'est... Par contre, c'est à ceux qui consomment les services d'une manière générale qu'ils soient citoyens, qu'ils soient professionnels donc là je considère pas seulement le B2C mais le B2B aussi, que ce soit les gouvernements quand ils sont clients de services numériques et bien de se prémunir des outils qui leur permettent justement de ne pas être je dirais... Je ne vais pas utiliser le mot «proie facile»...

Frédéric Bardolle : Mais à la merci en tout cas.

Nozha Boujemaa : Mais en tout cas de savoir... Oui à la merci. De savoir de quoi et comment ils vont être calculés. En fait il y a un principe essentiel qui est remis en cause dans ces choses-là, c'est quand même le libre arbitre. D'accord ?

Nicolas Martin : C'est ce que j'évoquais quand on passe de la décision d'achat à la pulsion. On renonce d'une certaine façon à une forme de libre arbitre.

Nozha Boujemaa : Il y a le côté pulsion mais il y a le côté aussi je dirais peut-être même une consommation dans l'inconscience «heureuse» entre guillemets. C'est-à-dire qu'on me propose, ça me va, j'y vais, je clique, enfin voilà. Et il y a comme un problème parce que quelques fois, on ne se pose plus, on se pose même plus la question en fait. Et c'est la difficulté outre les bulles filtrantes qu'on a évoquées sans les nommer tout à l'heure mais c'est aussi le libre arbitre et la liberté humaine. Pour aussi rebondir sur le fait que ces algorithmes apprennent du passé, c'est-à-dire ça enferme, le prédictif enferme dans un déterminisme qui n'a pas lieu d'être parce que l'humain c'est quand-même sa capacité première c'est d'être libre et d'être imprévisible. D'accord ? Et ça les algorithmes d'aujourd'hui... C'est pour ça que le développement du coeur de l'IA n'est pas fini, l'IA faible aujourd'hui ne sait faire que ça.

[Jingle]

Voix off : La méthode scientifique, Nicolas Martin.

Nicolas Martin : Et 16h15 sur France Culture. Nous parlons d'éthique numérique tout au long de cette heure et de savoir à quel moment il faut justement remettre une notion d'éthique dans la science des données, dans le data scientism si on doit le dire en Anglais. Nous en parlons avec Nozha Boujemaa et Frédéric Bardolle tout au long de cette heure. Alors, on a parlé un peu de ces effets pervers, de ces biais des algorithmes qu'ils soient effectivement techniques ou volontaires ou intentionnels. J'aimerais peut-être qu'on prenne et qu'on parte d'un exemple très très concret que vous avons presque sous les yeux tous de façon régulière c'est l'exemple de YouTube. Finalement comme je le disais dans la présentation de cette émission, quoi de plus inoffensif après tout que de laisser le site décider de quelle vidéo vous allez regarder après avoir vu je ne sais pas : un clip, une bande-annonce vidéo, une conférence peu importe. Vous savez il y a une fonction de lecture automatique et donc tout de suite après va arriver une deuxième vidéo que vous n'aurez pas choisie. Tout cela a l'air finalement très innocent mais évidemment ça l'est beaucoup moins que ce que l'on imagine. Bonjour Céline Loozen !

Céline Loozen : Bonjour Nicolas, bonjour à tous !

Nicolas Martin : Donc si on me propose une vidéo de requins après une vidéo de chatons extrêmement mignons ?

Céline Loozen : Je dois en conclure quelque de très mauvais au niveau de votre psychologie peut-être.

Nicolas Martin : (Rires)Ou en tout cas de mes pratiques internet. Plus sérieusement, vous êtes justement allée dans l'association de Frédéric Bardolle chez Data For Good pour comprendre comment ils travaillent sur cette question de l'algorithme de YouTube

Céline Loozen : Ouais l'algorithme de YouTube fonctionne par suggestions pour amener à regarder plus de vidéos, pour passer plus de temps sur le plate-forme. Le problème, c'est qu'il n'est pas public entre autres pour des raisons de secret industriel. Alors c'est un problème car on reproche à YouTube : son manque de neutralité, l'incitation à consulter des vidéos aux sujets clivants et aussi de nous enfermer dans des bulles filtrantes selon nos consommations un peu comme sur Facebook. Le projet AlgoTransparency tente d'étudier ce fonctionnement opaque et ils ont publié une charte pour inciter les ingénieurs de YouTube à adhérer à plus d'éthique. Pour le cas de YouTube en l'occurrence, l'algorithme est secret et je suis allée voir Soline Ledésert qui est cofondatrice de AlgoTransparency et elle a contribué aussi à la rédaction du Serment d'Hippocrate pour Data Scientist

[Musique de fond]

Soline Ledésert : La majeure partie des vidéos regardées sur YouTube viennent de recommandations. C'est-à-dire qu'une fois qu'on a tapé une requête, en fait on va suivre les recommandations de la colonne de droite. Parce qu'il faut savoir que les vidéos qui sont suggérées par YouTube sont suggérées par un algorithme et on ne connaît pas cet algorithme parce que ça enlève du secret industriel. Et ce qu'on a fait du coup, c'est qu'on a vu le résultat de ces algorithmes, les vidéos qui étaient suggérées et on a essayé de poser des questions publiquement sur pourquoi certaines étaient plus suggérées que d'autres.

Céline Loozen : Est-ce que vous pourriez présenter un peu le concept du site et voir ?

Soline Ledésert : OK donc il suffit d'aller sur algotransparency.org donc là vous voyez qu'on a crée différentes rubriques : Kids, World leaders, Science, Mass shootings, British elections. Donc par exemple si on va sur Science, on voit le top 100 vidéos des vidéos les plus recommandées par YouTube sur la requête «Est-ce que la terre est plate ou ronde ?». Donc il y a une vidéo qui est recommandée 9,7 fois plus que moyenne des vidéos recommandées par YouTube sur la question le 1er août 2018 qui est : A Stranger's Guide to Flat Earth | 21 Questions and Answers (Proving The Earth Is Flat). Donc on a visiblement faudrait quand même la regarder mais visiblement une vidéo qui prouverait que la terre est plate.

Céline Loozen : Comment vous fonctionnez pour pouvoir donner ces chiffres et mettre ces classements ?

Soline Ledésert : Alors en fait, on a crée un utilisateur. C'est comme si c'était un utilisateur qui venait de se créer un compte qu'on a crée sous forme de robot, c'est un programme et qui va faire des requêtes sur YouTube et regarder des vidéos. Et il regarde toujours la première vidéo qui sort de la recherche et ensuite, on lancait les six premières vidéos qui sont suggérées sur la colonne de droite. Et en fait à chaque fois, on jouait chacune de ces six vidéos et on récoltait les vidéos suivantes et ainsi de suite. Donc du coup, on se retrouvait avec on va dire entre 1000 et 2000 vidéos suggérées sur une requête et on regardait dans ces vidéos, le nombre de fois où une vidéo était plus recommandée que la moyenne. Et du coup on se disait «D'accord donc pour quelqu'un qui arrive sur YouTube et qui fait une recherche par exemple sur François Fillon, on va pouvoir voir que l'algorithme de YouTube va rediriger de vidéo en vidéo, va tendanciellement rediriger la personne qui a fait une requête sur François Fillon vers par exemple Mélenchon ou un autre candidat. Donc là nous on a eu une démarche assez pragmatique de se dire «OK quels contenus sont les plus suggérés par ces algorithmes ?». Une fois que ça c'est prouvé par exemple sur notre site, l'idée est d'aller plus loin et de lancer un débat public. C'est-à-dire : Est-ce qu'on veut des entreprises qui servent ceci ? Et on essaie de rendre visible le fait que il y a des différences d'attributs comme ça sur les contenus.

Céline Loozen : Et les ingénieurs de YouTube connaissent l'existence de vos activités ? Comment ils réagissent, comment ils se positionnent ?

Soline Ledésert : Disons que voilà il y a un peu ceux qui vont essayer d'améliorer le système au sein de ce cadre-là. Donc c'est de faire des algorithmes qui seront : plus égalitaires, plus neutres.Réinjecter de la diversité dans les contenus afin d'éviter la personnalisation etc. Donc nous il y a un autre projet qui est né de ce projet qu'on a appelé le Serment d'Hippocrate pour Data Scientist. C'est-à-dire que pendant qu'on a construit AlgoTransparency, parmi les solutions auxquelles on pensait, donc il y avait effectivement la régulation et on s'est dit «Bah il y aussi interpeller la conscience en fait de tous ces ingénieurs qui travaillent sur du machine learning et des algorithmes sur le même modèle du serment d'Hippocrate des les professionnels de la santé, on pourrait créer un sement d'Hippocrate des data scientists.