Éthique et données - Serge Abiteboul

Titre : Éthique et données

Intervenant : Serge Abiteboul

Lieu : Conférence-débat - Les enjeux scientifiques de l'éthique du numérique - Académie des sciences - Paris

Date : mai 2017

Durée : 29 min 28

Licence de la transcription : Verbatim

NB : transcription réalisée par nos soins. Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas forcément celles de l'April.

Statut : Transcrit MO

Transcription

Je ne vais pas avoir besoin de trop motiver parce que beaucoup a été dit, mais on va plutôt parler des données. Comme l’a dit Gilles [Dowek], c’est un peu compliqué de séparer données numériques et algorithmes — les données numériques n’ont de sens que de pouvoir permettre l’utilisation d’algorithmes —, je vais plutôt focaliser mon exposé sur l’utilisation des données et des problèmes que ça peut poser.

Gilles avait un exposé en quatre points : un, deux, trois, quatre. Comme je suis moins fort, j’ai deux points : un, deux. Donc je vais parler d’extraction de connaissances et de qualité de données.

Extraction de connaissances des données

L’extraction de connaissances c’est ce qu’on fait constamment. On a des capteurs, on a des données textuelles, on a des images et on va essayer de trouver des trucs [informations, note de l'orateur] dedans, des corrélations, on va essayer de détecter des valeurs aberrantes ; on va faire des grosses statistiques [pour apprendre quelque chose des données, note de l'orateur]. Donc ça c’est un travail, une technologie qu’on fait depuis les débuts de l’informatique. Ce n’est pas nouveau, souvent il y a des nouveaux noms, mais en gros c’est toujours la même chose : essayer de comprendre ce qu’il y a dans ces données, essayer d’en extraire des connaissances.

Une fois qu’on utilise ces connaissances, on commence à se dire oui, mais puisqu’on va utiliser nos connaissances pour faire quelque chose, autant que ce soit des connaissances correctes, autant qu’on les utilise bien. On a tout de suite tendance, et moi le premier, à critiquer des utilisations des algorithmes pour faire ça. Quand on regarde la réalité, on pourrait parler d’APB [Admission post bac], mais on va prendre d’autres exemples. Prenons l’exemple de la justice, les humains ne sont pas parfaits. Par exemple, il y a des études qui ont montré que la couleur de votre peau, Gilles en a déjà parlé, pouvait avoir des conséquences importantes pour les décisions des juges. Pour les juges d’application des peines, il y a eu des mesures qui ont été faites, qui ont montré que si vous passez avant le déjeuner ou si vous passez après le déjeuner, il y a une différence. Ça paraît rigolo. Oui, moi je me disais 4-5 % [de différence, note de l'orateur]. Non, non ! Je ne sais plus le chiffre, mais c’est genre 40 %. Il faut vraiment, si vous devez passer devant un juge d’application des peines, demander à passer après déjeuner. Donc ça ce sont des juges humains et on peut se dire un algorithme, si on arrive à le faire aussi intelligent ou presque aussi intelligent qu’un juge, au moins on pourra lui demander de ne pas avoir de préjugés, on pourra lui demander d’être un peu cohérent : il ne va pas avoir de périodes d’après déjeuner.

Évidemment, on va demander ça et c’est si l’algorithme a été conçu pour ça. Gilles vous a donné l’exemple de si on commence par dire si c’est tel prénom alors avoir un comportement différent ; ça c’est facile à dire, mais il y a des choses qui sont beaucoup plus complexes comme des études qui ont été faites où vous utilisez l’apprentissage, vous regardez sur, je ne sais pas moi, dix ans d’expérience de décisions [de juges, note de l'orateur] et puis qu’est-ce que vous allez faire ? Eh bien vous allez reproduire, d’une certaine façon, les préjugés des personnes qui ont jugé pendant ces dix ans. Peut-être que si les algorithmes apprennent, au bout de très longtemps, vous allez finir par gommer ces préjugés, mais ce n’est pas clair.

Donc d’une certaine façon, et c’est exactement de ça dont on parle ici, avec les algorithmes, on peut espérer faire beaucoup mieux sur certains points, sur des points précis, que des êtres humains. D’accord ? On peut éviter les préjugés, par exemple ; on peut demander plus de cohérence.

Gilles vous a parlé de cette vente d’agrafeuses sur le Web ; c’est exactement là le sujet. Les gens qui avaient prévu ça avaient vraiment voulu que si vous aviez plus à vous déplacer on allait vous faire payer un peu plus cher. Le résultat des courses c’est que si vous étiez dans un quartier défavorisé, vous payiez plus cher. C’est ça qui a fini par soulever, si vous voulez, les embarras de certaines personnes : c’était corrélé avec le niveau social de votre quartier. Pourquoi ? Parce qu’il se trouve que cette marque d’agrafeuses n’était pas vendue dans les quartiers plus défavorisés. Bien ! C‘est ce qu’on veut éviter.

Le sujet aujourd’hui c’est qu’est-ce que peut faire la recherche là-dedans. ? Et donc elle peut aider à « responsabiliser » tous ces traitements de données. J’ai parlé d’équité, on a déjà parlé de transparence ; il y a la loyauté qui est importante aussi qui est cette notion très simple de dire, et on verra un exemple tout à l’heure, que si vous annoncez quelque chose, eh bien vous devez vous y tenir et on doit pouvoir vérifier que c’est le cas. La diversité qui fait aussi que ce ne sont pas uniquement les gens qui sont le plus visibles sur le réseau qui vont avoir tous les clients et la neutralité, on reviendra là-dessus.

On va regarder brièvement quelques techniques, quelques recherches, des fronts dans des sujets de recherche dans trois directions : collecter et analyser les données, notamment comment on les trace. Et puis comment on peut vérifier ; des gens ont fait des analyses et comment vous vérifiez que ces analyses sont faites de façon responsable et qu’elles ne tiennent pas compte, par exemple, de la couleur de la peau.

Tracer la provenance des données c’est quelque chose qu’on a trouvé, qui est extrêmement populaire en informatique depuis quelques années, et ça, ça ne devrait pas surprendre les scientifiques qui sont dans la salle.

Quand on est scientifique on sait depuis longtemps que des données n’ont pas de valeur si on ne sait pas d’où elles viennent. En gros, quelles sont les données primaires qui ont été utilisées, quelles analyses ont été réalisées. Je peux vous donner tous les chiffres que je veux, vous n’allez pas me croire ; on est scientifiques, on n’est pas trop crédules. Ce qu’il faudrait c’est que cette attitude scientifique de vouloir vérifier ce qu’on nous montre, on la retrouve aussi dans la société au moment où les données sont utilisées de façon aussi critique. Donc il y a des méthodes, notamment pour, quand vous avez un workflow de données, suivre comment elles ont été produites, pouvoir être capable de dire d’où elles viennent, qu’est-ce qui a été fait comme calculs dessus. On fait ça en science, mais on fait ça aussi dans l’alimentation : maintenant il y a des grands groupes alimentaires qui sont capables de vous dire où est-ce que la vache a mangé de l’herbe pour vous donner le lait qui a été utilisé dans ce yaourt. Dans la création vidéo aussi on essaie de voir tout le traçage, très souvent pour des questions de droits d’auteur.

Pour la vérification, il y a deux aspects très intéressants, passionnants, mais un peu différents dans la vérification. Le premier c’est l’analyse du cade. C’est quoi ? Vous avez un code et vous voulez vérifier que ce code fait « bien » les choses, entre guillemets « bien » à définir. Je n’en parle pas ici, mais la complexité, c’est déjà de définir des notions aussi simples de qu’est-ce que ça veut dire d’être équitable ; il y a plein de façons de définir l’équité. Supposons qu’on ait formalisé ce qu’on veut dire par équitable, est-ce que votre logiciel fait bien le boulot ?

Ça c’est fait sur de l’analyse statique du code, c’est très proche de ce qu’on a comme des preuves de théorèmes en mathématiques ; c’est un domaine où INRIA a une tradition extrêmement longue et extrêmement forte. De fait, quand on regarde, il y a énormément de travail qui a été fait dans différents domaines : la sécurité, la fiabilité, l’optimisation notamment de requêtes, la confidentialité ; encore très peu sur d’autres aspects que la confidentialité. Donc il y a tout un front de travaux à faire, de recherches qui sont passionnantes.

Oui, j’ai zappé un truc c’est l’open source. L’open source est quand même vachement importante dans ce contexte-là. C’est-à-dire que si vous n’avez pas le logiciel ça va être difficile de vérifier qu’il fait bien les choses ; on peut faire des audits, etc., mais ça veut dire quel la vérification sera très homéopathique.

L’autre versant c’est tester les effets. Donc si le premier s’approchait de vérifier des preuves de théorèmes, de vérifier des théorèmes, là ça s’approche plutôt de l’étude de phénomènes physiques comme le climat ou du cœur humain. Là, l’idée c’est de développer des modèles mathématiques et de faire des analyses statistiques.

Par exemple un truc qui a été fait à Chicago : il y a eu un changement assez considérable des transports urbains et il y a des gens qui ont commencé à dire « non, non, c’est n’importe quoi, votre transformation est très préjudiciable pour les minorités. Donc regardez comment vous avez fait. » À partir de là c’était difficile à vérifier parce qu’il y a des gens qui étaient avantagés, d’autres qui ne l’étaient pas. Donc il y a des gens qui ont dit : « On peut formaliser ça, on peut trouver un modèle mathématique et on peut essayer de vérifier ». En l’occurrence ils ont montré que ce n’était pas du tout ce qui avait été voulu par le maire, mais, encore une fois, ça aurait pu être une conséquence malheureuse de choix politiques ; en l’occurrence ce n’était pas vrai.

Là je vais vous prendre un autre exemple qui est la vérification de la transparence dans Google Ads, ça nous permettra de parler de transparence.

Voilà un truc qu’a sorti Google Ads Settings : vous recevez de la pub, vous trouvez que c’est intrusif. Qu’est-ce qu’on connaît de vous ? On va vous dire ce qu’on connaît de vous. Déjà je veux pas faire du bashing de Google ; ce sont pratiquement les seuls à essayer de faire un peu de transparence, donc on peut quand même apprécier. La c’est une personne que j’ai anonymisée, qui est en rouge, à qui on a dit qu’elle aimait les chats, le fitness, etc. Première chose les résultats sont quand même assez médiocres, parce cette personne m’a avoué qu’elle n’aimait pas les chats et qu’elle ne faisait pas de fitness non plus. Donc ces résultats sont encore un peu à améliorer pour Google. Mais regardons ce qui se passe du point de vue de la transparence. Donc il y a une équipe de recherche qui a développé un logiciel qui s’appelle Adfisher, qui essaie de tester ça.

Première chose qu’ils ont testé : vous pouvez dire « je ne veux pas qu’on m’envoie de pubs sur les chats ». Si vous dites ça vous n’allez plus recevoir de pubs sur les chats ; de ce point de vue-là ça marche bien.

Deuxième chose sur la transparence, qui marche moins bien, c’est qu’on vous dit : « Voilà les paramètres qui sont utilisés », eh bien, dans la réalité, ce n’est pas si simple que ça : il y a d’autres paramètres qui sont utilisés, qu’on ne vous dit pas, en particulier il y a le sexe. Ça, en pire, c’est encore plus, parce que normalement ils ne devraient pas garder ce genre d’informations dans des pays comme la France parce que c’est un attribut protégé, et il se trouve qu’Adfisher met en évidence que les hommes recevaient des pubs pour des boulots qui étaient bien mieux payés que ceux que les femmes recevaient, statistiquement, de manière significative. On pourra se poser après la question de savoir pourquoi les hommes recevaient des pubs pour des jobs mieux payés, mais ce qui est déjà considérable ici, c’est que la transparence, on vous a dit qu’on ne tenait compte que de ces paramètres, mais il y en a d’autres.

10’ 30

Évaluer la qualité des données

Deuxième partie de cet exposé : l’évaluation de la qualité des données.

Je ne vais pas vous faire la liste de tous les trucs où on voudrait lutter sur le Web, il y en a trop, mais ce que je voulais dire c’est que ça peut avoir des influences sur notre vie quotidienne.

J’ai pris un exemple connu : en 2013, il y a des gens qui sont arrivés à pirater le compte Twitter de Associated Press et qui ont annoncé que la Maison Banche avait été bombardée. C’est sympa, le Dow Jones a chuté de 100 points en deux minutes. Pourquoi ? Parce que l’information paraissait crédible — elle venait de Associated Press — et donc là on a une information qui est une information fausse qui peut avoir des conséquences dans la vie de tous les jours.

Des informations fausses, il y en a beaucoup qui ont circulé au cours des dernières élections aux États-Unis. À partir du moment où elles sont là, où elles peuvent biaiser les décisions des gens, qu’est-ce qu’on fait à ce sujet ?

C’est évidemment un sujet de société ; ce n’est pas un sujet d’informatique, mais ça pose des questions aux informaticiens. Une fois que des politiques auront décidé de déployer quelque chose, se seront mis d’accord — ce n’est pas facile, c’est peut-être eux qui ont la partie la plus dure —, nous en tant qu’informaticiens ont a le job le plus facile : c’est arriver à mettre au point des outils qui fassent ça.

Hou là ! Il y a un problème, je ne sais plus ce que c’est. Qu’est-ce qui était là-dedans ?

Public : C’est peut-être la véracité.

Serge Abiteboul : C’est la véracité, oui. Donc là sur cette véracité, je voulais dire que les difficultés qui sont dues à la véracité sont des difficultés classiques dans le traitement de données : le volume, la variété, la véracité, mais ce sont d’autres difficultés qui sont dues très précisément au fait que les données sont des données générées par des humains.

Les humains sont très sympas, mais quand ils publient des informations ou quand ils donnent des informations, ils font plein de fautes ; ils omettent volontairement ou pas des données ; ils sont incohérents, ils sont incomplets, etc. Évidemment, quand on va essayer de raisonner sur tout ça et puis de gérer ces données, ça va être un peu compliqué. En plus, il y aussi des affaires de goûts : il n’y a pas juste la vérité, il y a aussi « j’aime bien, je n’aime pas ». Donc tout ça c’est compliqué, ça demande du travail, d’arriver à faire des progrès. Par exemple, sur le fait que les données soient incohérentes, ça veut dire qu’on ne peut pas utiliser des logiques standards, parce qu’en logique standard vous avez vrai et faux ou vous êtes foutu. Donc là il va falloir plutôt, par exemple, utiliser une logique probabiliste et il y a plein de travaux dans cette direction.

Ça continue avec d’autres problèmes. La neutralité. Je voulais mentionner un autre aspect de ces propriétés de responsabilité, c’est la propriété de neutralité.

Alors neutralité des réseaux, vous avez tous déjà peut-être entendu parler de cette notion-là. C’est qu’un réseau devrait transporter les données sans biais, le réseau, Internet par exemple, devrait transporter les données sans biais depuis la source jusqu’à la destination, sans ternir compte de cette source, de cette destination et du contenu. C’est une espèce de justice. On ne va pas vous privilégier parce vous êtes, je ne sais pas, Google ou Microsoft. On ne va pas vous pénaliser parce que vous êtes une petite entreprise ou on ne va pas vous pénalisez parce que vous êtes un opposant au gouvernement. Le réseau ne voit pas tout ça, c’est une espèce de justice du réseau.

Au Conseil national du numérique on a travaillé là-dessus. On a aussi beaucoup travaillé sur une autre neutralité qui est des plateformes. En général les gens n’utilisent pas que le réseau, ils utilisent des plateformes de l’Internet comme Google, Facebook, des grosses plateformes et, d’une certaine façon, leurs informations ils les ont par ces plateformes-là. Alors à quoi servirait que le réseau soit neutre si l’information qu’on vous donnait était complètement biaisée par la plateforme à laquelle vous avez accès ? La critique, quand on commence à dire on pourrait exiger de ces plateformes d’être neutres, la critique c’est toujours « mais attendez quand vous avez le site du Monde ou de Carrefour ; un truc comme Google c’est à la fois le site du Monde, c’est à la fois Carrefour, c’est pas mal de choses, vous ne demandez pas au Monde d’être neutre. Le Monde a le droit d’éditorialiser son contenu. Carrefour a le droit de mettre en avant ses produits par rapport aux produits d’autres marques.

Pourquoi ces différences sur ces grandes plateformes ? Je pense que c’est une question fondamentale, c’est que ces plateformes sont devenues tellement importantes que, d’une certaine façon, elles sont devenues incontournables. Quand vous avez, je ne sais pas, plus de 90 % des Européens qui regardent, qui cherchent sur le Web avec Google, ou un même pourcentage d’Européens qui est sur Facebook, quand vous êtes dans un service comme ça, vous êtes dans un service comme ça, vous êtes d’une certaine façon, entre guillemets, dans un « service public ». Et donc, à cette puissance considérable, vous devez pouvoir demander aussi des exigences particulières, des responsabilités considérables.

Le problème c’est celui-là. Le problème c’est qu’il y a quelques compagnies qui sont en train de concentrer toutes les données du monde et une énorme partie des puissances de calcul et que ça, ça menace la vraie concurrence entre les entreprises. Ça menace aussi nos libertés.

Là c’est pour montrer quelque chose qui est du niveau du domaine public, un procès antitrust. Et en quoi ça nous concerne ? C’est bien de faire un procès antitrust. Mais moi je vais vous donner juste un exemple un peu personnel. J’aime beaucoup Google, j’ai toujours utilisé Google et quand on me disait : « Google biaise les résultats », je disais : « Non, non, ces mecs ne font pas ça ; ils ont toujours dit qu’ils mettaient un mur entre le moteur de recherche et leur business. Non, non, ce sont des gens bien, ils ne font pas ce genre de trucs. » La question c’est comment vous démontrez, comment vous démontrez qu’il y a un biais ou qu’il n’y a pas de biais. Le problème n’est pas uniquement un problème de société. La société peut très bien dire « oui, oui, on ne veut pas de biais », mais comment vous le vérifiez ça ? Eh bien ce n’est pas facile. On peut utiliser des tests un peu sur les moteurs de recherche, mais, si vous voulez, c’est un peu normal, ces moteurs sont très complexes, ils tiennent compte de où vous êtes, ils tiennent compte de plein de paramètres. Montrer que systématiquement ils vont favoriser un service par rapport à un autre ce n’est pas simple. Dans la réalité, c’est évident. C’est-à-dire que vous avez vu un copain qui avait un produit qui était dans la première page et puis un produit concurrent de Google arrive et deux mois après il est dans la troisième page. Mais la question c’est comment vous le démontrez.

Conclusion pour l’Académie des sciences

Je vais avoir deux diapos de conclusion pour l’Académie des sciences. La première c’est sur la recherche dans ce domaine, la recherche autour des données, la gestion de données, maintenant on aime bien le mot datascience.

Mon expérience, c’est vraiment une opinion, là, ce n’est pas un théorème, mon expérience, c‘est que dans le domaine, par le passé on a été tirés par deux choses, les données des entreprises. J’ai travaillé pendant des dizaines d’années avant qu’on me dise : « Tiens, tu pourrais regarder aussi les données de Facebook ». Il n’y avait pas Facebook. D’accord ? On travaillait sur les données des entreprises. Typiquement ce qu’on faisait, on faisait des modèles de données et puis on faisait des machines, des systèmes et on visait deux choses : la performance, la performance. D’accord ? Et après on nous a dit : « C’est bien, ça marche, ça marche vite, mais ce n’est pas assez fiable ». Alors on a fait aussi la fiabilité. En gros notre but, on voulait être capables de faire des systèmes capables de gérer des téraoctets de données pendant des mois sans se casser la gueule. Maintenant on sait faire. Je ne dis pas que la recherche est finie, il y a plein de trucs encore à faire, il y a plein de recherches passionnantes. Mais mon point de vue c’est qu’à l’avenir, maintenant qu’on sait faire ça, on va essayer de le faire mieux, alors sur deux fronts. Le premier font ce sont les données personnelles et les données sociales, et j’ai insisté sur le fait que les données humaines sont différentes des données des entreprises en ce qu’elles ont des erreurs, des incohérences, etc. ; et puis sur les questions éthiques, c’est-à-dire le sujet aujourd’hui.

C’est peut-être allé un peu vite. Je sais ce qu’il y a dedans donc je vais vous le dire de tête. Quand on regarde ce genre de problème on se dit quels sont les moyens dont on dispose, parce que ces problèmes sont compliqués, parce qu’il faut aller bille en tête contre des grosses plateformes, il faut aller bille en tête contre des habitudes, contre des nouveaux outils qui arrivent sans arrêt, ça change très vite, exactement quels sont les outils.

Évidemment les outils c’est la loi et la réglementation. Ça ne nous concerne pas tellement à l’Académie, mais on peut quand même donner notre avis.

Un autre outil, ce sont les associations de consommateurs. Alors là, les associations de consommateurs, on est tous des consommateurs et on a, à mon avis, dans ces domaines-là, un pouvoir considérable parce que, d’une certaine façon, si on décide qu’on ne veut plus utiliser Facebook, Facebook n’existe plus ! D’accord ! Donc on a une puissance énorme. Et d’ailleurs, ces entreprises sont extrêmement soucieuses de leur image de marque parce que, d’une certaine façon, toutes ces grandes entreprises du Web si vous partez, si elles perdent leurs clients, elles disparaissent. Un des cas où elles ont reculé, par exemple, c’est Instagram qui avait changé sa politique sur les droits des photos. Il y a eu des levées de boucliers dans les réseaux sociaux ; des gens ont commencé par quitter Instagram par dizaines de milliers et puis Facebook, qui avait acquis Instagram a sorti un communiqué en disant « non, non, mais vous n’aviez rien compris ; ce n’est pas qu’on voulait. On enlève ce contrat, ce n’est pas ce qu’on voulait du tout ; n veut respecter votre propriété sur les données. »

Donc les gouvernements, les associations. Les associations doivent s’appuyer sur des citoyens éclairés. Donc là on retrouve un domaine sur lequel l’Académie a un rôle considérable à jouer : c’est pousser pour que les citoyens soient beaucoup plus éduqués. C’est un sujet considérable. C’est le sujet de l’enseignement de l’informatique, l’enseignement de ces questions éthiques autour de l’informatique à tous les citoyens. Ça c’est un plan considérable sur lequel l’Académie a joué.

Et le dernier point, évidemment, c’est celui qui, en tant que chercheur, me passionne le plus, c’est le développement de nouveaux outils, le travail sur des nouveaux outils, qui permettront, par exemple, de faire de la recherche, des analyses de données plus correctes, de vérifier que les analyses de données sont faites de manière correcte. Je vous remercie de votre attention.

[Applaudissements]

Organisateur : Très bien, on va passer aux questions. Odile Macchi. Odile vas-y.

21’ 20

Odile Macchi : Est-ce qu’il y a des moteurs de recherche « éthiques » entre guillemets ? Par exemple il y a Qwant, qui est un moteur de recherche français, est-ce qu’il est éthique ?

Serge Abiteboul : C’est une excellente question. Personnellement j’ai arrêté d’utiliser Google et j’utilise Qwant ; je vous conseille d’en faire autant d’abord parce qu’ils payent leurs impôts en France, etc. Mais non ! Est-ce qu’il est éthique ? C’est une vraie question. Qwant dit, par exemple, qu’il ne garde aucune trace de vos données sur cet aspect-là de vos recherches. De ce point de vue-là il ne vous espionne pas et vous gardez plus votre data privacy. Il y a des aspects qui le sont moins : par exemple j’ai demandé au ??? de Qwant quel était l’algorithme qui permettait de classer leurs données. J’ai posé la même question à des responsables chez Google et à chaque fois on me dit : « Non, non on ne veut pas publier ça, parce que si on publie ça les gens vont s’en servir pour les contourner. » C’est ce qu’a dit, évidemment, la personne de Qwant. Mais la deuxième réponse m’a plus plu. Il m’a dit : « On est en train de travailler sur des techniques qui nous permettront de les publier plus tard. » Donc ils font de la recherche autour, notamment, des blockchains, je ne sais pas les détails, pour espérer un jour pouvoir publier l’algorithme de classement. Pour moi c’est fondamental. C’est la transparence.

Odile Macchi : Est-ce qu’ils ont un marché, parce qu’ils sont tellement petits ? Personne ne sait ce que c’est quand on demande autour de nous.

Serge Abiteboul : Ils ont un de plus : je suis passé chez eux. Ils ont exactement le business model qu’avait Google dans le début des années 2000, qui a fait la richesse de Google. C’est-à-dire qu’ils vendent de la publicité autour de leur moteur de recherche et c’est un excellent business model. Leandri m’a dit qu’avec 15-20 % du marché français, ça lui suffirait à être rentable. Vous aviez une question.

Public : Oui. Est-ce que vous pourriez commenter cette remarque qu’en fait les qualités d’un système de données dépend de ce qu’on veut en faire, par exemple la provenance des données. Si on veut faire une base de données parapharmaceutiques, qu’on veut être sûr de la qualité des médicaments, on va exiger la provenance des données parce qu’on veut en être sûr. Mais si on veut faire un système pour la recherche ou pour des systèmes de renseignement, on pourra admettre que, comme les journalistes, on ne donne pas les sources. On aura comme ça des informations peut-être moins fiables, mais plus surprenantes ou plus intéressantes.

Serge Abiteboul : Il peut y avoir plein de raisons pour ne pas donner l’origine de ses données. Celles que vous avez données, par exemple le renseignement : je ne veux pas donner des secrets. Ça peut être aussi pour des raisons commerciales, le secret commercial. Ça peut être aussi parce que franchement ça coûte de l’argent de regarder la provenance et tout et puis pour ce qu’on fait, vous vous moquez un peu de la qualité. Donc oui, il y a plein de raisons. Mais il y a plein d’endroits où les données et leur provenance et les calculs qui ont été faits dessus me permettent d’avoir confiance, ou non, dans ce qu’elles font et c’est dans ce cadre-là que c’est nécessaire qu’elles soient publiées.

Public : Ce que je veux dire surtout c’est que la qualité d’un système de données n’est pas intrinsèque ; elle dépend de l’utilisateur.

Serge Abiteboul : Mais la confiance aussi. C’est aussi la confiance que vous voulez donner aux utilisateurs. Bien sûr. C’est complètement dépendant du contexte. Je ne dis pas qu’il faut de la provenance sur tout, mais encore une fois, il semble que ce soit une cause de confiance très fréquemment.

Organisateur : Nicolas Ayache.

Nicolas Ayache : Oui, Serge. Il y a une autre menace qui est évoquée dans votre livre Le temps des algorithmes et qui m’a frappée, cette extrême concentration des données menace aussi un certain nombre de professions. Vous avez parlé du juge, mais il y a, par exemple, les chauffeurs de taxi avec les grandes bases de données géographiques, l’automatisation des véhicules ; les connaissances médicales et la connaissance médicale pourrait également menacer le métier de médecin ; la robotisation de la chirurgie, le chirurgien. Il y a des problèmes éthiques aussi qui sont liés à la menace de ces emplois. Est-ce que vous y avez pensé ?

Serge Abiteboul : Oui, bien sûr. Il y a un chapitre du livre qui s’appelle, je te le rappellerai bien, « La fin du travail ». Ce serait long comme réponse, mais pour faire une réponse rapide, le problème d’éthique n’est pas tellement le fait que les gens n’ont plus de travail, le problème éthique c’est : le revenu des machines et des algorithmes qui remplacent ces personnes, comment est-il distribué ? C’est ça la question. Ce n’est pas tellement le fait que les caissières de supermarchés ne travaillent plus qui est un problème. C’est le fait que quand elles sont remplacées par des robots, l’argent des robots ne va pas aux caissières de supermarchés. C’est là qu’est le vrai problème.

Organisateur : Dernière question là-bas, présentez-vous madame.

Public : Bonjour. Merci. Je suis chercheuse à la chaire humanisme numérique de Sorbonne Universités. Je m’intéresse beaucoup aux questions éthiques et numériques et la question que je voudrais vous poser, monsieur Abiteboul, c’est concernant la globalisation de ces questions éthiques et en particulier par rapport à l’exemple que vous citiez sur la neutralité des réseaux et la neutralité des contenus. Wikipédia, enfin Wikimedia a connu, en 2016, un véritable scandale au Nigéria puisqu’ils se sont aperçus qu’en ayant promu des plans ce qu’on appellerait data0, un peu comme ce que fait Facebook avec un projet Facebook 0 ou internet.org, avaient donc permis, en faisant un partenariat avec le Telco local, de donner accès gratuitement à Wikipédia pour la plupart des Nigérians sur leur téléphone. Et ils se sont aperçus que les usages de Wikipédia correspondaient à des usages de piratage et qu’on se servait de Wikipédia pour télécharger, partager des fichiers piratés. La question que je pose donc est la suivante, c’est commente est-ce que, puisqu’on a vu aussi grâce à l’exposé de Milad Douheihi, qu’il s’agit bien d’une problématique également culturelle, de rappeler que le numérique est une culture, puisque ces plateformes sont globales comment est-ce que la communauté scientifique peut-elle s’emparer de ces questions éthiques en tenant compte de leur dimension globale ? Merci.

Serge Abiteboul : Vous avez absolument raison sur la globalité de la question et je pense que la réponse n’est pas une réponse de la communauté scientifique, mais c’est une réponse de la société en général. C’est-à-dire que c’est à la société, en général, de décider, de mettre des guidelines ; ça peut devenir des traités internationaux, mais très loin dans le futur. Ce n’est pas une question d’informatique. C’est-à-dire qu’en tant qu’informaticien moi, ce que je peux être amené à faire, je peux être amené à développer des algorithmes qui vérifient différentes propriétés, par exemple d’équité. Mais ce n’est pas à moi de fixer la règle de l’équité. La règle de l’équité c’est une règle qui doit être sociale, qui doit être décidée par tout le monde. Mon rôle, en tant que scientifique, est d’expliquer aux gens, d’éduquer les gens et de les aider à décider quelles règles ils veulent. Là où vous avez tout à fait raison, c’est qu’il n’y a absolument aucune raison pour que ces règles soient les mêmes dans tous les pays. Pour prendre juste un exemple qui est les robots soignants, les robots soignants sont beaucoup plus facilement adoptés en Asie qu’en Europe. Donc là on rentre dans des questions de société qui vont prendre beaucoup de temps à se définir.

Public : Est-ce que je peux juste intervenir une dernière une petite seconde. En particulier puisqu’on a quand même vu que la question est dans le code aussi, donc dans le fait de penser une certaine pragmatique du code donc de ses domaines d’applicabilité et de son extension, en tout cas jusqu’où peut aller le code sur les cultures locales, en fait. C’est pour ça aussi que je pense que ça reste quand même une question scientifique, mais peut-être avez-vous un autre avis là-dessus.

Serge Abiteboul : C’est une question scientifique dans le sens où l’adoption de ces approches transforme les cultures locales. Je ne sais pas si c’est ça sur lequel vous vouliez arriver, mais je pense que cette transformation ne concerne pas que les scientifiques.

Éthique et données - Serge Abiteboul

Sommaire

Transcription

Extraction de connaissances des données

10’ 30

Évaluer la qualité des données

Conclusion pour l’Académie des sciences

21’ 20

Menu de navigation

Actions de la page

Actions de la page

Outils personnels

Navigation

Rechercher

Outils