Éthique et données - Serge Abiteboul

Titre : Éthique et données

Intervenant : Serge Abiteboul

Lieu : Académie des sciences - Paris

Date : mai 2017

Durée : 29 min 28

Licence de la transcription : Verbatim

NB : transcription réalisée par nos soins. Les positions exprimées sont celles des intervenants et ne rejoignent pas forcément celles de l'April.

Statut : Transcrit MO

Transcription

Je ne vais pas avoir besoin de trop motiver parce que ça été beaucoup dit, mais on va plutôt parler des données. Comme l’a dit Gilles [Dowek], c’est un peu compliqué de séparer données numériques et algorithmes — les données numériques n’ont de sens que de pouvoir permettre l’utilisation d’algorithmes —, mais je vais plutôt focaliser mon exposé sur l’utilisation des données et des problèmes que ça peut poser.

Gilles avait un exposé en quatre points : un, deux, trois, quatre. Comme je suis moins fort, j’ai deux points : un, deux. Donc je vais parler d’extraction de connaissances et de qualité de données.

Extraction de connaissances des données

L’extraction de connaissances c’est ce qu’on fait constamment. On a des capteurs, on a des données textuelles, on a des images et on va essayer de trouver des trucs dedans, des corrélations, on va essayer de détecter des valeurs aberrantes ; on va faire des grosses statistiques. Donc ça c’est un travail, une technologie qu’on fait depuis le début de l’informatique. Ce n’est pas nouveau, souvent il y a des nouveaux noms, mais en gros c’est toujours la même chose : essayer de comprendre ce qu’il y a dans ces données, essayer d’en extraire des connaissances.

Une fois qu’on utilise ces connaissances, on commence à se dire oui, mais alors puisqu’on va utiliser nos connaissances pour faire quelque chose, autant que ce soit des connaissances correctes, autant qu’on les utilise bien. On a tout de suite tendance, et moi le premier, à critiquer des utilisations des algorithmes pour faire ça. Quand on regarde la réalité, on pourrait parler d’APB [Admission post bac], mais on va prendre d’autres exemples : prenons l’exemple de la justice, les humains ne sont pas parfaits. Par exemple, il y a des études qui ont montré que la couleur de votre peau, Gilles en a déjà parlé, pouvait avoir des conséquences importantes pour les décisions des juges. Pour les juges d’application des peines, il y a eu des mesures qui ont été faites, qui ont montré que si vous passez avant le déjeuner ou si vous passez après le déjeuner, il y a une différence. Ça paraît rigolo. Oui, moi je me disais oui, 4-5 %. Non, non ! Je ne sais plus le chiffre, mais c’est genre 40 %. Il faut vraiment, si vous devez passer devant un juge d’application des peines, demander à passer après déjeuner. Donc ça ce sont des juges humains et on peut se dire un algorithme, si on arrive à le faire aussi intelligent ou presque aussi intelligent qu’un juge, au moins on pourra lui demander de ne pas avoir de préjugés, on pourra lui demander d’être un peu cohérent : il ne va pas avoir de périodes d’après déjeuner.

Évidemment, on va demander ça et c’est si l’algorithme a été conçu pour ça. Gilles vous a donné l’exemple de si on commence par dire si c’est tel prénom alors avoir le comportement différent ; ça c’est facile à dire, mais il y a des choses qui sont beaucoup plus complexes comme des études qui ont été faites où vous utilisez l’apprentissage, vous regardez sur, je ne sais pas moi, dix ans d’expérience de décisions et puis qu’est-ce que vous allez faire ? Eh bien vous allez reproduire, d’une certaine façon, les préjugés des personnes qui ont été pendant ces dix ans. Peut-être que si les algorithmes apprennent, au bout de très longtemps, vous allez finir par gommer ces préjugés, mais ce n’est pas clair.

Donc d’une certain façon, et c’est exactement de ça dont on parle ici, avec les algorithmes, on peut espérer faire beaucoup mieux sur certains points, sur des points précis, que des êtres humains. D’accord ? On peut éviter les préjugés, par exemple ; on peut demander plus de cohérence.

Gilles vous a parlé de cette vente d’agrafeuses sur le Web ; c’est exactement là le sujet. Les gens qui avaient prévu ça avaient vraiment voulu que si vous aviez plus à vous déplacer on allait vous faire payer un peu plus cher. Le résultat des courses c’est que si vous étiez dans un quartier défavorisé, vous payiez plus cher. C’est ça qui a fini par soulever, si vous voulez, les embarras de certaines personnes : c’était corrélé avec le niveau social de votre quartier. Pourquoi ? Parce qu’il se trouve que cette marque d’agrafeuses n’était pas vendue dans les quartiers plus défavorisés. Bien ! C‘est ce qu’on veut éviter et essentiellement.

Le sujet aujourd’hui c’est qu’est-ce que peut faire la recherche là-dedans. ? Et donc elle peut aider à « responsabiliser » tous ces traitements de données. Et j’ai parlé d’équité, on a déjà parlé de transparence ; il y a la loyauté qui est importante aussi qui est cette notion très simple de dire, et on verra un exemple tout à l’heure, que si vous annoncez quelque chose, eh bien vous devez vous y tenir et on doit pouvoir vérifier que c’est le cas. La diversité qui fait aussi que ce ne sont pas uniquement les gens qui sont le plus visible sur le réseau qui vont avoir tous les clients et la neutralité, on reviendra là-dessus.

On va regarder brièvement quelques techniques, quelques recherches, des fronts dans des sujets de recherche dans trois directions : collecter et analyser les données, notamment comment on les trace. Et puis comment on peut vérifier ; déjà on fait des analyses et comment vous vérifiez que ces analyses sont faites de façon responsable et qu’elles ne tiennent pas compte, par exemple, de la couleur de la peau.

Tracer la provenance des données c’est quelque chose qu’on a trouvé, qui est extrêmement populaire en informatique depuis plusieurs années, et ça, ça ne devrait pas surprendre les scientifiques qui sont dans la salle.

Quand on est scientifique on sait depuis longtemps que des données n’ont pas de valeur si on ne sait pas d’où elles viennent. En gros, quelles sont les données primaires qui ont été utilisées, quelles années elles ont été réalisées. Je peux vous donner tous les chiffres que je veux, vous n’allez pas me croire ; on est scientifiques, on n’est pas trop crédules. Ce qu’il faudrait c’est que cette attitude scientifique de vouloir vérifier ce qu’on nous montre, on devrait retrouver ça aussi dans la société au moment où les données sont utilisées de façon aussi critique dans la société. Donc il y a des méthodes, notamment pour, quand vous avez un workflow de données, suivre comment elles ont été produites, pouvoir être capable de dire d’où elles viennent, qu’est-ce qui a été fait comme calculs dessus. On fait ça en science, mais on fait ça aussi dans l’alimentation : maintenant il y a des grands groupes alimentaires qui sont capables de vous dire où est-ce que la vache a mangé de l’herbe pour vous donner le lait qui a été utilisé dans ce yaourt. Dans la création vidéo aussi on essaie de voir tout le traçage, très souvent pour des questions de droits d’auteur.

Pour la vérification, il y a deux aspects très intéressants, passionnants, mais un peu différents dans la vérification. Le premier c’est l’analyse du cade. C’est quoi ? Vous avez un code et vous voulez vérifier que ce code fait « bien » les choses, entre guillemets « bien » à définir. Je n’en parle pas ici, mais la complexité, c’est déjà de définir des notions aussi simples de qu’est-ce que ça veut dire d’être équitable ; il y a plein de façons de définir l’équité. Supposons qu’on ait formalisé ce qu’on veut dire par équitable, est-ce que votre logiciel fait bien le boulot ?

Ça c’est fait sur de l’analyse statique du code, c’est très proche de ce qu’on a comme des preuves de théorèmes en mathématiques ; c’est un domaine où INRIA a une tradition extrêmement longue et extrêmement forte. De fait, quand on regarde, il y a énormément de travail qui a été fait dans différents domaines : la sécurité, la fiabilité, l’optimisation notamment de requêtes, la confidentialité ; encore très peu sur d’autres aspects que la confidentialité. Donc il y a tout un front de travaux à faire, de recherches qui sont passionnantes.

Oui, j’ai zappé un truc c’est l’open source. L’open source est quand même vachement importante dans ce contexte-là. C’est-à-dire que si vous n’avez pas le logiciel ça va être difficile de vérifier qu’il fait bien les choses ; on peut faire des audits, etc., mais ça veut dire quel la vérification sera très homéopathique.

L’autre versant c’est tester les effets. Donc si le premier s’approchait de vérifier des preuves de théorèmes, de vérifier des théorèmes, là ça s’approche plutôt de l’étude de phénomènes physiques comme le climat ou du cœur humain. Là, l’idée c’est de développer des modèles mathématiques et de faire des analyses statistiques.

Par exemple un truc qui a été fait à Chicago : il y a eu un changement assez considérable des transports urbains et il y a des gens qui ont commencé à dire « non, non, c’est n’importe quoi, votre transformation est très préjudiciable pour les minorités. Donc regardez comment vous avez fait. » À partir de là c’était difficile à vérifier parce qu’il y a des gens qui étaient avantagés, d’autres qui ne l’étaient pas. Donc il y a des gens qui ont dit : « On peut formaliser ça, on peut trouver un modèle mathématique et on peut essayer de vérifier ». En l’occurrence ils ont montré que ce n’était pas du tout ce qui avait été voulu par le maire, mais, encore une fois, ça aurait pu être une conséquence malheureuse de choix politiques ; en l’occurrence ce n’était pas vrai.

Là je vais vous prendre un autre exemple qui est la vérification de la transparence dans Google Ads, ça nous permettra de parler de transparence.

Voilà un truc qu’a sorti Google Ads Settings : vous recevez de la pub, vous trouvez que c’est intrusif. Qu’est-ce qu’on connaît de vous ? On va vous dire ce qu’on connaît de vous. Déjà je veux pas faire du bashing de Google ; ce sont pratiquement les seuls à essayer de faire un peu de transparence, donc on peut quand même apprécier. La c’est une personne que j’ai anonymisée, qui est en rouge, à qui on a dit qu’elle aimait les chats, le fitness, etc. Première chose les résultats sont quand même assez médiocres, parce cette personne m’a avoué qu’elle n’aimait pas les chats et qu’elle ne faisait pas de fitness non plus. Donc ces résultats sont encore un peu à améliorer pour Google. Mais regardons ce qui se passe du point de vue de la transparence. Donc il y a une équipe de recherche qui a développé un logiciel qui s’appelle Adfisher, qui essaie de tester ça.

Première chose qu’ils ont testé : vous pouvez dire « je ne veux pas qu’on m’envoie de pubs sur les chats ». Si vous dites ça vous n’allez plus recevoir de pubs sur les chats ; de ce point de vue-là ça marche bien.

Deuxième chose sur la transparence, qui marche moins bien, c’est qu’on vous dit : « Voilà les paramètres qui sont utilisés », eh bien, dans la réalité, ce n’est pas si simple que ça : il y a d’autres paramètres qui sont utilisés, qu’on ne vous dit pas, en particulier il y a le sexe. Ça, en pire, c’est encore plus, parce que normalement ils ne devraient pas garder ce genre d’informations dans des pays comme la France parce que c’est un attribut protégé, et il se trouve qu’Adfisher met en évidence que les hommes recevaient des pubs pour des boulots qui étaient bien mieux payés que ceux que les femmes recevaient, statistiquement, de manière significative. On pourra se poser après la question de savoir pourquoi les hommes recevaient des pubs pour des jobs mieux payés, mais ce qui est déjà considérable ici, c’est que la transparence, on vous a dit qu’on ne tenait compte que de ces paramètres, mais il y en a d’autres.

10’ 30

Évaluer la qualité des données

Deuxième partie de cet exposé : l’évaluation de la qualité des données.

Je ne vais pas vous faire la liste de tous les trucs où on voudrait lutter sur le Web, il y en a trop, mais ce que je voulais dire c’est que ça peut avoir des influences sur notre vie quotidienne.

J’ai pris un exemple connu : en 2013, il y a des gens qui sont arrivés à pirater le compte Twitter de Associated Press et qui ont annoncé que la Maison Banche avait été bombardée. C’est sympa, le Dow Jones a chuté de 100 points en deux minutes. Pourquoi ? Parce que l’information paraissait crédible — elle venait de Associated Press — et donc là on a une information qui est une information fausse qui peut avoir des conséquences dans la vie de tous les jours.

Des informations fausses, il y en a beaucoup qui ont circulé au cours des dernières élections aux États-Unis. À partir du moment où elles sont là, où elles peuvent biaiser les décisions des gens, qu’est-ce qu’on fait à ce sujet ?

C’est évidemment un sujet de société ; ce n’est pas un sujet d’informatique, mais ça pose des questions aux informaticiens. Une fois que des politiques auront décidé de déployer quelque chose, se seront mis d’accord — ce n’est pas facile, c’est peut-être eux qui ont la partie la plus dure —, nous en tant qu’informaticiens ont a le job le plus facile : c’est arriver à mettre au point des outils qui fassent ça.

Hou là ! Il y a un problème, je ne sais plus ce que c’est. Qu’est-ce qui était là-dedans ?

Public : C’est peut-être la véracité.

Serge Abiteboul : C’est la véracité, oui. Donc là sur cette véracité, je voulais dire que les difficultés qui sont dues à la véracité sont des difficultés classiques dans le traitement de données : le volume, la variété, la véracité, mais ce sont d’autres difficultés qui sont dues très précisément au fait que les données sont des données générées par des humains.

Les humains sont très sympas, mais quand ils publient des informations ou quand ils donnent des informations, ils font plein de fautes ; ils omettent volontairement ou pas des données ; ils sont incohérents, ils sont incomplets, etc. Évidemment, quand on va essayer de raisonner sur tout ça et puis de gérer ces données, ça va être un peu compliqué. En plus, il y aussi des affaires de goûts : il n’y a pas juste la vérité, il y a aussi « j’aime bien, je n’aime pas ». Donc tout ça c’est compliqué, ça demande du travail, d’arriver à faire des progrès. Par exemple, sur le fait que les données soient incohérentes, ça veut dire qu’on ne peut pas utiliser des logiques standards, parce qu’en logique standard vous avez vrai et faux ou vous êtes foutu. Donc là il va falloir plutôt, par exemple, utiliser une logique probabiliste et il y a plein de travaux dans cette direction.

Ça continue avec d’autres problèmes. La neutralité. Je voulais mentionner un autre aspect de ces propriétés de responsabilité, c’est la propriété de neutralité.

Alors neutralité des réseaux, vous avez tous déjà peut-être entendu parler de cette notion-là. C’est qu’un réseau devrait transporter les données sans biais, le réseau, Internet par exemple, devrait transporter les données sans biais depuis la source jusqu’à la destination, sans ternir compte de cette source, de cette destination et du contenu. C’est une espèce de justice. On ne va pas vous privilégier parce vous êtes, je ne sais pas, Google ou Microsoft. On ne va pas vous pénaliser parce que vous êtes une petite entreprise ou on ne va pas vous pénalisez parce que vous êtes un opposant au gouvernement. Le réseau ne voit pas tout ça, c’est une espèce de justice du réseau.

Au Conseil national du numérique on a travaillé là-dessus. On a aussi beaucoup travaillé sur une autre neutralité qui est des plateformes. En général les gens n’utilisent pas que le réseau, ils utilisent des plateformes de l’Internet comme Google, Facebook, des grosses plateformes et, d’une certaine façon, leurs informations ils les ont par ces plateformes-là. Alors à quoi servirait que le réseau soit neutre si l’information qu’on vous donnait était complètement biaisée par la plateforme à laquelle vous avez accès ? La critique, quand on commence à dire on pourrait exiger de ces plateformes d’être neutres, la critique c’est toujours « mais attendez quand vous avez le site du Monde ou de Carrefour ; un truc comme Google c’est à la fois le site du Monde, c’est à la fois Carrefour, c’est pas mal de choses, vous ne demandez pas au Monde d’être neutre. Le Monde a le droit d’éditorialiser son contenu. Carrefour a le droit de mettre en avant ses produits par rapport aux produits d’autres marques.

Pourquoi ces différences sur ces grandes plateformes ? Je pense que c’est une question fondamentale, c’est que ces plateformes sont devenues tellement importantes que, d’une certaine façon, elles sont devenues incontournables. Quand vous avez, je ne sais pas, plus de 90 % des Européens qui regardent, qui cherchent sur le Web avec Google, ou un même pourcentage d’Européens qui est sur Facebook, quand vous êtes dans un service comme ça, vous êtes dans un service comme ça, vous êtes d’une certaine façon, entre guillemets, dans un « service public ». Et donc, à cette puissance considérable, vous devez pouvoir demander aussi des exigences particulières, des responsabilités considérables.

Le problème c’est celui-là. Le problème c’est qu’il y a quelques compagnies qui sont en train de concentrer toutes les données du monde et une énorme partie des puissances de calcul et que ça, ça menace la vraie concurrence entre les entreprises. Ça menace aussi nos libertés.

Là c’est pour montrer quelque chose qui est du niveau du domaine public, un procès antitrust. Et en quoi ça nous concerne ? C’est bien de faire un procès antitrust. Mais moi je vais vous donner juste un exemple un peu personnel. J’aime beaucoup Google, j’ai toujours utilisé Google et quand on me disait : « Google biaise les résultats », je disais : « Non, non, ces mecs ne font pas ça ; ils ont toujours dit qu’ils mettaient un mur entre le moteur de recherche et leur business. Non, non, ce sont des gens bien, ils ne font pas ce genre de trucs. » La question c’est comment vous démontrez, comment vous démontrez qu’il y a un biais ou qu’il n’y a pas de biais. Le problème n’est pas uniquement un problème de société. La société peut très bien dire « oui, oui, on ne veut pas de biais », mais comment vous le vérifiez ça ? Eh bien ce n’est pas facile. On peut utiliser des tests un peu sur les moteurs de recherche, mais, si vous voulez, c’est un peu normal, ces moteurs sont très complexes, ils tiennent compte de où vous êtes, ils tiennent compte de plein de paramètres. Montrer que systématiquement ils vont favoriser un service par rapport à un autre ce n’est pas simple. Dans la réalité, c’est évident. C’est-à-dire que vous avez vu un copain qui avait un produit qui était dans la première page et puis un produit concurrent de Google arrive et deux mois après il est dans la troisième page. Mais la question c’est comment vous le démontrez.

Conclusion pour l’Académie des sciences

Je vais avoir deux diapos de conclusion pour l’Académie des sciences. La première c’est sur la recherche dans ce domaine, la recherche autour des données, la gestion de données, maintenant on aime bien le mot datascience.

Mon expérience, c’est vraiment une opinion, là, ce n’est pas un théorème, mon expérience, c‘est que dans le domaine, par le passé on a été tirés par deux choses, les données des entreprises. J’ai travaillé pendant des dizaines d’années avant qu’on me dise : « Tiens, tu pourrais regarder aussi les données de Facebook ». Il n’y avait pas Facebook. D’accord ? On travaillait sur les données des entreprises. Typiquement ce qu’on faisait, on faisait des modèles de données et puis on faisait des machines, des systèmes et on visait deux choses : la performance, la performance. D’accord ? Et après on nous a dit : « C’est bien, ça marche, ça marche vite, mais ce n’est pas assez fiable ». Alors on a fait aussi la fiabilité. En gros notre but, on voulait être capables de faire des systèmes capables de gérer des téraoctets de données pendant des mois sans se casser la gueule. Maintenant on sait faire. Je ne dis pas que la recherche est finie, il y a plein de trucs encore à faire, il y a plein de recherches passionnantes. Mais mon point de vue c’est qu’à l’avenir, maintenant qu’on sait faire ça, on va essayer de le faire mieux, alors sur deux fronts. Le premier font ce sont les données personnelles et les données sociales, et j’ai insisté sur le fait que les données humaines sont différentes des données des entreprises en ce qu’elles ont des erreurs, des incohérences, etc. ; et puis sur les questions éthiques, c’est-à-dire le sujet aujourd’hui.

C’est peut-être allé un peu vite. Je sais ce qu’il y a dedans donc je vais vous le dire de tête. Quand on regarde ce genre de problème on se dit quels sont les moyens dont on dispose, parce que ces problèmes sont compliqués, parce qu’il faut aller bille en tête contre des grosses plateformes, il faut aller bille en tête contre des habitudes, contre des nouveaux outils qui arrivent sans arrêt, ça change très vite, exactement quels sont les outils.

Évidemment les outils c’est la loi et la réglementation. Ça ne nous concerne pas tellement à l’Académie, mais on peut quand même donner notre avis.

Un autre outil, ce sont les associations de consommateurs. Alors là, les associations de consommateurs, on est tous des consommateurs et on a, à mon avis, dans ces domaines-là, un pouvoir considérable parce que, d’une certaine façon, si on décide qu’on ne veut plus utiliser Facebook, Facebook n’existe plus ! D’accord ! Donc on a une puissance énorme. Et d’ailleurs, ces entreprises sont extrêmement soucieuses de leur image de marque parce que, d’une certaine façon, toutes ces grandes entreprises du Web si vous partez, si elles perdent leurs clients, elles disparaissent. Un des cas où elles ont reculé, par exemple, c’est Instagram qui avait changé sa politique sur les droits des photos. Il y a eu des levées de boucliers dans les réseaux sociaux ; des gens ont commencé par quitter Instagram par dizaines de milliers et puis Facebook, qui avait acquis Instagram a sorti un communiqué en disant « non, non, mais vous n’aviez rien compris ; ce n’est pas qu’on voulait. On enlève ce contrat, ce n’est pas ce qu’on voulait du tout ; n veut respecter votre propriété sur les données. »

Donc les gouvernements, les associations. Les associations doivent s’appuyer sur des citoyens éclairés. Donc là on retrouve un domaine sur lequel l’Académie a un rôle considérable à jouer : c’est pousser pour que les citoyens soient beaucoup plus éduqués. C’est un sujet considérable. C’est le sujet de l’enseignement de l’informatique, l’enseignement de ces questions éthiques autour de l’informatique à tous les citoyens. Ça c’est un plan considérable sur lequel l’Académie a joué.

Et le dernier point, évidemment, c’est celui qui, en tant que chercheur, me passionne le plus, c’est le développement de nouveaux outils, le travail sur des nouveaux outils, qui permettront, par exemple, de faire de la recherche, des analyses de données plus correctes, de vérifier que les analyses de données sont faites de manière correcte. Je vous remercie de votre attention.

[Applaudissements]

Organisateur : Très bien, on va passer aux questions. Odile Macchi. Odile vas-y.

21’ 20

Odile Macchi :Est-ce qu’il y a des moteurs de recherche « éthiques » entre guillemets ?

Éthique et données - Serge Abiteboul

Sommaire

Transcription

Extraction de connaissances des données

10’ 30

Évaluer la qualité des données

Conclusion pour l’Académie des sciences

21’ 20

Menu de navigation

Actions de la page

Actions de la page

Outils personnels

Navigation

Outils

Rechercher