Éthique et données - Serge Abiteboul

Titre : Éthique et données

Intervenant : Serge Abiteboul

Lieu : Académie des sciences - Paris

Date : mai 2017

Durée : 29 min 28

Licence de la transcription : Verbatim

NB : transcription réalisée par nos soins. Les positions exprimées sont celles des intervenants et ne rejoignent pas forcément celles de l'April.

Statut : Transcrit MO

Transcription

Je ne vais pas avoir besoin de trop motiver parce que ça été beaucoup dit, mais on va plutôt parler des données. Comme l’a dit Gilles [Dowek], c’est un peu compliqué de séparer données numériques et algorithmes — les données numériques n’ont de sens que de pouvoir permettre l’utilisation d’algorithmes —, mais je vais plutôt focaliser mon exposé sur l’utilisation des données et des problèmes que ça peut poser.

Gilles avait un exposé en quatre points : un, deux, trois, quatre. Comme je suis moins fort, j’ai deux points : un, deux. Donc je vais parler d’extraction de connaissances et de qualité de données.

Extraction de connaissances des données

L’extraction de connaissances c’est ce qu’on fait constamment. On a des capteurs, on a des données textuelles, on a des images et on va essayer de trouver des trucs dedans, des corrélations, on va essayer de détecter des valeurs aberrantes ; on va faire des grosses statistiques. Donc ça c’est un travail, une technologie qu’on fait depuis le début de l’informatique. Ce n’est pas nouveau, souvent il y a des nouveaux noms, mais en gros c’est toujours la même chose : essayer de comprendre ce qu’il y a dans ces données, essayer d’en extraire des connaissances.

Une fois qu’on utilise ces connaissances, on commence à se dire oui, mais alors puisqu’on va utiliser nos connaissances pour faire quelque chose, autant que ce soit des connaissances correctes, autant qu’on les utilise bien. On a tout de suite tendance, et moi le premier, à critiquer des utilisations des algorithmes pour faire ça. Quand on regarde la réalité, on pourrait parler d’APB [Admission post bac], mais on va prendre d’autres exemples : prenons l’exemple de la justice, les humains ne sont pas parfaits. Par exemple, il y a des études qui ont montré que la couleur de votre peau, Gilles en a déjà parlé, pouvait avoir des conséquences importantes pour les décisions des juges. Pour les juges d’application des peines, il y a eu des mesures qui ont été faites, qui ont montré que si vous passez avant le déjeuner ou si vous passez après le déjeuner, il y a une différence. Ça paraît rigolo. Oui, moi je me disais oui, 4-5 %. Non, non ! Je ne sais plus le chiffre, mais c’est genre 40 %. Il faut vraiment, si vous devez passer devant un juge d’application des peines, demander à passer après déjeuner. Donc ça ce sont des juges humains et on peut se dire un algorithme, si on arrive à le faire aussi intelligent ou presque aussi intelligent qu’un juge, au moins on pourra lui demander de ne pas avoir de préjugés, on pourra lui demander d’être un peu cohérent : il ne va pas avoir de périodes d’après déjeuner.

Évidemment, on va demander ça et c’est si l’algorithme a été conçu pour ça. Gilles vous a donné l’exemple de si on commence par dire si c’est tel prénom alors avoir le comportement différent ; ça c’est facile à dire, mais il y a des choses qui sont beaucoup plus complexes comme des études qui ont été faites où vous utilisez l’apprentissage, vous regardez sur, je ne sais pas moi, dix ans d’expérience de décisions et puis qu’est-ce que vous allez faire ? Eh bien vous allez reproduire, d’une certaine façon, les préjugés des personnes qui ont été pendant ces dix ans. Peut-être que si les algorithmes apprennent, au bout de très longtemps, vous allez finir par gommer ces préjugés, mais ce n’est pas clair.

Donc d’une certain façon, et c’est exactement de ça dont on parle ici, avec les algorithmes, on peut espérer faire beaucoup mieux sur certains points, sur des points précis, que des êtres humains. D’accord ? On peut éviter les préjugés, par exemple ; on peut demander plus de cohérence.

Gilles vous a parlé de cette vente d’agrafeuses sur le Web ; c’est exactement là le sujet. Les gens qui avaient prévu ça avaient vraiment voulu que si vous aviez plus à vous déplacer on allait vous faire payer un peu plus cher. Le résultat des courses c’est que si vous étiez dans un quartier défavorisé, vous payiez plus cher. C’est ça qui a fini par soulever, si vous voulez, les embarras de certaines personnes : c’était corrélé avec le niveau social de votre quartier. Pourquoi ? Parce qu’il se trouve que cette marque d’agrafeuses n’était pas vendue dans les quartiers plus défavorisés. Bien ! C‘est ce qu’on veut éviter et essentiellement.

Le sujet aujourd’hui c’est qu’est-ce que peut faire la recherche là-dedans. ? Et donc elle peut aider à « responsabiliser » tous ces traitements de données. Et j’ai parlé d’équité, on a déjà parlé de transparence ; il y a la loyauté qui est importante aussi qui est cette notion très simple de dire, et on verra un exemple tout à l’heure, que si vous annoncez quelque chose, eh bien vous devez vous y tenir et on doit pouvoir vérifier que c’est le cas. La diversité qui fait aussi que ce ne sont pas uniquement les gens qui sont le plus visible sur le réseau qui vont avoir tous les clients et la neutralité, on reviendra là-dessus.

On va regarder brièvement quelques techniques, quelques recherches, des fronts dans des sujets de recherche dans trois directions : collecter et analyser les données, notamment comment on les trace. Et puis comment on peut vérifier ; déjà on fait des analyses et comment vous vérifiez que ces analyses sont faites de façon responsable et qu’elles ne tiennent pas compte, par exemple, de la couleur de la peau.

Tracer la provenance des données c’est quelque chose qu’on a trouvé, qui est extrêmement populaire en informatique depuis plusieurs années, et ça, ça ne devrait pas surprendre les scientifiques qui sont dans la salle.

Quand on est scientifique on sait depuis longtemps que des données n’ont pas de valeur si on ne sait pas d’où elles viennent. En gros, quelles sont les données primaires qui ont été utilisées, quelles années elles ont été réalisées. Je peux vous donner tous les chiffres que je veux, vous n’allez pas me croire ; on est scientifiques, on n’est pas trop crédules. Ce qu’il faudrait c’est que cette attitude scientifique de vouloir vérifier ce qu’on nous montre, on devrait retrouver ça aussi dans la société au moment où les données sont utilisées de façon aussi critique dans la société. Donc il y a des méthodes, notamment pour, quand vous avez un workflow de données, suivre comment elles ont été produites, pouvoir être capable de dire d’où elles viennent, qu’est-ce qui a été fait comme calculs dessus. On fait ça en science, mais on fait ça aussi dans l’alimentation : maintenant il y a des grands groupes alimentaires qui sont capables de vous dire où est-ce que la vache a mangé de l’herbe pour vous donner le lait qui a été utilisé dans ce yaourt. Dans la création vidéo aussi on essaie de voir tout le traçage, très souvent pour des questions de droits d’auteur.

Pour la vérification, il y a deux aspects très intéressants, passionnants, mais un peu différents dans la vérification. Le premier c’est l’analyse du cade. C’est quoi ? Vous avez un code et vous voulez vérifier que ce code fait « bien » les choses, entre guillemets « bien » à définir. Je n’en parle pas ici, mais la complexité, c’est déjà de définir des notions aussi simples de qu’est-ce que ça veut dire d’être équitable ; il y a plein de façons de définir l’équité. Supposons qu’on ait formalisé ce qu’on veut dire par équitable, est-ce que votre logiciel fait bien le boulot ?

Ça c’est fait sur de l’analyse statique du code, c’est très proche de ce qu’on a comme des preuves de théorèmes en mathématiques ; c’est un domaine où INRIA a une tradition extrêmement longue et extrêmement forte. De fait, quand on regarde, il y a énormément de travail qui a été fait dans différents domaines : la sécurité, la fiabilité, l’optimisation notamment de requêtes, la confidentialité ; encore très peu sur d’autres aspects que la confidentialité. Donc il y a tout un front de travaux à faire, de recherches qui sont passionnantes.

Oui, j’ai zappé un truc c’est l’open source. L’open source est quand même vachement importante dans ce contexte-là. C’est-à-dire que si vous n’avez pas le logiciel ça va être difficile de vérifier qu’il fait bien les choses ; on peut faire des audits, etc., mais ça veut dire quel la vérification sera très homéopathique.

L’autre versant c’est tester les effets. Donc si le premier s’approchait de vérifier des preuves de théorèmes, de vérifier des théorèmes, là ça s’approche plutôt de l’étude de phénomènes physiques comme le climat ou du cœur humain. Là, l’idée c’est de développer des modèles mathématiques et de faire des analyses statistiques.

Par exemple un truc qui a été fait à Chicago : il y a eu un changement assez considérable des transports urbains et il y a des gens qui ont commencé à dire « non, non, c’est n’importe quoi, votre transformation est très préjudiciable pour les minorités. Donc regardez comment vous avez fait. » À partir de là c’était difficile à vérifier parce qu’il y a des gens qui étaient avantagés, d’autres qui ne l’étaient pas. Donc il y a des gens qui ont dit : « On peut formaliser ça, on peut trouver un modèle mathématique et on peut essayer de vérifier ». En l’occurrence ils ont montré que ce n’était pas du tout ce qui avait été voulu par le maire, mais, encore une fois, ça aurait pu être une conséquence malheureuse de choix politiques ; en l’occurrence ce n’était pas vrai.

Là je vais vous prendre un autre exemple qui est la vérification de la transparence dans Google Ads, ça nous permettra de parler de transparence.

Voilà un truc qu’a sorti Google Ads Settings : vous recevez de la pub, vous trouvez que c’est intrusif. Qu’est-ce qu’on connaît de vous ? On va vous dire ce qu’on connaît de vous. Déjà je veux pas faire du bashing de Google ; ce sont pratiquement les seuls à essayer de faire un peu de transparence, donc on peut quand même apprécier. La c’est une personne que j’ai anonymisée, qui est en rouge, à qui on a dit qu’elle aimait les chats, le fitness, etc. Première chose les résultats sont quand même assez médiocres, parce cette personne m’a avoué qu’elle n’aimait pas les chats et qu’elle ne faisait pas de fitness non plus. Donc ces résultats sont encore un peu à améliorer pour Google. Mais regardons ce qui se passe du point de vue de la transparence. Donc il y a une équipe de recherche qui a développé un logiciel qui s’appelle Adfisher, qui essaie de tester ça.

Première chose qu’ils ont testé : vous pouvez dire « je ne veux pas qu’on m’envoie de pubs sur les chats ». Si vous dites ça vous n’allez plus recevoir de pubs sur les chats ; de ce point de vue-là ça marche bien.

Deuxième chose sur la transparence, qui marche moins bien, c’est qu’on vous dit : « Voilà les paramètres qui sont utilisés », eh bien, dans la réalité, ce n’est pas si simple que ça : il y a d’autres paramètres qui sont utilisés, qu’on ne vous dit pas, en particulier il y a le sexe. Ça, en pire, c’est encore plus, parce que normalement ils ne devraient pas garder ce genre d’informations dans des pays comme la France parce que c’est un attribut protégé, et il se trouve qu’Adfisher met en évidence que les hommes recevaient des pubs pour des boulots qui étaient bien mieux payés que ceux que les femmes recevaient, statistiquement, de manière significative. On pourra se poser après la question de savoir pourquoi les hommes recevaient des pubs pour des jobs mieux payés, mais ce qui est déjà considérable ici, c’est que la transparence, on vous a dit qu’on ne tenait compte que de ces paramètres, mais il y en a d’autres.

10’ 30

Évaluer la qualité des données

Deuxième partie de cet exposé : l’évaluation de la qualité des données.

Éthique et données - Serge Abiteboul

Sommaire

Transcription

Extraction de connaissances des données

10’ 30

Évaluer la qualité des données

Menu de navigation

Actions de la page

Actions de la page

Outils personnels

Navigation

Outils

Rechercher