Éthique et algorithmes - Gilles Dowek
Titre : Éthique et algorithmes
Intervenant : Gilles Dowek
Lieu : Académie des sciences - Paris
Date : mai 2017
Durée : 30 min
Licence de la transcription : Verbatim
NB : transcription réalisée par nos soins.Les positions exprimées sont celles des intervenants et ne rejoignent pas forcément celles de l'April.
Statut : Transcrit MO
Transcription
Avant de commencer mon exposé, la première question que je voudrais discuter, peut-être une question que vous vous posez, c’est pourquoi cet exposé a lieu un mardi et pas un lundi puisque, après tout, il y a une Académie des sciences morales et politiques et donc pourquoi parler d’éthique à l’Académie des Sciences. Cette question peut se reformuler : quel est le rapport entre les sciences et l’éthique ?
Une réponse traditionnelle c’est que celle de l’éthique de la recherche, c’est-à-dire de dire que la recherche dans ses finalités, dans ses modalités, dans son organisation, pose un certain nombre de questions éthiques qu’on peut formuler ainsi : dois-je fabriquer une bombe atomique ? Puis-je faire des essais cliniques sans informer les patients du fait qu’ils participent à un essai ? Dois-je plagier mes petits camarades ? Donc ça ce sont des questions d’éthique de la recherche et mon exposé et une partie des exposés de cet après-midi sont plutôt centrés autour d’une autre question qui est ce que j’appellerais la recherche de l’éthique et qui part de ce constat que bien faire, comment bien faire est une source féconde de questions scientifiques et techniques.
Je vais illustrer ce point par quatre exemples et donc c’est le plan de mon exposé : I, III, III, IV.
Anonymisation
Le premier exemple est celui de l’anonymisation des données. Donc vous savez, tous les chercheurs savent que la recherche aujourd’hui est très friande de données, par exemple la recherche médicale progresse beaucoup du fait que nous pouvons avoir des données statistiques sur un grand nombre de patients, sur un grand nombre de personnes en bonne santé également. Et donc dans des domaines comme la santé publique ou l’épidémiologie, le traitement statistique des données est devenu un moyen, une manière essentielle de faire de la recherche, mais il n’y a pas que les chercheurs qui s’intéressent aux données : par exemple l’administration des hôpitaux s’intéresse également à avoir les statistiques sur les patients qui ont été soignés dans ses hôpitaux.
Bien entendu, comme ces informations sont des données sensibles, ce sont des informations médicales, les dossiers médicaux des patients, on souhaite que ces informations soient utilisées sans que cela mette en péril la vie privée des patients. Donc là la valeur qui est associée ici est celle de respect de la vie privée. Et donc ça nous amène à nous demander comment anonymiser ces données.
Si on prend le mot anonymiser au sens propre ça veut dire supprimer le nom des personnes des données collectées, en général le nom de famille. Mais l’exemple que je donne ici vous montre que si on vous parle d’un compositeur qui s’appelle Wolfgang Amadeus bip et qui est né à Salzbourg le 27 janvier 1756, qui est mort à Vienne le 5 décembre 1991 [1791, NdT], sa vie privée n’est pas tout à fait protégée, parce qu’il est assez facile de ré-identifier, de dé-anonymiser ces données.
Vous pourriez me dire tout le monde n’a pas composé un Don Juan et un Cosi fan tutte, ce problème s’applique à un petit nombre de personnes. En fait, ce n’est pas tout à fait le cas, parce que si vous multipliez 2 par 30 0000, par 100 000, vous obtenez 9 milliards ; ça veut dire qu’il y a 9 milliards de combinaisons de trois informations qui sont le genre d’une personne, sa date de naissance et son code postal. Et comme nous sommes 60 millions de personnes vivant en France, nous sommes 100 fois moins de personnes que de combinaisons. Donc la plupart d’entre nous sont identifiés exactement par ces trois informations, leur genre, leur date de naissance et leur code postal. Sauf par exemple pour les baby-boomers qui vivent dans un arrondissement très peuplé de Paris, il se peut qu’il y en ait deux. Mais en général, 87 % par exemple des personnes qui vivent aux États-Unis sont identifiables par ces trois informations. Donc même si on supprime le prénom, même si on supprime beaucoup d’informations, on s’aperçoit qu’on peut toujours dé-anonymiser les données.
Donc ça, ça a mené à l’émergence d’un champ entier en informatique, c’est un sous-domaine de l’informatique qui étudie des algorithmes qui permettent de brouiller les données. Et ici les mots-clefs sont la notion de « privauté différentielle », differential privacy qui est la notion de k-anonymat. La notion de cas k-anonymat est relativement facile à comprendre. Une personne est k-anonyme quand, à partir des informations dont on dispose sur elle on peut identifier qu’elle appartient à un groupe de personnes formé d’au moins k personnes. C’est-à-dire quand on est un anonyme on n’est pas anonyme du tout ; quand on est deux anonymes on est presque anonyme. Quand on est 100 anonymes, les gens peuvent déduire qu’une information qui nous concerne, concerne peut-être l’une des 100 personnes d’un groupe auquel nous appartenons et donc là nous pouvons dire que notre vie privée est protégée.
Ce qui est important c’est que ces algorithmes sont loin d’être faciles et c’est pour ça qu’il y a plusieurs équipes, plusieurs laboratoires dans le monde, d’ailleurs plusieurs équipes en France qui travaillent uniquement sur ce sujet.
Les outils qui sont à l’œuvre derrière sont des outils d’algorithmie, bien sûr, mais aussi de l’information, de théorie quantitative de l’information.
Une deuxième question est celle du vote électronique.
Vous savez que les urnes et les bulletins de vote en papier coûtent extrêmement cher et que c’est une des raisons pour lesquelles on consulte très peu ses concitoyens sur les choix politiques. Essentiellement nous votons une fois tous les cinq ans ou quelque chose comme ça. Donc organiser une élection par exemple tous les jours serait difficile si on avait uniquement des bulletins de vote en papier.
Donc ici, il y a une proposition qui est de remplacer le vote papier, le vote à l’urne, par le vote électronique. Donc ici il y a un certain nombre de valeurs que nous souhaitons défendre, par exemple une valeur qui se formule par le slogan « une personne, une voix ». Donc il est important qu’un personne ne puisse pas voter deux fois.
Quand on étudie ces algorithmes de vote électronique, il y a deux objectifs qui sont la vérifiabilité du décompte des voix ; c’est-à-dire tout le monde doit pouvoir vérifier qu’il n’y a pas eu de triche, que le résultat des élections est conforme ; mais il y a aussi la question du secret du vote. C’est-à-dire il faut que l’algorithme garantisse qu’une personne ne peut pas savoir ce qu’une autre personne a voté.
En fait, un théorème de 2006 montre que ces deux propriétés, si on les prend dans leur forme la plus absolue, sont incompatibles. Donc ça, ça condamne un petit peu le vote électronique en disant que finalement le vote papier, le vote à l’urne, sera toujours meilleur que le vote électronique.
Cela dit, comme tous les résultats scientifiques, il faut relativiser ce résultat parce que la vérifiabilité du décompte des voix et le secret du vote deviennent compatibles sous certaines hypothèses. Par exemple une hypothèse relativement raisonnable est qu’il n’y a pas de coalition de tricheurs, de coalition de personnes qui voudraient influencer le vote, qui regroupe plus de la moitié des votants. Donc s’il n’y a pas coalition de 15 millions de votants en France, eh bien sur une élection où il y a 30 millions de votants, on peut concevoir des algorithmes de vote qui garantissent à la fois la vérifiabilité du décompte des voix et le secret du vote.
D’ailleurs ça, ça pose un mystère. Comment est-ce que le vote à l’urne fonctionne parce que le théorème qu’on démontre d’incompatibilité de vérifiabilité du décompte des voix et du secret du vote à priori s’applique à toutes les formes de vote qu’elles soient électroniques ou non. Bien sûr, quand on modélise ces algorithmes, eh bien les votants, les urnes, les bulletins eux-mêmes sont vus comme des machines de Turing, c’est-à-dire des ordinateurs idéalisés. Et quand on vote à l’urne, eh bien il y a une propriété des machines de Turing qui n’est pas vérifiée par les bulletins de papier qui est leur duplicabilité. C’est-à-dire qu’on ne peut pas avec un bulletin en papier en fabriquer deux en identiques et pourtant c’est ce qu’on fait en général avec de l’information électronique.
Donc il semble que ça soit la non-duplicabilité du papier qui garantisse la vérifiabilité et le secret du vote dans le cas du vote à l’urne.
Bien entendu ces notions de vérifiabilité et de secret du vote, je vous ai expliqué qu’il y avait besoin d’un modèle du vote où on modélise les différents acteurs par des machines de Turing ou par des algorithmes polynomiaux, etc. Ici la vraie difficulté dans ce domaine de recherche qui lui est également est extrêmement vivace aussi bien en France que dans d’autres pays c’est, bien sûr, de définir ces concepts. On est dans un domaine de la science où c’est la définition qui est plus difficile. Les théorèmes sont difficiles, mais les définitions sont plus difficiles encore.
08’ 52
Équité
Troisième exemple : comment garantir l’équité d’une plateforme telle la plateforme Admission Post-Bac, c’est-à-dire d’un algorithme qui attribue des ressources à des personnes. En l’occurrence ce sont des places à l’université à des étudiants, mais il y a de nombreux algorithmes qui font ça avec d’autres ressources et d’autres personnes.
Un algorithme possible serait de commencer par sélectionner dans la liste des lycéens ceux dont le prénom est Gilles et de leur donner leur premier choix, et ensuite on donne leur second choix aux autres. Mais nous avons tous l’idée intuitive, même si elle est difficile à formuler, qu’un tel algorithme serait inéquitable. Donc ici la valeur que nous cherchons à défendre est celle de l’équité.
Une solution à ce défi, c’est de publier les sources du programme qui implémente l’algorithme Admission Post-Bac. Mais c’est très insuffisant de publier les sources parce que, certes, ça permet aux lycéens malheureux, aux lycéens mécontents, d’étudier les sources du programme et d’y rechercher d’éventuelles iniquités, mais en fait c’est de donner la charge de la preuve aux lycéens. Et en fait, on aimerait que la charge de la preuve soit inversée, c’est-à-dire que ça soit au ministère de nous démontrer que les algorithmes qu’il utilise sont équitables.
Ici on utilise le mot démontrer exactement dans le même sens que quand on dit qu’on est capable de démontrer qu’un programme d’ascenseur n’ouvre pas les portes entre deux étages et ça c’est un problème de sûreté de fonctionnement. Et donc c’est le seul point, comme l’a rappelé Milad, sur lequel je suis un tout petit peu compétent dans ces histoires.
Bien entendu, avant ça, il faut définir la notion d’équité. Toute une tradition philosophique nous dit que l’équité est une forme d’invariance par permutation. C’est-à-dire ce qui s’applique c’est l’image de la justice aux yeux bandés, mais ce n’est pas si évident, par exemple, de savoir si on parle d’invariance en fait ou d’invariance en espérance. Par exemple il y a une seule place dans une université avec deux candidats, est-ce que s’ils ont les mêmes chances d’entrer à l’université c’est un processus équitable ou non, sachant que ex-post il y aura un seul des deux qui aura eu la place, donc l’autre pourrait se juger lésé.
Donc ce sont des questions, ici encore, des questions de définitions qui sont en jeu et également des questions de vérification et de démonstration de propriétés des programmes.
Explication
Mon quatrième et dernier exemple, sur lequel je vais être un petit peu plus long est celui de l’explication.
C’est une idée qui, en fait, est apparue d’abord en théorie de la démonstration, en logique, avant d’être un petit peu partout aujourd’hui en informatique. On s’est aperçu en théorie de la démonstration qu’il y a une différence entre savoir que quelque chose est vrai et savoir pourquoi quelque chose est vrai. Et mon exemple préféré est celui-ci. Si vous multipliez le nombre, je n’arrive jamais à le lire, c’est 12 345 679 par 36, vous obtenez 444 444 444. Et donc ici vous savez que le résultat de cette multiplication n’est formé que de 4.
En revanche, vous ne savez pas pourquoi il est formé uniquement de 4, mais il y a une autre démonstration qui explique pourquoi il n’y a que des 4 dans le résultat. Et je vais vous laisser ça en exercice. Si vous voulez le corrigé de l’exercice, j’ai donné une conférence d’une heure et demie uniquement sur cette multiplication et la vidéo est sur ma page web, donc vous pourrez avoir toutes les explications sur la raison pour laquelle il n’y a que des 4 dans le résultat de cette multiplication. Si vous voulez chercher, réfléchissez à 36 et 4 ; il y a une propriété en commun avec ces deux nombres.
En informatique, nous sommes habitués à savoir dire que quelque chose est vrai sans savoir pourquoi il est vrai. Voici une carte qui a été produite par Météo-France, qui prévoyait le temps qu’il allait faire le lendemain il y a quinze jours. Vous voyez qu’il y a quinze jours on prévoyait que le lendemain il ferait 12 degrés à Paris et donc là on sait que – vraisemblablement bien sûr, c’est statistique – il va faire 12 degrés à Paris, mais on ne sait pas pourquoi il va faire 12 degrés à Paris.
D’ailleurs on s’est posé la question, on s’est arraché les cheveux en se disant mais pourquoi est-ce qu’il va faire 12 degrés et pas 11 et pas 13 ? Une question qui nous paraît saugrenue parce que nous savons comment ces prévisions sont faites et il n’y a pas une raison qui fait qu’il va faire 12 degrés à Paris ; il y a des milliards de capteurs qui ont mesuré la température, la pression, que sais-je, et ensuite des ordinateurs qui, pendant des heures, ont résolu des équations par des méthodes d’éléments finis, etc., et puis à la fin le résultat est 12 ; mais ça serait bizarre de dire oui c’est forcément un nombre pair et forcément un nombre qui doit être divisible par 6. Non, ce n’est pas du tout ce type d’argument qui permet d’arriver au fait la température est de 12 degrés.
Là nous sommes, du simple fait de la grande quantité de données et de la complexité des calculs, dans un cadre que nous savons qu’une proposition est vraie mais nous ne savons pas expliquer, nous ne savons pas pourquoi elle est vraie.
Comme Gérard Berry l’a évoqué tout à l’heure, cette question de l’explication qui était une question un petit peu académique, réservée aux logiciens, eh bien aujourd’hui devient essentielle par le développement des algorithmes d’apprentissage.
Les algorithmes d’apprentissage sont des algorithmes qui servent à repérer des corrélations mais sans nécessairement expliquer ces corrélations. Donc face à l’expérience célèbre de Pasteur et des poules et du choléra des poules, eh bien un algorithme d’apprentissage sait remarquer, est capable de remarquer, remarque qu’il y a une corrélation entre l’injection de bactéries provenant d’une vieille culture et la résistance à l’injection de bactéries provenant d’une culture fraîche. En revanche, l’algorithme ne donne pas d’explication et, en particulier dans ce cas-là, l’explication demande de faire intervenir un concept qui n’est pas du tout dans les données, qui est le concept de système immunitaire et de stimulation du système immunitaire. Donc on ne voit pas comment cet algorithme d’apprentissage inventerait la notion de système immunitaire pour nous expliquer, comme Pasteur l’a fait, la raison pour laquelle les poules qui avaient été en contact avec des bactéries provenant d’une vieille culture étaient résistantes à celles provenant d’une culture fraîche.
Donc l’apprentissage est là, pour le coup, une branche énorme de l’informatique dans le monde, mais il y a une petite partie de l’apprentissage, de la recherche en apprentissage qui est consacrée à la construction d’explications. Et c’est dommage que Stéphane ??? ne soit pas là aujourd’hui puisque c’est un des experts sur cette question.
15’ 40
Pourquoi est-ce que ces explications importent du point de vue éthique ?