« Éthique et algorithmes - Gilles Dowek » : différence entre les versions

De April MediaWiki
Aller à la navigationAller à la recherche
(Contenu remplacé par « Catégorie:Transcriptions Publié [https://www.april.org/ethique-et-algorithmes-gilles-dowek ici] - Avril 2018 »)
 
(29 versions intermédiaires par 3 utilisateurs non affichées)
Ligne 1 : Ligne 1 :
[[Catégorie:Transcriptions]]
[[Catégorie:Transcriptions]]


'''Titre :''' Éthique et algorithmes
Publié [https://www.april.org/ethique-et-algorithmes-gilles-dowek ici] - Avril 2018
 
'''Intervenant :''' Gilles Dowek
 
'''Lieu :''' Académie des sciences - Paris
 
'''Date :''' mai 2017
 
'''Durée :''' 30 min
 
'''[https://www.youtube.com/watch?v=MFNr_959urY Visualiser la conférence]'''
 
'''Licence de la transcription :''' [http://www.gnu.org/licenses/licenses.html#VerbatimCopying Verbatim]
 
'''NB :''' <em>transcription réalisée par nos soins.Les positions exprimées sont celles des intervenants et ne rejoignent pas forcément celles de l'April.</em>
 
'''Statut :''' Transcrit MO
 
==Transcription==
 
Avant de commencer mon exposé, la première question que je voudrais discuter, peut-être une question que vous vous posez, c’est pourquoi cet exposé a lieu un mardi et pas un lundi puisque, après tout, il y a une Académie des sciences morales et politiques et donc pourquoi parler d’éthique à l’Académie des Sciences. Cette question peut se reformuler : quel est le rapport entre les sciences et l’éthique ?
 
Une réponse traditionnelle c’est que celle de l’éthique de la recherche, c’est-à-dire de dire que la recherche dans ses finalités, dans ses modalités, dans son organisation, pose un certain nombre de questions éthiques qu’on peut formuler ainsi : dois-je fabriquer une bombe atomique ? Puis-je faire des essais cliniques sans informer les patients du fait qu’ils participent à un essai ? Dois-je plagier mes petits camarades ? Donc ça ce sont des questions d’éthique de la recherche et mon exposé et une partie des exposés de cet après-midi sont plutôt centrés autour d’une autre question qui est ce que j’appellerais la recherche de l’éthique et qui part de ce constat que bien faire, comment bien faire est une source féconde de questions scientifiques et techniques.
 
Je vais illustrer ce point par quatre exemples et donc c’est le plan de mon exposé : I, III, III, IV.
 
===Anonymisation===
 
Le premier exemple est celui de l’anonymisation des données. Donc vous savez, tous les chercheurs savent que la recherche aujourd’hui est très friande de données, par exemple la recherche médicale progresse beaucoup du fait que nous pouvons avoir des données statistiques sur un grand nombre de patients, sur un grand nombre de personnes en bonne santé également. Et donc dans des domaines comme la santé publique ou l’épidémiologie, le traitement statistique des données est devenu un moyen, une manière essentielle de faire de la recherche, mais il n’y a pas que les chercheurs qui s’intéressent aux données : par exemple l’administration des hôpitaux s’intéresse également à avoir les statistiques sur les patients qui ont été soignés dans ses hôpitaux.
 
Bien entendu, comme ces informations sont des données sensibles, ce sont des informations médicales, les dossiers médicaux des patients, on souhaite que ces informations soient utilisées sans que cela mette en péril la vie privée des patients. Donc là la valeur qui est associée ici est celle de respect de la vie privée. Et donc ça nous amène à nous demander comment anonymiser ces données.
 
Si on prend le mot anonymiser au sens propre ça veut dire supprimer le nom des personnes des données collectées, en général le nom de famille. Mais l’exemple que je donne ici vous montre que si on vous parle d’un compositeur qui s’appelle Wolfgang Amadeus bip et qui est né à Salzbourg le 27 janvier 1756, qui est mort à Vienne le 5 décembre 1991 [1791, NdT], sa vie privée n’est pas tout à fait protégée, parce qu’il est assez facile de ré-identifier, de dé-anonymiser ces données.
 
Vous pourriez me dire tout le monde n’a pas composé un<em> Don Juan</em> et un <em>Cosi fan tutte</em>, ce problème s’applique à un petit nombre de personnes. En fait, ce n’est pas tout à fait le cas, parce que si vous multipliez 2 par 30 0000, par 100 000, vous obtenez 9 milliards ; ça veut dire qu’il y a 9 milliards de combinaisons de trois informations qui sont le genre d’une personne, sa date de naissance et son code postal. Et comme nous sommes 60 millions de personnes vivant en France, nous sommes 100 fois moins de personnes que de combinaisons. Donc la plupart d’entre nous sont identifiés exactement par ces trois informations, leur genre, leur date de naissance et leur code postal. Sauf par exemple pour les baby-boomers qui vivent dans un arrondissement très peuplé de Paris, il se peut qu’il y en ait deux. Mais en général, 87 % par exemple des personnes qui vivent aux États-Unis sont identifiables par ces trois informations. Donc même si on supprime le prénom, même si on supprime beaucoup d’informations, on s’aperçoit qu’on peut toujours dé-anonymiser les données.
 
Donc ça, ça a mené à l’émergence d’un champ entier en informatique, c’est un sous-domaine de l’informatique qui étudie des algorithmes qui permettent de brouiller les données. Et ici les mots-clefs sont la notion de « privauté différentielle », <em>differential privacy</em> qui est la notion de k-anonymat. La notion de cas k-anonymat est relativement facile à comprendre. Une personne est k-anonyme quand, à partir des informations dont on dispose sur elle on peut identifier qu’elle appartient à un groupe de personnes formé d’au moins k personnes. C’est-à-dire quand on est un anonyme on n’est pas anonyme du tout ; quand on est deux anonymes on est presque anonyme. Quand on est 100 anonymes, les gens peuvent déduire qu’une information qui nous concerne, concerne peut-être l’une des 100 personnes d’un groupe auquel nous appartenons et donc là nous pouvons dire que notre vie privée est protégée.
 
Ce qui est important c’est que ces algorithmes sont loin d’être faciles et c’est pour ça qu’il y a plusieurs équipes, plusieurs laboratoires dans le monde, d’ailleurs plusieurs équipes en France qui travaillent uniquement sur ce sujet.
 
Les outils qui sont à l’œuvre derrière sont des outils d’algorithmie, bien sûr, mais aussi de l’information, de théorie quantitative de l’information.
 
===Une deuxième question est celle du vote électronique.===
 
Vous savez que les urnes et les bulletins de vote en papier coûtent extrêmement cher et que c’est une des raisons pour lesquelles on consulte très peu ses concitoyens sur les choix politiques. Essentiellement nous votons une fois tous les cinq ans ou quelque chose comme ça. Donc organiser une élection par exemple tous les jours serait difficile si on avait uniquement des bulletins de vote en papier.
 
Donc ici, il y a une proposition qui est de remplacer le vote papier, le vote à l’urne, par le vote électronique. Donc ici il y a un certain nombre de valeurs que nous souhaitons défendre, par exemple une valeur qui se formule par le slogan « une personne, une voix ». Donc il est important qu’un personne ne puisse pas voter deux fois.
 
Quand on étudie ces algorithmes de vote électronique, il y a deux objectifs qui sont la vérifiabilité du décompte des voix ; c’est-à-dire tout le monde doit pouvoir vérifier qu’il n’y a pas eu de triche, que le résultat des élections est conforme ; mais il y a aussi la question du secret du vote. C’est-à-dire il faut que l’algorithme garantisse qu’une personne ne peut pas savoir ce qu’une autre personne a voté.
 
En fait, un théorème de 2006 montre que ces deux propriétés, si on les prend dans leur forme la plus absolue, sont incompatibles. Donc ça, ça condamne un petit peu le vote électronique en disant que finalement le vote papier, le vote à l’urne, sera toujours meilleur que le vote électronique.
 
Cela dit, comme tous les résultats scientifiques, il faut relativiser ce résultat parce que la vérifiabilité du décompte des voix et le secret du vote deviennent compatibles sous certaines hypothèses. Par exemple une hypothèse relativement raisonnable est qu’il n’y a pas de coalition de tricheurs, de coalition de personnes qui voudraient influencer le vote, qui regroupe plus de la moitié des votants. Donc s’il n’y a pas coalition de 15 millions de votants en France, eh bien sur une élection où il y a 30 millions de votants, on peut concevoir des algorithmes de vote qui garantissent à la fois la vérifiabilité du décompte des voix et le secret du vote.
 
D’ailleurs ça, ça pose un mystère. Comment est-ce que le vote à l’urne fonctionne parce que le théorème qu’on démontre d’incompatibilité de vérifiabilité du décompte des voix et du secret du vote à priori s’applique à toutes les formes de vote qu’elles soient électroniques ou non. Bien sûr, quand on modélise ces algorithmes, eh bien les votants, les urnes, les bulletins eux-mêmes sont vus comme des machines de Turing, c’est-à-dire des ordinateurs idéalisés. Et quand on vote à l’urne, eh bien il y a une propriété des machines de Turing qui n’est pas vérifiée par les bulletins de papier qui est leur duplicabilité. C’est-à-dire qu’on ne peut pas avec un bulletin en papier en fabriquer deux en identiques et pourtant c’est ce qu’on fait en général avec de l’information électronique.
 
Donc il semble que ça soit la non-duplicabilité du papier qui garantisse la vérifiabilité et le secret du vote dans le cas du vote à l’urne.
 
Bien entendu ces notions de vérifiabilité et de secret du vote, je vous ai expliqué qu’il y avait besoin d’un modèle du vote où on modélise les différents acteurs par des machines de Turing ou par des algorithmes polynomiaux, etc. Ici la vraie difficulté dans ce domaine de recherche qui lui est également est extrêmement vivace aussi bien en France que dans d’autres pays c’est, bien sûr, de définir ces concepts. On est dans un domaine de la science où c’est la définition qui est plus difficile. Les théorèmes sont difficiles, mais les définitions sont plus difficiles encore.
 
==08’ 52==
 
===Équité===
 
Troisième exemple : comment garantir l’équité d’une plateforme telle la plateforme Admission Post-Bac, c’est-à-dire d’un algorithme qui attribue des ressources à des personnes. En l’occurrence ce sont des places à l’université à des étudiants, mais il y a de nombreux algorithmes qui font ça avec d’autres ressources et d’autres personnes.
 
Un algorithme possible serait de commencer par sélectionner dans la liste des lycéens ceux dont le prénom est Gilles et de leur donner leur premier choix, et ensuite on donne leur second choix aux autres. Mais nous avons tous l’idée intuitive, même si elle est difficile à formuler, qu’un tel algorithme serait inéquitable. Donc ici la valeur que nous cherchons à défendre est celle de l’équité.
 
Une solution à ce défi, c’est de publier les sources du programme qui implémente l’algorithme Admission Post-Bac. Mais c’est très insuffisant de publier les sources parce que, certes, ça permet aux lycéens malheureux, aux lycéens mécontents, d’étudier les sources du programme et d’y rechercher d’éventuelles iniquités, mais en fait c’est de donner la charge de la preuve aux lycéens. Et en fait, on aimerait que la charge de la preuve soit inversée, c’est-à-dire que ça soit au ministère de nous démontrer que les algorithmes qu’il utilise sont équitables.
 
Ici on utilise le mot démontrer exactement dans le même sens que quand on dit qu’on est capable de démontrer qu’un programme d’ascenseur n’ouvre pas les portes entre deux étages et ça c’est un problème de sûreté de fonctionnement. Et donc c’est le seul point, comme l’a rappelé Milad, sur lequel je suis un tout petit peu compétent dans ces histoires.
 
Bien entendu, avant ça, il faut définir la notion d’équité. Toute une tradition philosophique nous dit que l’équité est une forme d’invariance par permutation. C’est-à-dire ce qui s’applique c’est l’image de la justice aux yeux bandés, mais ce n’est pas si évident, par exemple, de savoir si on parle d’invariance en fait ou d’invariance en espérance. Par exemple il y a une seule place dans une université avec deux candidats, est-ce que s’ils ont les mêmes chances d’entrer à l’université c’est un processus équitable ou non, sachant que <em>ex-post</em> il y aura un seul des deux qui aura eu la place, donc l’autre pourrait se juger lésé.
 
Donc ce sont des questions, ici encore, des questions de définitions qui sont en jeu et également des questions de vérification et de démonstration de propriétés des programmes.
 
===Explication===
 
Mon quatrième et dernier exemple, sur lequel je vais être un petit peu plus long est celui de l’explication.
 
C’est une idée qui, en fait, est apparue d’abord en théorie de la démonstration, en logique, avant d’être un petit peu partout aujourd’hui en informatique. On s’est aperçu en théorie de la démonstration qu’il y a une différence entre savoir que quelque chose est vrai et savoir pourquoi quelque chose est vrai. Et mon exemple préféré est celui-ci. Si vous multipliez le nombre, je n’arrive jamais à le lire, c’est 12 345 679 par 36, vous obtenez 444 444 444. Et donc ici vous savez que le résultat de cette multiplication n’est formé que de 4.
 
En revanche, vous ne savez pas pourquoi il est formé uniquement de 4, mais il y a une autre démonstration qui explique pourquoi il n’y a que des 4 dans le résultat. Et je vais vous laisser ça en exercice. Si vous voulez le corrigé de l’exercice, j’ai donné une conférence d’une heure et demie uniquement sur cette multiplication et la vidéo est sur ma page web, donc vous pourrez avoir toutes les explications sur la raison pour laquelle il n’y a que des 4 dans le résultat de cette multiplication. Si vous voulez chercher, réfléchissez à 36 et 4 ; il y a une propriété en commun avec ces deux nombres.
 
En informatique, nous sommes habitués à savoir dire que quelque chose est vrai sans savoir pourquoi il est vrai. Voici une carte qui a été produite par Météo-France, qui prévoyait le temps qu’il allait faire le lendemain il y a quinze jours. Vous voyez qu’il y a quinze jours on prévoyait que le lendemain il ferait 12 degrés à Paris et donc là on sait que – vraisemblablement bien sûr, c’est statistique – il va faire 12 degrés à Paris, mais on ne sait pas pourquoi il va faire 12 degrés à Paris.
 
D’ailleurs on s’est posé la question, on s’est arraché les cheveux en se disant mais pourquoi est-ce qu’il va faire 12 degrés et pas 11 et pas 13 ? Une question qui nous paraît saugrenue parce que nous savons comment ces prévisions sont faites et il n’y a pas une raison qui fait qu’il va faire 12 degrés à Paris ; il y a des milliards de capteurs qui ont mesuré la température, la pression, que sais-je, et ensuite des ordinateurs qui, pendant des heures, ont résolu des équations par des méthodes d’éléments finis, etc., et puis à la fin le résultat est 12 ; mais ça serait bizarre de dire oui c’est forcément un nombre pair et forcément un nombre qui doit être divisible par 6. Non, ce n’est pas du tout ce type d’argument qui permet d’arriver au fait la température est de 12 degrés.
 
Là nous sommes, du simple fait de la grande quantité de données et de la complexité des calculs, dans un cadre que nous savons qu’une proposition est vraie mais nous ne savons pas expliquer, nous ne savons pas pourquoi elle est vraie.
 
Comme Gérard Berry l’a évoqué tout à l’heure, cette question de l’explication qui était une question un petit peu académique, réservée aux logiciens, eh bien aujourd’hui devient essentielle par le développement des algorithmes d’apprentissage.
 
Les algorithmes d’apprentissage sont des algorithmes qui servent à repérer des corrélations mais sans nécessairement expliquer ces corrélations. Donc face à l’expérience célèbre de Pasteur et des poules et du choléra des poules, eh bien un algorithme d’apprentissage sait remarquer, est capable de remarquer, remarque qu’il y a une corrélation entre l’injection de bactéries provenant d’une vieille culture et la résistance à l’injection de bactéries provenant d’une culture fraîche. En revanche, l’algorithme ne donne pas d’explication et, en particulier dans ce cas-là, l’explication demande de faire intervenir un concept qui n’est pas du tout dans les données, qui est le concept de système immunitaire et de stimulation du système immunitaire. Donc on ne voit pas comment cet algorithme d’apprentissage inventerait la notion de système immunitaire pour nous expliquer, comme Pasteur l’a fait, la raison pour laquelle les poules qui avaient été en contact avec des bactéries provenant d’une vieille culture étaient résistantes à celles provenant d’une culture fraîche.
 
Donc l’apprentissage est là, pour le coup, une branche énorme de l’informatique dans le monde, mais il y a une petite partie de l’apprentissage, de la recherche en apprentissage qui est consacrée à la construction d’explications. Et c’est dommage que Stéphane ??? ne soit pas là aujourd’hui puisque c’est un des experts sur cette question.
 
===15’ 40===
 
Pourquoi est-ce que ces explications importent du point de vue éthique ?
 
J’ai pris deux exemples ici. Le premier est que des algorithmes d’apprentissage sont capables de nous dire qu’ à partir d’un symptôme un traitement permet la suppression des symptômes. Mais ils ne sont pas capables de nous dire ni quelle est la maladie, ni pourquoi on a attrapé cette maladie, ni pourquoi le traitement est efficace contre cette maladie.
 
Il s’avère que les patients, en général, sont assez réticents quand ils vont voir un médecin, que le médecin leur prescrive un médicament sans leur donner ne serait-ce que le nom de la maladie dont ils souffrent et de leur expliquer, un petit peu, le mécanisme par lequel cette maladie est arrivée, par lequel elle peut être guérie. Là il y a des travaux de sociologues qui ont interrogé des patients et apparemment les seuls patients qui sont prêts à prendre un médicament sans comprendre comment ça marche, ce sont les informaticiens !
 
[Rires]
 
Il y a aussi une autre raison pour laquelle l’explication est importante, c’est qu’il y a une tension en apprentissage entre le fait que les algorithmes qu’on construit par apprentissage doivent avoir un comportement éthique et le fait qu’on veut qu’ils apprennent à partir de données qui décrivent des comportements des humains ; donc des comportements qui ne sont pas forcément éthiques.
 
Par exemple si on utilise un algorithme d’apprentissage pour apprendre quels sont les critères qui permettent d’accorder ou de refuser un prêt à un client dans une banque, eh bien si on se base sur les prêts qui ont été donnés par le passé, disons dans certains pays ou dans certains États des États-Unis plutôt situés au sud on s’aperçoit qu’il y une corrélation entre l’albédo de la peau du client et le fait qu’on lui accorde un prêt ou non. On accorde un prêt plus ou moins facilement en fonction de certaines caractéristiques prétendument ethniques des personnes en question.
 
Si on entraîne un algorithme avec ces données, eh bien l’algorithme va reproduire exactement le même biais, donc l’algorithme ne va pas avoir un comportement éthique et là il y a une tension : on veut qu’il apprenne, mais on veut aussi qu’il ait un comportement éthique.
 
Une manière de résoudre cette tension, c’est de demander à l’algorithme une explication, par exemple une explication de la raison pour laquelle le prêt est refusé et si l’algorithme dit : « Le prêt vous a été refusé parce que vous avez la peau blanche », eh bien on sait, à ce moment-là, que c’est une raison qui n’est pas acceptable et donc on peut, comme ça, forcer un comportement éthique de l’algorithme simplement en lui demandant de fabriquer une explication et un certain type d’explications.
 
Et ici on retrouve les valeurs de l’équité, de respect de la personne, qu’on avait vues dans les transparents précédents.
 
Sur ces deux points, je vous renvoie aux exposés de Laurence et de Serge qui vont suivre et qui vont développer ce point plus avant, mais je vous renvoie également au rapport de la CERNA, au livre de Laurence et au livre que j’ai écrit avec Serge qui discute ces questions de manière plus approfondie.
 
===Un précédent : la sécurité===
 
Est-ce que cette situation est nouvelle ? Le fait qu’un problème qui vient de l’extérieur de la science, un problème qui vient un peu de questions morales, pose des problèmes en sciences ? Eh bien ce n’est pas une nouveauté. Il y a plein d’exemples, mais là j’en ai pris un qui est relativement proche. Il y a 30 ans, il y a 40 ans, quand on parlait de sécurité informatique on disait : « Il faut que les systèmes d’informations soient résistants aux attaques ». Qu’est-ce que ça voulait dire ? On n’en savait rien. Avec le temps, eh bien se sont développés divers domaines de l’informatique : le chiffrement qui est le domaine le plus ancien, puisqu’il est antérieur à l’informatique et on a quasiment inventé l’informatique pour faire du chiffrement et du déchiffrement, mais également de la vérification de protocoles, de l’analyse de traces, de la virologie au sens que les informaticiens donnent à ce mot, et donc on s’aperçoit que la question de la sécurité des systèmes d’information a mené un énorme champ de recherche. À INRIA, par exemple, ça représente à peu près entre 15 et 20 % ; des équipes de recherche travaillent sur des questions qui sont reliées à la sécurité de près ou de loin. Donc c’est un énorme champ de recherche et on peut penser que ça sera la même chose avec l’éthique.
 
===Conclusion===
 
Juste un petit mot de conclusion. Je vous ai montré qu’il y a de nouveaux domaines de recherche qui émergent en informatique du fait de cette préoccupation éthique, mais je voudrais aussi conclure sur le fait que cette contribution apporte aussi quelque chose à l’éthique elle-même. Il y a une tradition en éthique, qui n’est pas dominante en éthique mais qui existe, qui était de formaliser les valeurs, les principes et les comportements en utilisant des logiques, principalement des logiques modales, et on s’aperçoit ici qu’il y a une manière alternative de formaliser les questions éthiques à l’aide d’algorithmes. Donc il faut à la fois voir les progrès pour la science mais également les progrès du côté de l’éthique si on veut avoir une vision complète. Merci.
 
[Applaudissements]
 
==20’ 26==
 
<b>Animateur : </b>Merci beaucoup. Donc une question là-bas. Présentez-vous.

Dernière version du 25 avril 2018 à 17:02


Publié ici - Avril 2018