Différences entre les versions de « Éthique et algorithmes - Gilles Dowek »

De April MediaWiki
Aller à la navigationAller à la recherche
(Page créée avec « Catégorie:Transcriptions '''Titre :''' Éthique et algorithmes '''Intervenant :''' Gilles Dowek '''Lieu :''' Académie des sciences - Paris '''Date :''' mai 2017... »)
 
Ligne 20 : Ligne 20 :
  
 
==Transcription==
 
==Transcription==
 +
 +
Avant de commencer mon exposé, la première question que je voudrais discuter, peut-être une question que vous vous posez, c’est pourquoi cet exposé a lieu un mardi et pas un lundi puisque, après tout, il y a une Académie des sciences morales et politiques et donc pourquoi parler d’éthique à l’Académie des Sciences. Cette question peut se reformuler : quel est le rapport entre les sciences et l’éthique ?
 +
 +
Une réponse traditionnelle c’est que celle de l’éthique de la recherche, c’est-à-dire de dire que la recherche dans ses finalités, dans ses modalités, dans son organisation, pose un certain nombre de questions éthiques qu’on peut formuler ainsi : dois-je fabriquer une bombe atomique ? Puis-je faire des essais cliniques sans informer les patients du fait qu’ils participent à un essai ? Dois-je plagier mes petits camarades ? Donc ça ce sont des questions d’éthique de la recherche et mon exposé et une partie des exposés de cet après-midi sont plutôt centrés autour d’une autre question qui est ce que j’appellerais la recherche de l’éthique et qui part de ce constat que bien faire, comment bien faire est une source féconde de questions scientifiques et techniques.
 +
 +
Je vais illustrer ce point par quatre exemples et donc c’est le plan de mon exposé : I, III, III, IV.
 +
 +
===Anonymisation===
 +
 +
Le premier exemple est celui de l’anonymisation des données. Donc vous savez, tous les chercheurs savent que la recherche aujourd’hui est très friande de données, par exemple la recherche médicale progresse beaucoup du fait que nous pouvons avoir des données statistiques sur un grand nombre de patients, sur un grand nombre de personnes en bonne santé également. Et donc dans des domaines comme la santé publique ou l’épidémiologie, le traitement statistique des données est devenu un moyen, une manière essentielle de faire de la recherche, mais il n’y a pas que les chercheurs qui s’intéressent aux données : par exemple l’administration des hôpitaux s’intéresse également à avoir les statistiques sur les patients qui ont été soignés dans ses hôpitaux.
 +
 +
Bien entendu, comme ces informations sont des données sensibles, ce sont des informations médicales, les dossiers médicaux des patients, on souhaite que ces informations soient utilisées sans que cela mette en péril la vie privée des patients. Donc là la valeur qui est associée ici est celle de respect de la vie privée. Et donc ça nous amène à nous demander comment anonymiser ces données.
 +
 +
Si on prend le mot anonymiser au sens propre ça veut dire supprimer le nom des personnes des données collectées, en général le nom de famille. Mais l’exemple que je donne ici vous montre que si on vous parle d’un compositeur qui s’appelle Wolfgang Amadeus bip et qui est né à Salzbourg le 27 janvier 1756, qui est mort à Vienne le 5 décembre 1991 [1791, NdT], sa vie privée n’est pas tout à fait protégée, parce qu’il est assez facile de ré-identifier, de dé-anonymiser ces données.
 +
 +
Vous pourriez me dire tout le monde n’a pas composé un<em> Don Juan</em> et un <em>Cosi fan tutte</em>, ce problème s’applique à un petit nombre de personnes. En fait, ce n’est pas tout à fait le cas, parce que si vous multipliez 2 par 30 0000, par 100 000, vous obtenez 9 milliards ; ça veut dire qu’il y a 9 milliards de combinaisons de trois informations qui sont le genre d’une personne, sa date de naissance et son code postal. Et comme nous sommes 60 millions de personnes vivant en France, nous sommes 100 fois moins de personnes que de combinaisons. Donc la plupart d’entre nous sont identifiés exactement par ces trois informations, leur genre, leur date de naissance et leur code postal. Sauf par exemple pour les baby-boomers qui vivent dans un arrondissement très peuplé de Paris, il se peut qu’il y en ait deux. Mais en général, 87 % par exemple des personnes qui vivent aux États-Unis sont identifiables par ces trois informations. Donc même si on supprime le prénom, même si on supprime beaucoup d’informations, on s’aperçoit qu’on peut toujours dé-anonymiser les données.
 +
 +
Donc ça, ça a mené à l’émergence d’un champ entier en informatique, c’est un sous-domaine de l’informatique qui étudie des algorithmes qui permettent de brouiller les données. Et ici les mots-clefs sont la notion de « privauté différentielle », <em>differential privacy</em> qui est la notion de k-anonymat. La notion de cas k-anonymat est relativement facile à comprendre. Une personne est k-anonyme quand, à partir des informations dont on dispose sur elle on peut identifier qu’elle appartient à un groupe de personnes formé d’au moins k personnes. C’est-à-dire quand on est un anonyme on n’est pas anonyme du tout ; quand on est deux anonymes on est presque anonyme. Quand on est 100 anonymes, les gens peuvent déduire qu’une information qui nous concerne, concerne peut-être l’une des 100 personnes d’un groupe auquel nous appartenons et donc là nous pouvons dire que notre vie privée est protégée.
 +
 +
Ce qui est important c’est que ces algorithmes sont loin d’être faciles et c’est pour ça qu’il y a plusieurs équipes, plusieurs laboratoires dans le monde, d’ailleurs plusieurs équipes en France qui travaillent uniquement sur ce sujet.
 +
 +
Les outils qui sont à l’œuvre derrière sont des outils d’algorithmie, bien sûr, mais aussi de l’information, de théorie quantitative de l’information.
 +
 +
===Une deuxième question est celle du vote électronique.===
 +
 +
Vous savez que les urnes et les bulletins de vote en papier coûtent extrêmement cher et que c’est une des raisons pour lesquelles on consulte très peu ses concitoyens sur les choix politiques. Essentiellement nous votons une fois tous les cinq ans ou quelque chose comme ça. Donc organiser une élection par exemple tous les jours serait difficile si on avait uniquement des bulletins de vote en papier.
 +
 +
Donc ici, il y a une proposition qui est de remplacer le vote papier, le vote à l’urne, par le vote électronique. Donc ici il y a un certain nombre de valeurs que nous souhaitons défendre, par exemple une valeur qui se formule par le slogan « une personne, une voix ». Donc il est important qu’un personne ne puisse pas voter deux fois.
 +
 +
Quand on étudie ces algorithmes de vote électronique, il y a deux objectifs qui sont la vérifiabilité du décompte des voix ; c’est-à-dire tout le monde doit pouvoir vérifier qu’il n’y a pas eu de triche, que le résultat des élections est conforme ; mais il y a aussi la question du secret du vote. C’est-à-dire il faut que l’algorithme garantisse qu’une personne ne peut pas savoir ce qu’une autre personne a voté.
 +
 +
En fait, un théorème de 2006 montre que ces deux propriétés, si on les prend dans leur forme la plus absolue, sont incompatibles. Donc ça, ça condamne un petit peu le vote électronique en disant que finalement le vote papier, le vote à l’urne, sera toujours meilleur que le vote électronique.
 +
 +
Cela dit, comme tous les résultats scientifiques, il faut relativiser ce résultat parce que la vérifiabilité du décompte des voix et le secret du vote deviennent compatibles sous certaines hypothèses. Par exemple une hypothèse relativement raisonnable est qu’il n’y a pas de coalition de tricheurs, de coalition de personnes qui voudraient influencer le vote, qui regroupe plus de la moitié des votants. Donc s’il n’y a pas coalition de 15 millions de votants en France, eh bien sur une élection où il y a 30 millions de votants, on peut concevoir des algorithmes de vote qui garantissent à la fois la vérifiabilité du décompte des voix et le secret du vote.
 +
 +
D’ailleurs ça, ça pose un mystère. Comment est-ce que le vote à l’urne fonctionne parce que le théorème qu’on démontre d’incompatibilité de vérifiabilité du décompte des voix et du secret du vote à priori s’applique à toutes les formes de vote qu’elles soient électroniques ou non. Bien sûr, quand on modélise ces algorithmes, eh bien les votants, les urnes, les bulletins eux-mêmes sont vus comme des machines de Turing, c’est-à-dire des ordinateurs idéalisés. Et quand on vote à l’urne, eh bien il y a une propriété des machines de Turing qui n’est pas vérifiée par les bulletins de papier qui est leur duplicabilité. C’est-à-dire qu’on ne peut pas avec un bulletin en papier en fabriquer deux en identiques et pourtant c’est ce qu’on fait en général avec de l’information électronique.
 +
 +
Donc il semble que ça soit la non-duplicabilité du papier qui garantisse la vérifiabilité et le secret du vote dans le cas du vote à l’urne.
 +
 +
Bien entendu ces notions de vérifiabilité et de secret du vote, je vous ai expliqué qu’il y avait besoin d’un modèle du vote où on modélise les différents acteurs par des machines de Turing ou par des algorithmes polynomiaux, etc. Ici la vraie difficulté dans ce domaine de recherche qui lui est également est extrêmement vivace aussi bien en France que dans d’autres pays c’est, bien sûr, de définir ces concepts. On est dans un domaine de la science où c’est la définition qui est plus difficile. Les théorèmes sont difficiles, mais les définitions sont plus difficiles encore.
 +
 +
==08’ 52==
 +
 +
Troisième exemple comment garantir l’équité

Version du 9 février 2018 à 16:05


Titre : Éthique et algorithmes

Intervenant : Gilles Dowek

Lieu : Académie des sciences - Paris

Date : mai 2017

Durée : 30 min

Visualiser la conférence

Licence de la transcription : Verbatim

NB : transcription réalisée par nos soins.Les positions exprimées sont celles des intervenants et ne rejoignent pas forcément celles de l'April.

Statut : Transcrit MO

Transcription

Avant de commencer mon exposé, la première question que je voudrais discuter, peut-être une question que vous vous posez, c’est pourquoi cet exposé a lieu un mardi et pas un lundi puisque, après tout, il y a une Académie des sciences morales et politiques et donc pourquoi parler d’éthique à l’Académie des Sciences. Cette question peut se reformuler : quel est le rapport entre les sciences et l’éthique ?

Une réponse traditionnelle c’est que celle de l’éthique de la recherche, c’est-à-dire de dire que la recherche dans ses finalités, dans ses modalités, dans son organisation, pose un certain nombre de questions éthiques qu’on peut formuler ainsi : dois-je fabriquer une bombe atomique ? Puis-je faire des essais cliniques sans informer les patients du fait qu’ils participent à un essai ? Dois-je plagier mes petits camarades ? Donc ça ce sont des questions d’éthique de la recherche et mon exposé et une partie des exposés de cet après-midi sont plutôt centrés autour d’une autre question qui est ce que j’appellerais la recherche de l’éthique et qui part de ce constat que bien faire, comment bien faire est une source féconde de questions scientifiques et techniques.

Je vais illustrer ce point par quatre exemples et donc c’est le plan de mon exposé : I, III, III, IV.

Anonymisation

Le premier exemple est celui de l’anonymisation des données. Donc vous savez, tous les chercheurs savent que la recherche aujourd’hui est très friande de données, par exemple la recherche médicale progresse beaucoup du fait que nous pouvons avoir des données statistiques sur un grand nombre de patients, sur un grand nombre de personnes en bonne santé également. Et donc dans des domaines comme la santé publique ou l’épidémiologie, le traitement statistique des données est devenu un moyen, une manière essentielle de faire de la recherche, mais il n’y a pas que les chercheurs qui s’intéressent aux données : par exemple l’administration des hôpitaux s’intéresse également à avoir les statistiques sur les patients qui ont été soignés dans ses hôpitaux.

Bien entendu, comme ces informations sont des données sensibles, ce sont des informations médicales, les dossiers médicaux des patients, on souhaite que ces informations soient utilisées sans que cela mette en péril la vie privée des patients. Donc là la valeur qui est associée ici est celle de respect de la vie privée. Et donc ça nous amène à nous demander comment anonymiser ces données.

Si on prend le mot anonymiser au sens propre ça veut dire supprimer le nom des personnes des données collectées, en général le nom de famille. Mais l’exemple que je donne ici vous montre que si on vous parle d’un compositeur qui s’appelle Wolfgang Amadeus bip et qui est né à Salzbourg le 27 janvier 1756, qui est mort à Vienne le 5 décembre 1991 [1791, NdT], sa vie privée n’est pas tout à fait protégée, parce qu’il est assez facile de ré-identifier, de dé-anonymiser ces données.

Vous pourriez me dire tout le monde n’a pas composé un Don Juan et un Cosi fan tutte, ce problème s’applique à un petit nombre de personnes. En fait, ce n’est pas tout à fait le cas, parce que si vous multipliez 2 par 30 0000, par 100 000, vous obtenez 9 milliards ; ça veut dire qu’il y a 9 milliards de combinaisons de trois informations qui sont le genre d’une personne, sa date de naissance et son code postal. Et comme nous sommes 60 millions de personnes vivant en France, nous sommes 100 fois moins de personnes que de combinaisons. Donc la plupart d’entre nous sont identifiés exactement par ces trois informations, leur genre, leur date de naissance et leur code postal. Sauf par exemple pour les baby-boomers qui vivent dans un arrondissement très peuplé de Paris, il se peut qu’il y en ait deux. Mais en général, 87 % par exemple des personnes qui vivent aux États-Unis sont identifiables par ces trois informations. Donc même si on supprime le prénom, même si on supprime beaucoup d’informations, on s’aperçoit qu’on peut toujours dé-anonymiser les données.

Donc ça, ça a mené à l’émergence d’un champ entier en informatique, c’est un sous-domaine de l’informatique qui étudie des algorithmes qui permettent de brouiller les données. Et ici les mots-clefs sont la notion de « privauté différentielle », differential privacy qui est la notion de k-anonymat. La notion de cas k-anonymat est relativement facile à comprendre. Une personne est k-anonyme quand, à partir des informations dont on dispose sur elle on peut identifier qu’elle appartient à un groupe de personnes formé d’au moins k personnes. C’est-à-dire quand on est un anonyme on n’est pas anonyme du tout ; quand on est deux anonymes on est presque anonyme. Quand on est 100 anonymes, les gens peuvent déduire qu’une information qui nous concerne, concerne peut-être l’une des 100 personnes d’un groupe auquel nous appartenons et donc là nous pouvons dire que notre vie privée est protégée.

Ce qui est important c’est que ces algorithmes sont loin d’être faciles et c’est pour ça qu’il y a plusieurs équipes, plusieurs laboratoires dans le monde, d’ailleurs plusieurs équipes en France qui travaillent uniquement sur ce sujet.

Les outils qui sont à l’œuvre derrière sont des outils d’algorithmie, bien sûr, mais aussi de l’information, de théorie quantitative de l’information.

Une deuxième question est celle du vote électronique.

Vous savez que les urnes et les bulletins de vote en papier coûtent extrêmement cher et que c’est une des raisons pour lesquelles on consulte très peu ses concitoyens sur les choix politiques. Essentiellement nous votons une fois tous les cinq ans ou quelque chose comme ça. Donc organiser une élection par exemple tous les jours serait difficile si on avait uniquement des bulletins de vote en papier.

Donc ici, il y a une proposition qui est de remplacer le vote papier, le vote à l’urne, par le vote électronique. Donc ici il y a un certain nombre de valeurs que nous souhaitons défendre, par exemple une valeur qui se formule par le slogan « une personne, une voix ». Donc il est important qu’un personne ne puisse pas voter deux fois.

Quand on étudie ces algorithmes de vote électronique, il y a deux objectifs qui sont la vérifiabilité du décompte des voix ; c’est-à-dire tout le monde doit pouvoir vérifier qu’il n’y a pas eu de triche, que le résultat des élections est conforme ; mais il y a aussi la question du secret du vote. C’est-à-dire il faut que l’algorithme garantisse qu’une personne ne peut pas savoir ce qu’une autre personne a voté.

En fait, un théorème de 2006 montre que ces deux propriétés, si on les prend dans leur forme la plus absolue, sont incompatibles. Donc ça, ça condamne un petit peu le vote électronique en disant que finalement le vote papier, le vote à l’urne, sera toujours meilleur que le vote électronique.

Cela dit, comme tous les résultats scientifiques, il faut relativiser ce résultat parce que la vérifiabilité du décompte des voix et le secret du vote deviennent compatibles sous certaines hypothèses. Par exemple une hypothèse relativement raisonnable est qu’il n’y a pas de coalition de tricheurs, de coalition de personnes qui voudraient influencer le vote, qui regroupe plus de la moitié des votants. Donc s’il n’y a pas coalition de 15 millions de votants en France, eh bien sur une élection où il y a 30 millions de votants, on peut concevoir des algorithmes de vote qui garantissent à la fois la vérifiabilité du décompte des voix et le secret du vote.

D’ailleurs ça, ça pose un mystère. Comment est-ce que le vote à l’urne fonctionne parce que le théorème qu’on démontre d’incompatibilité de vérifiabilité du décompte des voix et du secret du vote à priori s’applique à toutes les formes de vote qu’elles soient électroniques ou non. Bien sûr, quand on modélise ces algorithmes, eh bien les votants, les urnes, les bulletins eux-mêmes sont vus comme des machines de Turing, c’est-à-dire des ordinateurs idéalisés. Et quand on vote à l’urne, eh bien il y a une propriété des machines de Turing qui n’est pas vérifiée par les bulletins de papier qui est leur duplicabilité. C’est-à-dire qu’on ne peut pas avec un bulletin en papier en fabriquer deux en identiques et pourtant c’est ce qu’on fait en général avec de l’information électronique.

Donc il semble que ça soit la non-duplicabilité du papier qui garantisse la vérifiabilité et le secret du vote dans le cas du vote à l’urne.

Bien entendu ces notions de vérifiabilité et de secret du vote, je vous ai expliqué qu’il y avait besoin d’un modèle du vote où on modélise les différents acteurs par des machines de Turing ou par des algorithmes polynomiaux, etc. Ici la vraie difficulté dans ce domaine de recherche qui lui est également est extrêmement vivace aussi bien en France que dans d’autres pays c’est, bien sûr, de définir ces concepts. On est dans un domaine de la science où c’est la définition qui est plus difficile. Les théorèmes sont difficiles, mais les définitions sont plus difficiles encore.

08’ 52

Troisième exemple comment garantir l’équité