Data, la bataille du siècle - Futurapolis 2017

De April MediaWiki
Aller à la navigationAller à la recherche


Titre : Data, la bataille du siècle

Intervenants : Gérard Berry - Aurélie Jean - Gaspard Koenig - Guillaume Grallet - Étienne Gernelle

Lieu : Futurapolis 2017 - Toulouse

Date : novembre 2017

Durée : 48 min 25

Visualiser la conférence

Licence de la transcription : Verbatim

NB : transcription réalisée par nos soins. Les positions exprimées sont celles des intervenants et ne rejoignent pas forcément celles de l'April.

Statut : Transcrit MO

Description

Qu’elle soit Big ou Open, la data ne cesse de faire parler d’elle. La démocratisation des objets connectés, l’effondrement du coût de stockage et les perspectives de l’utilisation commerciale qu’elle offre ont fait entrer la data dans une nouvelle ère. Ces données qui savent déjà traquer nos moindres déplacements, achats, et battements de coeur sauront-elles anticiper nos désirs cachés, améliorer notre santé ou décider à notre place ?

Transcription

Présentateur : Avec nous Aurélie Jean, scientifique numéricienne et entrepreneure, cofondatrice de MixR.net. Gérard Berry, professeur au Collège de France, membre de l’Académie des Sciences, on peut l’applaudir. Gaspard Koenig professeur de philosophie et essayiste. Et rien de moins qu’un fameux duo de choc pour les questionner, à ma gauche Étienne Gernelle, on vous avait présenté comme modérateur, ce qui est surprenant quand on vous connaît un peu, directeur du Point et Guillaume Grallet, pour la caution sérieuse et morale qui est tout au bout, merci Guillaume. À vous messieurs.

Étienne Gernelle : Merci beaucoup Maurice. On est très contents d’être là aujourd’hui avec un panel extrêmement prestigieux et qui n’a pas peur, en plus. C’est parti. On va parler des data et les data c’est quelque chose qu’on voit souvent dans les nuages, un peu partout, mais c’est aussi très concret. Moi je voulais de commencer avant qu’on rentre dans le dur — le débat, la polémique, la violence — qu’on se demande, une question très simple, puisque les data on dit souvent que c’est le pétrole du XXIe siècle, le pétrole ça prend très longtemps à produire, mais les data c’est nous qui les produisons. Alors depuis ce matin, qu’est-ce que vous avez produit comme données vous ? Vous avez forcément produit des données depuis que vous êtes levé ce matin !

Gaspard Koenig : Oui, on a produit plein de données. Moi j’en ai peut-être produit un tout petit peu moins, parce que j’enlève la géolocalisation sur mon téléphone, sur mon smartphone.

Étienne Gernelle : C’est un rebelle Gaspard.

Gaspard Koenig : Je conseille à tout le monde de le faire. Il faut rentrer les adresses à la main mais comme ça, au moins, vous n’êtes pas traçable.

Étienne Gernelle : Aurélie.

Aurélie Jean : Déjà Google Maps, forcément, pour venir jusqu’ici à pied. Donc la géolocalisation qui est forcément traitée, absorbée et j’imagine que les trucs après qui me seront proposés sur Google seront forcément envoyés à ma géoloc. Google, forcément. WhatsApp, Messenger. Donc oui, je pense qu’il y a eu beaucoup de données qui ont été collectées depuis ce matin me concernant en tout cas.

Étienne Gernelle : Bravo ! Vous êtes une bonne productrice de données.

Aurélie Jean : Très bonne productrice, c’est vrai !

Étienne Gernelle : Gérard Berry.

Gérard Berry : L’idée que c’est nous qui produisons les données, est une idée qui n’est pas tout à fait juste. Les données que nous produisons nous même ce n’est rien du tout par rapport aux données qui sont produites pour nous par nos appareils. Par exemple ce matin je me suis servi de mon ordinateur pour faire du courrier électronique et je sais qu’il y a beaucoup de gens qui ont su exactement à quelle vitesse je tapais des touches, quand, où, comment j’écrivais et qui sont capables de rejouer des sessions que je fais, ce qui est tout à fait scandaleux, mais c’est généralisé. Donc j’ai produit une quantité phénoménale de données rien qu’en faisant ce que je fais d’habitude. Moi personnellement j’ai décidé que je m’en fichais, mais ce n’est pas forcément vrai pour tout le monde.

Étienne Gernelle : Pardon, question un peu technique, mais comment est-ce que c’est stocké le rythme auquel on écrit sur un ordinateur ? Comment c’est possible ?

Gérard Berry : Ça ce n’est rien du tout, ça c’est possible. C’est la vidéo prend de la place, mais comment on tape sur un ordinateur, c’est très facile à stocker, ça ne prend pas de place.

Guillaume Grallet : Il y a une autre question qui nous passionne avec Étienne, hier, au marathon des créatifs, il y a une start-up qui était innovante et, en fait, on avait finalement peu de choses à lui reprocher parce qu’elle disait : « À chaque fois que vous allez faire un achat, on a mis au point un système dans lequel le ticket de caisse il y a QR Code, vous pourrez le scanner et vous aurez une réduction immédiate sur les futurs achats et, en même temps, le commerçant va récupérer vos données. » Donc il expliquait que c’était une plateforme révolutionnaire et c’est vrai qu’il y a un business modèle assez bon. Ma question pour l’instant c’est est-ce qu’on peut récupérer l’usage de ses données ? Je crois, Gaspard, avec votre think tank, vous réfléchissez à une solution assez radicale là-dessus.

Gaspard Koenig : En fait c’est intéressant, parce que pourquoi cette start-up fait ça en passant par les bons d’achat ? Simplement parce qu’elle n’a pas le droit aujourd’hui, dans l’état actuel du droit, de rémunérer les utilisateurs pour les data qu’ils produisent. Donc ils passent par des choses un peu de biais comme les bons d’achat.

Aujourd’hui il n’y a pas en droit, ni aux États-Unis ni en Europe, de propriété privée sur les données. Les données ne sont pas de nature patrimoniale. J’entends les données personnelles. Parce qu’ensuite, les données qui sont récupérées par les plateformes sont, elles, agrégées ou créées d’ailleurs, et forment des data-bases qui sont, elles, soumises au droit de propriété intellectuelle et qui forment l’essentiel du business modèle des grandes plateformes qui ensuite peuvent les revendre y compris à des institutions publicitaires qui, Aurélie l’a dit vous, « retargettent », et vous proposent les produits que vous êtes censé vouloir.

Le grand vol dans tout ça, ce n’est pas grave c’est une industrie nouvelle, ça fait dix ou vingt ans. La révolution industrielle on a mis des dizaines d’années pour produire le brevet, la propriété intellectuelle que cette révolution appelait. De même je pense que la révolution numérique appelle la création d’un droit de propriété sur la data et sur la data personnelle. Parce qu’aujourd’hui, on dit c’est le pétrole du XXIe siècle, mais le producteur de pétrole, le raffineur du pétrole, il se fait de l’argent avec la valeur ajoutée qu’il apporte, c’est normal, mais le producteur primaire du pétrole, qui est vous et moi, n’êtes pas rémunérés, vous n’est pas payé par Google, vous n’êtes pas payé par Facebook. Or, quand vous sortez de chez vous, vous fermez la porte de votre appartement ; si vous oubliez votre portefeuille dans un magasin vous allez le chercher ; si quelqu’un l’a volé, vous allez porter plainte. Vous avez des objets qui sont à vous que vous protégez. Pourquoi est-ce qu’il n’en serait pas de même des data ?

On va me dire « oui mais les data vous offrent un service gratuit » ; c’est ce qui dit Tirole d’ailleurs dans son livre ; quand vous utilisez Google, vous utilisez un service donc si vous laissez vos data, en un sens c’est un échange. Oui, mais c’est un échange très collectiviste puisque c’est le même pour tous. Quelle que soit la valeur des data que vous apportez à Google, vous n’avez absolument pas le choix, vous cliquez simplement sur des terms and conditions que vous ne comprenez pas. À titre d’exemple, les terms and conditions de Paypal sont plus longues que Hamlet et beaucoup moins amusantes à lire. Et dans l’hypothèse même que vous les ayez lues vous n’allez certainement pas les négocier. Je ne sais pas si vous vous rappelez que récemment il y avait eu un scandale il y a un an parce que Facebook avait modifié les posts que recevaient un certain nombre d’utilisateurs en leur donnant à voir des choses négatives. Conclusion de l’étude c’était : quand les gens voyaient des messages négatifs ils devenaient plus tristes. Il ne fallait pas être un grand génie pour trouver ça ! Donc les gens ont protesté, mais le plus intéressant et le plus scandaleux c’est qu’en fait Facebook avait le droit de faire ça ; parce que dans les terms and conditions, que vous n’avez pas lues, vous laissez à Facebook le droit d’utiliser vos data, y compris sur vous-même, pour toute fin de recherche qu’il juge nécessaire.

Donc face à ça, face à ce nouveau problème des communs qui est que nos data sont pillées, sont dans la nature, évidemment, les gens s’en rendent compte, il y a plusieurs grandes options de politique publique qui apparaissent et qui, en fait, remettent au goût du jour les vielles philosophies politiques qui ont quelque chose à dire sur ce problème des data.

Vous avez l’option communiste qui est de nationaliser la donnée, et elle est discutée puisque quand Pierre Bellanger parle de souveraineté numérique, il a ça en tête. Il dit l’État finalement ramène toutes les données, les anonymise et ensuite les redistribue.

Vous avez l’option qui est aujourd’hui adoptée par les régulateurs européens et aussi français, par la CNIL, par le prochain règlement GDPR, qui est un système de droits et d’obligations, ce qu’on appelle le droit personnaliste. C’est-à-dire vous avez le droit de savoir quel algorithme a utilisé vos données bancaires par exemple ; vous avez le droit à l’oubli. À l’inverse, les plateformes ont l’obligation de proposer des algorithmes qui ne prennent en compte votre historique recherche, etc. Ce sont des droits et des obligations qui vont être extrêmement compliqués, qui vont judiciariser les processus, qui vont probablement freiner l’innovation et qui vont coûter énormément aux entreprises.

Vous avez une troisième option, ce n’est pas moi qui la propose, déjà Jaron Lanieraux États-Unis a beaucoup travaillé là-dessus, le think tank que je dirige est en train de faire un rapport avec des gens qui s’y connaissent mieux que moi.

Étienne Gernelle : Génération libre.

Gaspard Koenig : Génération libre, pour comprendre comment économiquement, juridiquement, ça peut tenir la route. C’est de créer un droit de propriété sur la data qui fait que via des intermédiaires qui se créeront, chacun peut vendre à ces plateformes ses data selon un prix qui sera un prix de marché. C’est-à-dire qu’il vous dira moi j’abandonne toutes mes data à Facebook par exemple, en échange j’ai le maximum ; ou moi j’utilise Facebook sans lui donner mes data et donc je paye, je paye le prix, c’est normal parce que je crée une externalité négative pour la plateforme ; ou bien je les cède mais, par exemple, avec des conditions, sans qu’il cède à des tiers, sans que ceci cela et, à ce moment-là, il y a un prix qui sera négocié. Chacun aura une sorte de compte intelligent avec des flux permanents de crédit et de débit sur l’utilisation qui sera faite de ses data et, me dit-on techniquement, la blockchain, c’est le mot magique qui permet de tout résoudre, permettrait d’y arriver.

Pourquoi ça ne se fait pas aujourd’hui ? Je ne vais dans les détails, mais ce serait intéressant d’en parler, pourquoi ça ne se fait pas aujourd’hui, quelle est la résistance philosophique profonde ? La résistance philosophique profonde, qui est clairement expliquée par le Conseil d’État dans son rapport de 2014 sur le numérique, qui est un texte très intéressant qui traduit toutes nos névroses, le problème philosophique profond c’est que la data est considérée par les juristes, par nos gouvernants, comme l’émanation de soi, les données personnelles. Or le soi, depuis le droit romain, le soi est un sujet, n’est pas un objet ; le soi n’est pas patrimonial : je ne peux pas vendre mon corps, je en peux pas vendre mes organes, je ne peux pas vendre mon cadavre ; même si d’ailleurs les hôpitaux les revendent ensuite à des chirurgiens, c’est le même problème finalement pour la data. Mais bon !

Donc vous avez un article 16-5 du Code civil qui dit le corps n’est pas à vendre. Puisque je ne peux pas marchandiser mon corps, c’est le même débat que sur la GPA, je ne peux pas marchandiser ma data. Et comme je ne peux pas la marchandiser eh bien, en fait, je me laisse piller. Alors que si on va jusqu’au bout de la logique de la modernité, jusqu’au bout de la logique de Locke qui est le premier à avoir posé que « je m’appartiens à moi-même », I ??? mysef, contre la logique judéo-chrétienne, qui voulait que nous ne soyons que l’usufruitier de notre propre corps qui, in fine, appartient à Dieu et reviendra dans son royaume, si véritablement nous sommes dans un monde immanent où personne d’autre que moi ne peut être propriétaire de moi-même, eh bien oui, il faut poser un droit de propriété de soi sur soi, dont la conséquence logique sera aussi d’avoir un droit de propriété sur les data.

Tout ça nous ramène, ce sujet de la patrimonialité des data, nous ramène à des options philosophiques profondes sur l’avenir de nos sociétés, parce que si vous substituez au sujet de droit romain la propriété de soi sur soi, vous chamboulez un certain nombre de systèmes juridiques et économiques et je pense que ça sera l’avenir, ça sera la grande question du siècle qui vient, avec les bio tech et tout ça.

10’ 28

Étienne Gernelle : À propos de résistance philosophique aux religions, est-ce que vous avez une résistance philosophique à ce que vient de dire Gaspard ?

Aurélie Jean : Je trouve l’idée très intéressante, en fait cette idée de vendre de la donnée qui du coup n’est pas anonyme, qui est rattachée à une personne, un individu, une identité. Moi, en fait, j’ai quelque d’autre en plus de ça, que je trouve intéressant, c’est de rendre la donnée anonyme et de la rendre ouverte à tous. Qui sont deux choses qui peuvent, pour moi, vivre en parallèle mais qui n’ont pas le même but. C’est-à-dire que ce que propose Gaspard est une manière, en fait, de développer un business modèle beaucoup plus juste et qui va peut-être s’auto-équilibrer, de la donnée. À l’heure actuelle, il faut quand même s’en rendre compte, le marché de la donnée est un marché unilatéral ; il faut quand même s’en rendre compte. Et d’ailleurs je le dis souvent aux gens. Quand les gens je leur demande : « Quel est selon vous le client de Facebook ? » Ils disent : « Eh bien c’est moi. » Je fais : « Non, ce n’est pas toi ! C’est le mec qui achète de la pub » et les gens ne s’en rendent pas compte. Donc c’est intéressant.

Moi, pour la donnée, en fait, j’aime beaucoup cette idée, parce qu’encore une fois ça remet à plat un business modèle qui a été fait de façon assez violente, assez rapide, et par des gens qui n’avaient pas forcément, peut-être, de bonnes idées à la base. Après, en parallèle de ça, moi je suis pour de rendre la donnée anonyme et ouverte à tous. Ce serait un moyen aussi d’arriver à tacler, quelque part, les challenges techniques liés à la donnée tels que les biais, enfin tu sais exactement, voilà.

Guillaume Grallet : Ouais, on va en parler tout de suite. Monsieur Berry vous avez une expression que j’adore vous dites qu’il faut s’emparer des problèmes avant qu’ils ne soient contrôlés par les autres. Est-ce que vous êtes d’accord avec l’approche de Gaspard ? Est-ce que vous pensez que c’est réalisable ?

Gérard Berry : Je suis d’accord avec l’approche à la base ; que ce soit réalisable, là, je pense que ce n’est pas du tout forcément vrai. De même que l’anonymisation parce qu’il y a des freins absolument majeurs qu’il faut bien connaître.

D’abord on a plusieurs problèmes sur le sujet. Il y en a un qui est absolument massif en ce moment, vous le suivez peut-être, qui s’appelle la sécurité informatique. Quand on se fait voler ses données en grand, ce qui arrive mais alors de façon triviale, eh bien là toutes les lois ne servent plus à rien, je dirais. Je donne deux exemples simplement

Equifax, organisme de certification du crédit numéro 1 aux États-Unis s’est juste fait voler 145 millions de données ; les données personnelles de 145 millions de clients aux États-Unis et probablement de 40 millions en Angleterre ; l’intégralité c’est-à-dire le nom, l’adresse, le numéro de téléphone, le numéro de compte en banque et tout ça. Ce n’est pas anodin ! Ils ont mis plusieurs mois à le dire. Uber vient de se faire voler les données, ne vient pas de se faire voler, vient d’admettre qu’il s’était fait voler en juillet les données de 57 millions de comptes, dont peut-être le vôtre, et, pour l’instant, ils ne se sentent pas obligés de dire de qui c’est. Pour l’instant les gens sont rentrés dans le bleu, dans le mou, parce que je ne sais qui dans cette salle a appris dans sa jeunesse quoi que ce soit sur l’informatique. Je pense qu’un médecin qui va être confronté à l’informatique tout le temps a eu exactement zéro seconde de formation sur le sujet. Donc, eh bien comme les gens ne comprennent pas le sujet, que les conditions générales d’utilisation, les fameuses CGU, sont de toutes façons incompréhensibles, qu’il faut juste cliquer dessus. Avant il ne fallait même pas cliquer dessus, il fallait cliquer dessus si on ne les voulait pas. Mais que de toutes façons ça ne marchera pas si on ne clique pas dessus, tout ça n’a aucun sens réel. D’accord ? Donc le premier obstacle c’est le maintien de l’ignorance. C’est-à-dire qu’on peut discuter très bien, on dit on va protéger les données, il faut juste admettre qu’on ne sait pas faire ça.

L’anonymisation. Ah ! C’est un très vaste sujet ! Eh bien il n’est pas clair qu’on sache faire ça. Un exemple. Je donne un exemple. Les médecins ont besoin des données génomiques pour faire des très grandes études de big data, pour le coup les données génomiques se sont pas trop fausses. Parce qu’il ne faut pas oublier que les données sont largement fausses dans la nature.

Guillaume Grallet : Ça c’est un vrai sujet.

Gérard Berry : Par exemple quand on dit on va lire la littérature sur le cancer, comme fait Watson, la littérature médicale, il ne faut pas oublier que les médecins pensent qu’il y a environ au moins 25 % des papiers qui sont foireux, donc il faut faire attention.

Étienne Gernelle :  ??? frelaté alors

Gérard Berry : Nettoyer les données c’est compliqué. Donc on est dans un monde qui est quand même difficile. La sécurité c’est difficile. Ce n’est pas que les gens sont spécialement mauvais, c’est que le problème est dur ; on ne sait pas vraiment le résoudre à l’heure actuelle. Donc l’anonymisation, c’est gentil, je ne sais pas comment on va faire pour anonymiser mon génome. Je pense qu’on sait me reconnaître.

Aurélie Jean : Vous avez entièrement raison, d’autant plus lorsqu’on s’intéresse à des données qui caractérisent votre identité. Ça je suis d’accord ; quand on s’intéresse à des données qui caractérisent votre identité.

Gérard Berry : Oui, mais regardez ça.

Aurélie Jean : Il y a déjà, je pense, un large panel de data qu’on peut rendre anonymes et qui nous permettent peut-être de mieux avancer sur ses propres données.

Gérard Berry : Ça c’est loin d’être sûr, parce qu’on sait croiser beaucoup de choses. Donc quand on donne des données. Voilà ! On ne peut pas non plus. Par exemple si on veut faire des statistiques médicales et qu’on dit on va enlever la date de naissance des gens, eh bien perd une information majeure, donc c’est difficile.

Aurélie Jean : Ce n’est pas assez. Vous avez entièrement raison et la médecine, je pense que c’est le cas le plus critique où, en fait, si on écarte les données ethniques, le sexe, on écarte complètement une donnée qui peut-être importante pour l’analyse en fait a posteriori des données de brut.

Gérard Berry : Et puis je pense qu’il n’est pas très dur à l’heure actuelle, mais ce n’est pas fait parce que les gens ne veulent pas le faire, de faire une application qui, quand on arrive sur un clavier quelconque, dit : « Who am I ? », et qui répond : « Vous êtes Gérard Berry. » Je pense qu’on saurait faire ça, donc l’anonymisation ce n’est pas facile.

Aurélie Jean : En fait, quand je parle de rendre les data anonymes, c’est de ne pas affecter la donnée à une identité. C’est-à-dire Gaspard, on peut connaître tes données, à savoir que tu es un homme de tel âge, je ne dirais pas ton âge, je ne connais pas ton âge, je ne veux vexer personne

Gaspard Koenig : Il est jeune ! Google le connaît !

Aurélie Jean : De telle nationalité, telle profession, mais ce ne sera pas Gaspard.

Gérard Berry : C’est très facile à croiser avec des tas d’autres.

Aurélie Jean : La corrélation est très facile, mais ça demande un effort supplémentaire.

Gérard Berry : Il faut vraiment analyser ce problème en détail, en grand, et c’est un problème technique, ce n’est pas qu’un problème philosophique, il faut faire les deux en même temps, ce que vous faites de toutes façons, il faut faire les deux en même temps et ne pas penser qu’il suffit de décider de faire quelque chose pour que ce soit fait. C’est difficile.

Aurélie Jean : Complètement.

Étienne Gernelle : Gaspard n’est pas difficile à reconnaître, parce que, en France, il est le seul à peu près à penser ce qu’il pense.

Gaspard Koenig : Sur le problème de l’ouverture des données de l’open data, faut-il être anonymisé, moi je reste extrêmement prudent, je me méfie énormément notamment des algorithmes qui pour le coup sont classés secret Défense, qui désormais, vous le savez, c’est l’article 2 de la loi renseignement, filtrent l’ensemble des metadata qui émanent des opérateurs téléphoniques français, la NSA le faisait déjà pour les États-Unis depuis longtemps. Et donc, aujourd’hui, vous avez quand même une mainmise extrêmement inquiétante du pouvoir central, des GAFA aussi, mais aussi du pouvoir politique sur l’ensemble de nos données. Et d’ailleurs, dans ce rapport du Conseil d’État que je mentionnais, il faisait l’hypothèse de la patrimonialité des data, ce que je viens de vous dire ; c’est quelque chose qui est étudié et il disait : « Oui mais quand même, ça serait très embêtant s’il y avait la patrimonialité des données, parce le fisc et la police devraient justifier l’utilisation qu’ils font des data des utilisateurs. »

Et c’est ça qui est intéressant dans ce système de patrimonialité, c’est que si pour des raisons d’intérêt général, santé, police, fisc, etc., vous voulez ouvrir les données, aujourd’hui, vous ne vous justifiez devant personne à peu près. Avec un système de propriété privée, vous devrez justifier de quoi ? D’une expropriation ou d’une mise à disposition, qui est un sujet juridique qui existe comme les lignes de train qui vont passer dans votre jardin parce que c’est d’intérêt général. Mais du coup c’est le juge judiciaire qui pourra contrôler que cette expropriation est proportionnelle à l’intérêt général recherché.

Et donc, au lieu de prendre toutes les données comme ça d’un coup en disant « oui, mais ne vous inquiétez pas, c’est pour l’intérêt général », s’il y a de la propriété privée des data les gens pourront dire « attendez, est-ce que vous êtes bien sûr que ce que vous faites est proportionnel, mesuré, etc. ? » Et c’est le juge judiciaire, j’insiste, et pas administratif, qui ira regarder ce qui se passe.

Donc ce système de droit de propriété, remettre le droit de propriété au centre du sujet de la data, a des conséquences sur la rémunération, mais a aussi des conséquences sur, par exemple, l’open data, et donc vous pouvez repenser, en fait, l’éthique de la data à travers le transfert des droits de propriété.

Étienne Gernelle : Sur le contrôle de la data par les citoyens.

Aurélie Jean : Et je pense qu’au-delà de la data, d’ouvrir la data, pour reprendre en fait la théorie de ??? qui est un data scientist irlandais et un grand activiste de la data et de la protection des données — je pense qu’il t’intéresserait énormément — et en fait il dit lui que au-delà des données, il faudrait ouvrir les algos, ce dont je m’explique. C’est-à-dire que lui il considère, et il cite Deleuze pour ça donc c’est très intéressant, qu’il y a les lois et puis au-dessus il y a les choses un peu plus élevées qui vont conditionner nos actes quotidiens, qui est une morale religieuse, laïque, peu importe, mais il y a quelque chose. En fait, il dit : « Les textes de loi sont des choses qui sont complètement ouvertes. Personne n’est censé ignorer la loi, et donc, quelque part, c’est ouvert. »

Étienne Gernelle : Ne peut la connaître.

Aurélie Jean : Ne peut. Voilà. Oui. Et en fait, lui ce qu’il dit c’est parce que les algorithmes, en fait, quelque part, recréent le tissu social de demain ce serait normal que les algo publics ou privés, on en parlait avec Gérard Berry en disant que les algos publics déjà, on était obligé de les rendre publics, doivent, en fait, être accessibles par tous. Donc je trouve ça, en fait, très intéressant, d’autant plus que lorsqu’on dit ça à quelqu’un les gens pensent que l’algorithme c’est la clef, c’est un peu le pétrole, le cœur du pétrole en fait du business modèle de toutes les entreprises tech. En fait, pas vraiment, parce qu’il y a la data, il y a l’algorithme et puis il y a ce qu’on en fait, l’implémentation dans le code informatique qui va définir quelque part aussi la réponse, la performance. En fait, c’est cette implémentation qui est vraiment un enjeu pour les entreprises. La preuve : des boîtes comme Google et Facebook publient dans des revues scientifiques leurs algorithmes. C’est intéressant. Je n’ai pas encore d’avis fort là-dessus, mais j’aime beaucoup cette idée de paralléliser, de mettre face à face les textes de loi et les algorithmes qui créent, en fait, le tissu social de demain et notre place dans la société à chacun.

Étienne Gernelle : C’est l’histoire de la révélation à l’étape de la loi.

Guillaume Grallet : Il y a un autre aspect sur lequel on voulait vous entendre Aurélie, c’est sur les biais qui peuvent être utilisés par les algorithmes. C’est-à-dire qu’un algorithme n’est pas neutre, en fait.

Aurélie Jean : Oui. Mais je dis aussi souvent que les algorithmes ne sont pas coupables. C’est-à-dire qu’en fait ce qui se passe c’est que lorsqu’on parle de données, et c’est pour ça que l’open data c’est quelque chose auquel je suis très sensible parce que ça permettrait de minimiser les biais, je pense, lorsqu’on parle de données, ces données vont nous servir à faire de l’analyse par un algorithme qu’on aura choisi et qu’on aura implémenté dans un code de calcul pour avoir une réponse, une prédiction, en tout cas une tendance.

Et ce qui se passe dans ces données, c’est qu’en fonction du type de données que vous allez choisir, que vous allez sélectionner, vous allez sûrement avoir des réponses différentes ; on parle d’échantillonnage. Et, en toute rigueur, lorsque vous faites un calcul, vous devez le faire sur plusieurs échantillons de tailles différentes, de natures différentes, pour pouvoir définir ce qu’on appelle la représentativité de l’échantillon et de faire un ???, de dire « mon échantillon est représentatif, il n’y a pas de biais ». Dans la réalité, c’est beaucoup plus compliqué que ça. Et l’intelligence artificielle, en plus de ça, va, quelque part, renforcer, est un amplificateur des conséquences de ces biais pour la simple et bonne raison que l’on va développer des algorithmes qui vont être entraînés sur des données. Le biais initial des données va renforcer, en fait, ce que j’appelle la discrimination technologique à la fin du produit en sachant que certains utilisateurs vont être écartés de l’utilisation d’un produit parce que leur data n’aura pas été considérée en entrée. Donc l’open data c’est quelque chose qui m’intéresse beaucoup pour ça parce que je pense, j’espère en tout cas, parce que ce n’a pas été testé complètement encore, qu’en fait, en ouvrant les données, ça veut dire qu’on aura beaucoup moins de contrôles sur la source, les gens pourront mettre leurs données, n’importe qui. Et on a aussi cette grande question de nos confrontations à l’aveugle, de benchmarkoù, en fait, les gens vont pouvoir aller prendre des données, les tester eux-mêmes. Les chercheurs le font, il y a eu un test très intéressant dans la ville de New-York pour ça où, en fait, la ville de New-York a une énorme plateforme d’open data où les gens vont mettre leurs données et les gens vont chercher des données pour les traiter, les analyser et on a vu des incohérences ; on a vu des biais, des incohérences, des mauvais fonctionnements dans la ville de New-York grâce à ça. Donc je crois beaucoup à l’ouverture pour minimiser les biais et donc minimiser les discriminations technologiques.

22’ 28

Gaspard Koenig : Mais le problème c’est où est-ce que tu places le curseur de considérer que cette data est d’intérêt général ou non.

Aurélie Jean : C’est ça qui est compliqué.

Gaspard Koenig : Le problème de tous ces algorithmes c’est que, finalement, tu peux dire que tout est d’intérêt général.

Aurélie Jean : Bien sûr !

Gaspard Koenig : Par exemple réduire la consommation d’électricité globale, c’est d’intérêt général. Donc est-ce que ça justifie que j’ai obligatoirement un compteur Linky dans ma maison, qui fait que je suis lié au réseau en permanence, qu’on sait en permanence quelle est ma consommation d’électricité ? C’est optimal pour le bien-être du groupe mais c’est complètement intrusif.

Aurélie Jean : Tu as entièrement raison. Je comprends. En fait, quand tu dis ça, je dis beaucoup que tous les scientifiques et tous les développeurs ont pendant très longtemps ont pendant fonctionné de façon logique. C’est-à-dire qu’on essaie d’avoir un raisonnement logique sur ce qu’on fait. Et je pense qu’on va tendre vers un fonctionnement analogique où on va devoir fonctionner par comparaisons, on va devoir s’ouvrir pour justement, exactement ce dont tu parles là : les scientifiques, les développeurs doivent se poser ces questions. Et ça va être un long processus. On est dans une vraie transformation de la discipline elle-même, de la manière dont on la réfléchit, dont on l’appréhende.

Guillaume Grallet : Gérard Berry qui voulait réagir.

Gérard Berry : Je crois que la publication des données et des algorithmes c’est un sujet important, mais il ne faut pas se leurrer, il y a des gradations. Par exemple les algorithmes de l’État doivent être publiés, c’est officiel. Des fois il y a de la résistance. Pour APB, le fameux algorithme APB, il a fallu le tribunal administratif.

Guillaume Grallet : Qui était une catastrophe pour dire les choses.

Gérard Berry : Mais l’algorithme n’est pas tout. D’abord il y a trois choses. On utilise des mots beaucoup trop faibles. Par exemple on parle de data sans algorithme, ça n’existe pas, ça ne fait rien la data sans l’algorithme, les données pardon, sans l’algorithme, ça ne fait rien !

Aurélie Jean : Vous avez raison.

Gérard Berry : Donc la donnée souvent on ne la connaît pas bien, souvent elle n’est pas propre en plus, c’est compliqué à nettoyer, mais les algorithmes eux-mêmes il y a trois cas : il y a ceux qui sont publiés, il y en a beaucoup qui sont publiés, y compris par les GAFA. Il y a ceux qui sont complètement secrets, c’est-à-dire privés, à des sociétés, et puis il y a des intermédiaires. Les intermédiaires sont intéressants. Par exemple les algorithmes qui font voler les avions sont certifiés. Moi je le sais parce que nous on fabrique les outils pour faire ces algorithmes, ils sont certifiés, ça veut dire que les avions d’Airbus ce n’est pas seulement Airbus qui décide qu’ils sont aptes à voler. Ce sont des organismes de certification internationaux, avec des méthodes très strictes qui peuvent être bien améliorées scientifiquement mais qui sont très strictes, et il y a peut-être des ingénieurs de Boeing qui vont vérifier les algorithmes d’Airbus. Ce n’est pas pour ça que c’est privé, mais c’est très bien analysé. Ce n’est pas ??? public, mais c’est très bien analysé, etc. Donc il y a des gradations. Et sur la sécurité c’est un peu pareil. Il y a des algorithmes de sécurité dans le monde et les gens disent : « Mais les algorithmes open, ouverts, sont meilleurs en sécurité », la réponse n’est pas forcément « vrai ».

Aurélie Jean : Ce n’est pas forcément vrai.

Gérard Berry : On a trouvé des bugs absolument massifs dans des algorithmes de Linux tout à fait public qui ont déjà été scrutés. Le sujet est super dur, c’est ça qu’il faut comprendre, il ne suffit pas de décider pour y arriver.

Donc il faut trouver des bons moyens et des bons termes. Par exemple un cas qui me déplaît profondément et là j’en ai plein, si vous lisez mon bouquin vous allez voir des pages de bugs absolument toxiques dans les automobiles et le grand combat des constructeurs de l’automobile c’est de faire qu’il n’y ait pas de certification. Et en fait, je pense que Renault, Peugeot et tout ça n’ont pas d’idées de ce qu’il y a dans leurs propres voitures, parce qu’ils n’ont pas forcément accès à ce que font leurs sous-traitants. Donc là on est devant des problèmes qui sont dangereux parce que les voitures ça tue beaucoup plus que les avions, il ne faut pas oublier et que là, désolé, l’informatique n’est pas de bonne qualité et personne ne s’en occupe.

Je vous en cite un quand même pour voir. Les pacemakers ont été analysés par une boîte de sécurité aux États-Unis ; pacemakers ce n’est pas rien ! Ils ont pris des pacemakers des quatre plus grands fabricants américains, ils les ont regardés de près, ils ont trouvé qu’il était très facile de pirater des pacemakers ; plus précisément que chaque pacemaker a des milliers de trous de sécurité, ce n’est pas tout à fait rien, connus d’ailleurs à peu près tous. Les fabricants ont dit : « Ce n’est pas possible pour n’importe qui de le faire parce que la machine pour le faire, il n’y a que les médecins qui l’ont. » Les autres ont répondu : « On les a achetées sur eBay. » Voilà ! Donc la situation n’est pas très bonne parce que l’ignorance règne. Il faut s’occuper de ces problèmes. Et pour s’occuper de ces problèmes, je dirais, il ne suffit pas de lire les journaux, il faut se renseigner vraiment dessus.

Étienne Gernelle :  ??? les journaux.

Gérard Berry : C’est bien de lire les journaux, ça commence.

Aurélie Jean : Je voulais parler de quelque chose qui me touche quand vous parlez d’ignorance, ça me touche beaucoup. Moi je crois que tout le monde doit comprendre un minimum ce qui se passe et comprendre les tenants et les aboutissants. La passerelle, pour moi, c’est de comprendre la technologie, d’avoir une plus grande culture scientifique là-dessus et je pense que c’est quelque chose qui devient de plus en plus critique. C’est-à-dire qu’on doit devenir ce que j’appelle des utilisateurs éclairés des technologies, on ne doit pas seulement utiliser une technologie de façon aveugle. On doit se rendre compte, en fait, de comment ça fonctionne, des biais bien évidemment, et ça, vraiment pour moi c’est quelque chose de profond si on veut aussi également avancer et que tout le monde puisse faire avancer le débat sociétal sur ces sujets.

Guillaume Grallet : Ce qu’on appelle en bon français la digital literacy. Il y a le débat sur ce qu’il faut rendre public ou non ; il agite au cœur même des GAFA. J’ai été assez surpris, à l’intérieur même de Facebook il y a une vraie querelle quasiment idéologique entre Yann LeCun, le grand chercheur universitaire qui s’occupe de l’intelligence artificielle, un Français qui est basé à New-York, qui lui rend la quasi-totalité de ses recherches disponible sur ??? et puis une personne comme Regina Dugan, qui a été embauchée par Facebook et qui vient de la DARPA et qui, elle, ne rend rien disponible, rien public.

Étienne Gernelle : La DARPA, Guillaume, on précise c’est le département de recherche.

Aurélie Jean : De l’armée.

Étienne Gernelle : De l’armée américaine.

Guillaume Grallet : C’est vraiment très intéressant parce que c’est un débat qui nous agite. Je voulais juste reposer une question à Gaspard : si on arrive à reprendre le contrôle de nos données, cette fameuse propriété, est-ce qu’il n’y aura pas une dichotomie entre les données des riches, les données des pauvres ? C’est-à-dire est-ce qu’il n’y aura pas une inégalité par rapport à tout ça ?

Étienne Gernelle : Parce qu’il n’y aa que les riches qui vont garder leurs données et les pauvres qui vont les vendre.

Gaspard Koenig : Non ce seront des choix, des arbitrages de consommation. Effectivement si vous voulez payer, vous devrez payer pour votre privée ça c’est clair, pour garder votre vie privée. Ensuite c’est un arbitrage de consommation de savoir si oui ou non on est prêt à payer. Ensuite savoir si les revenus sont également distribués dans population, c’est une autre question qui n’a rien à voir avec notre sujet.

Deuxièmement, je reprends l’exemple de la voiture, qui est quand même intéressant sur l’idée de ??? des données, je ne peux plus acheter une voiture aujourd’hui, d’ailleurs c’est pour ça que je garde ma vieille voiture, je ne peux plus acheter une voiture non connectée aujourd’hui ; c’est impossible. Vous achetez une voiture, vos données, votre vitesse de freinage, tous vos déplacements, toutes vos infractions au code de la route, etc., sont immédiatement envoyées à Volkswagen ou à Tesla qui peut réguler ses systèmes en fonction. Moi je veux pouvoir, quand j’achète une voiture, payer davantage pour garder la propriété des données qui seront produites par cette voiture et pouvoir quand je veux me connecter au réseau pour dire là j’ai un problème, là il y a un accident, etc. Ou à l’inverse, payer moins cher ma voiture, mais ce sera pareil avec les assurances santé, parce que j’accepte que le constructeur utilise mes data comme il le souhaite.

Mais sur donc les riches et les pauvres, ça ré-ouvre cette question des riches et des pauvres. Votre valeur par rapport aux data et aux plateformes n’est pas liée à votre niveau de richesse. Il est lié à ce que vous entendez partager de votre environnement quotidien. Je prends un exemple, Waze, on reste dans les transports, vous savez la plateforme d’optimisation du temps de trajet : vous dites où vous voulez aller et on vous donne le trajet le plus court qui est renseigné par les géolocalisations des autres utilisateurs. Je ne peux pas utiliser Waze sans accepter de fournir ma géolocalisation ; c’est comme ça que je rémunère Waze aujourd’hui. Mais le problème c’est que Waze offre le même service à moi qui utilise ma voiture toutes les trois semaines et qui donc ne lui apporte rien et un chauffeur de camion qui utilise Waze 8 heures par jour et qui donc a une valeur énorme pour Waze. Si vous avez une ??? des data, le chauffeur de camion sera rémunéré bien davantage que moi pour utiliser la plateforme. Et à l’inverse moi je pourrais payer pour pouvoir utiliser Waze sans fournir ma géolocalisation. Chacun pourra arbitrer ses choix, mais encore une fois notre valeur correspond à l’environnement dans lequel on est et à l’intérêt de cet environnement pour telle ou telle plateforme, mais pas du tout forcément à notre niveau de vie, à notre catégorie socioprofessionnelle.

Étienne Gernelle : La question c’est est-ce qu’on a le niveau ? Moi si on me demandait ce matin, arbitre en ce que tu veux donner et pas donner, je ne suis pas sûr d’en être capable.

Aurélie Jean : D’où l’éducation ; c’est-à-dire qu’on doit sortir de l’ignorance.

Gaspard Koenig : Aujourd’hui tu cliques sur des conditions d’utilisation que là personne n’est capable de lire. Ça ne peut pas être pire, déjà ! Et deuxièmement, je pense que quand il y a aura un peu d’argent en jeu, je m’excuse d’être cynique, l’éducation va se faire beaucoup plus vite. C’est-à-dire que quand les jeunes vont s’apercevoir que tout d’un coup ils peuvent toucher 100 euros pour être sur Facebook, ils vont se dire « tiens, mais en fait ça avait de la valeur ce truc ! » Donc ils vont très vite comprendre que ça a de la valeur et ça aura un effet éducatif très fort, un effet de prise de conscience très forte. Et ensuite, sur la négociation des contrats avec les grandes plateformes, il est évident que si on met ce système en place il y aura des grands intermédiaires qui vont se créer, comme les sociétés de gestion des droits d’auteur, en fait, pour le droit de la propriété intellectuelle et qui vont dire moi je prends 50 millions d’utilisateurs, je les négocie avec Facebook et ensuite je vous fais à chacun un smart contrat en fonction de vos propres termes, donc chacun ne va pas aller négocier avec les géants, bien sûr.

Étienne Gernelle : Gérard Berry.

Gérard Berry : Sur le principe je suis d’accord, mais malheureusement ça risque de n’être pas si simple. D’abord parce que j’aimerais bien savoir qui, dans cette salle ou ailleurs, a conscience de ce qui se passe. Déjà par exemple Gaspard dit : « Moi je ne veux pas une voiture connectée. » C’est pas de chance, parce que son téléphone fait déjà ça. Il n’y a pas besoin de la voiture pour savoir comment il conduit, le téléphone fait déjà ça. Donc n’achetez pas un Android parce que Android, quand vous ouvrez le GPS sur quelqu’un vous l’ouvrez sur toutes les applications donc n’importe qui peut lire.

Par ailleurs comment un juge va-t-il savoir qui fait quoi. Ça, ça va être assez dur. Déjà qu’un juge comprenne un code, ça ne s’est pas fait. Non mais c’est vrai.

Étienne Gernelle : Est-ce qu’il y a un juge dans la salle ?

Gérard Berry : Il y a déjà pas mal de cas ; j’ai participé à des cas, c’est assez rigolo, mais c’est extrêmement compliqué. D’autre part le code change tout le temps ; on n’arrête pas de vous faire des mises à jour, donc vous ne savez même pas quelle version vous aviez du code quand vous faisiez le machin. Donc ça va être extrêmement compliqué à identifier qui fait quoi quand. Par exemple quand je dis que là maintenant, on a un peu les infos, maintenant il y a une soixantaine de sites qui regardent comment vous tapez sur votre clavier, qu’est-ce que vous tapez, qui sont capables de faire des replays, moi, à l’heure actuelle je n’ai pas le moyen de savoir qui c’est. OK ! Et on n’a pas la techno pour savoir qui c’est. Donc la chose entre ce qu’on envie de faire, avec lequel je suis totalement d’accord et le fait qu’on va arriver, avec des gens qui sont invérifiables, des codes qui viennent de pays dans lesquels on n’a aucun droit, qui changent tout le temps, ça va être difficile ! Ça va être difficile !

Aurélie Jean : Je comprends, mais je pense qu’il faut aussi peut-être entrer dans cette phase d’expérimentation, même à petite échelle d’ailleurs. Par exemple c’est marrant parce que dans l’histoire de l’humanité à chaque fois qu’on a parlé de vendre quelque chose on parlait aussi systématiquement en premier des dérives mercantiles. Je pense que tu dois l’entendre très fréquemment. Non ? Ah bon, c’est étrange. Moi j’aime bien cette idée de tester à petite échelle, de voir ce qui se passe et peut-être de « scaler » tout en adaptant le modèle en cours de route, si ça marche.

Gérard Berry : Une très bonne idée, ce sont des gens qui à l’heure actuelle s’engagent à ne pas distribuer des données, comme le moteur Qwant, par exemple.

Aurélie Jean : Qwant fait ça.

Gérard Berry : Qwant s’engage, et sérieusement, et donne des moyens de le vérifier qu’il ne publie pas les données. Ça c’est bien et je pense qu’il faut vraiment soutenir ce genre d’action parce là on ne dépend pas de gens qui ne disent pas ce qu’ils font.

Aurélie Jean : C’est français.

Gaspard Koenig : Moi j’utilise DuckDuckGo, par exemple. Et d’ailleurs toute cette prise de conscience est venue un peu grâce à toi Étienne, puisque tu fais des reportages pour Le point et un de ces reportages c’était d’aller voir les hackers à Berlin. Et les hackers font ce qu’ils appellent des CryptoParties, donc c’est hacker éthique, hackers gentil.

Étienne Gernelle : Surtout moi.

34’30

Gaspard Koenig : Et donc les CryptoParties