Data, la bataille du siècle - Futurapolis 2017

De April MediaWiki
Aller à la navigationAller à la recherche


Titre : Data, la bataille du siècle

Intervenants : Gérard Berry - Aurélie Jean - Gaspard Koenig - Guillaume Grallet - Étienne Gernelle

Lieu : Futurapolis 2017 - Toulouse

Date : novembre 2017

Durée : 48 min 25

Visualiser la conférence

Licence de la transcription : Verbatim

NB : transcription réalisée par nos soins. Les positions exprimées sont celles des intervenants et ne rejoignent pas forcément celles de l'April.

Statut : Transcrit MO

Description

Qu’elle soit Big ou Open, la data ne cesse de faire parler d’elle. La démocratisation des objets connectés, l’effondrement du coût de stockage et les perspectives de l’utilisation commerciale qu’elle offre ont fait entrer la data dans une nouvelle ère. Ces données qui savent déjà traquer nos moindres déplacements, achats, et battements de coeur sauront-elles anticiper nos désirs cachés, améliorer notre santé ou décider à notre place ?

Transcription

Présentateur : Avec nous Aurélie Jean, scientifique numéricienne et entrepreneure, cofondatrice de MixR.net. Gérard Berry, professeur au Collège de France, membre de l’Académie des Sciences, on peut l’applaudir. Gaspard Koenig professeur de philosophie et essayiste. Et rien de moins qu’un fameux duo de choc pour les questionner, à ma gauche Étienne Gernelle, on vous avait présenté comme modérateur, ce qui est surprenant quand on vous connaît un peu, directeur du Point et Guillaume Grallet, pour la caution sérieuse et morale qui est tout au bout, merci Guillaume. À vous messieurs.

Étienne Gernelle : Merci beaucoup Maurice. On est très contents d’être là aujourd’hui avec un panel extrêmement prestigieux et qui n’a pas peur, en plus. C’est parti. On va parler des data et les data c’est quelque chose qu’on voit souvent dans les nuages, un peu partout, mais c’est aussi très concret. Moi je voulais de commencer avant qu’on rentre dans le dur — le débat, la polémique, la violence — qu’on se demande, une question très simple, puisque les data on dit souvent que c’est le pétrole du XXIe siècle, le pétrole ça prend très longtemps à produire, mais les data c’est nous qui les produisons. Alors depuis ce matin, qu’est-ce que vous avez produit comme données vous ? Vous avez forcément produit des données depuis que vous êtes levé ce matin !

Gaspard Koenig : Oui, on a produit plein de données. Moi j’en ai peut-être produit un tout petit peu moins, parce que j’enlève la géolocalisation sur mon téléphone, sur mon smartphone.

Étienne Gernelle : C’est un rebelle Gaspard.

Gaspard Koenig : Je conseille à tout le monde de le faire. Il faut rentrer les adresses à la main mais comme ça, au moins, vous n’êtes pas traçable.

Étienne Gernelle : Aurélie.

Aurélie Jean : Déjà Google Maps, forcément, pour venir jusqu’ici à pied. Donc la géolocalisation qui est forcément traitée, absorbée et j’imagine que les trucs après qui me seront proposés sur Google seront forcément envoyés à ma géoloc. Google, forcément. WhatsApp, Messenger. Donc oui, je pense qu’il y a eu beaucoup de données qui ont été collectées depuis ce matin me concernant en tout cas.

Étienne Gernelle : Bravo ! Vous êtes une bonne productrice de données.

Aurélie Jean : Très bonne productrice, c’est vrai !

Étienne Gernelle : Gérard Berry.

Gérard Berry : L’idée que c’est nous qui produisons les données, est une idée qui n’est pas tout à fait juste. Les données que nous produisons nous même ce n’est rien du tout par rapport aux données qui sont produites pour nous par nos appareils. Par exemple ce matin je me suis servi de mon ordinateur pour faire du courrier électronique et je sais qu’il y a beaucoup de gens qui ont su exactement à quelle vitesse je tapais des touches, quand, où, comment j’écrivais et qui sont capables de rejouer des sessions que je fais, ce qui est tout à fait scandaleux, mais c’est généralisé. Donc j’ai produit une quantité phénoménale de données rien qu’en faisant ce que je fais d’habitude. Moi personnellement j’ai décidé que je m’en fichais, mais ce n’est pas forcément vrai pour tout le monde.

Étienne Gernelle : Pardon, question un peu technique, mais comment est-ce que c’est stocké le rythme auquel on écrit sur un ordinateur ? Comment c’est possible ?

Gérard Berry : Ça ce n’est rien du tout, ça c’est possible. C’est la vidéo prend de la place, mais comment on tape sur un ordinateur, c’est très facile à stocker, ça ne prend pas de place.

Guillaume Grallet : Il y a une autre question qui nous passionne avec Étienne, hier, au marathon des créatifs, il y a une start-up qui était innovante et, en fait, on avait finalement peu de choses à lui reprocher parce qu’elle disait : « À chaque fois que vous allez faire un achat, on a mis au point un système dans lequel le ticket de caisse il y a QR Code, vous pourrez le scanner et vous aurez une réduction immédiate sur les futurs achats et, en même temps, le commerçant va récupérer vos données. » Donc il expliquait que c’était une plateforme révolutionnaire et c’est vrai qu’il y a un business modèle assez bon. Ma question pour l’instant c’est est-ce qu’on peut récupérer l’usage de ses données ? Je crois, Gaspard, avec votre think tank, vous réfléchissez à une solution assez radicale là-dessus.

Gaspard Koenig : En fait c’est intéressant, parce que pourquoi cette start-up fait ça en passant par les bons d’achat ? Simplement parce qu’elle n’a pas le droit aujourd’hui, dans l’état actuel du droit, de rémunérer les utilisateurs pour les data qu’ils produisent. Donc ils passent par des choses un peu de biais comme les bons d’achat.

Aujourd’hui il n’y a pas en droit, ni aux États-Unis ni en Europe, de propriété privée sur les données. Les données ne sont pas de nature patrimoniale. J’entends les données personnelles. Parce qu’ensuite, les données qui sont récupérées par les plateformes sont, elles, agrégées ou créées d’ailleurs, et forment des data-bases qui sont, elles, soumises au droit de propriété intellectuelle et qui forment l’essentiel du business modèle des grandes plateformes qui ensuite peuvent les revendre y compris à des institutions publicitaires qui, Aurélie l’a dit vous, « retargettent », et vous proposent les produits que vous êtes censé vouloir.

Le grand vol dans tout ça, ce n’est pas grave c’est une industrie nouvelle, ça fait dix ou vingt ans. La révolution industrielle on a mis des dizaines d’années pour produire le brevet, la propriété intellectuelle que cette révolution appelait. De même je pense que la révolution numérique appelle la création d’un droit de propriété sur la data et sur la data personnelle. Parce qu’aujourd’hui, on dit c’est le pétrole du XXIe siècle, mais le producteur de pétrole, le raffineur du pétrole, il se fait de l’argent avec la valeur ajoutée qu’il apporte, c’est normal, mais le producteur primaire du pétrole, qui est vous et moi, n’êtes pas rémunérés, vous n’est pas payé par Google, vous n’êtes pas payé par Facebook. Or, quand vous sortez de chez vous, vous fermez la porte de votre appartement ; si vous oubliez votre portefeuille dans un magasin vous allez le chercher ; si quelqu’un l’a volé, vous allez porter plainte. Vous avez des objets qui sont à vous que vous protégez. Pourquoi est-ce qu’il n’en serait pas de même des data ?

On va me dire « oui mais les data vous offrent un service gratuit » ; c’est ce qui dit Tirole d’ailleurs dans son livre ; quand vous utilisez Google, vous utilisez un service donc si vous laissez vos data, en un sens c’est un échange. Oui, mais c’est un échange très collectiviste puisque c’est le même pour tous. Quelle que soit la valeur des data que vous apportez à Google, vous n’avez absolument pas le choix, vous cliquez simplement sur des terms and conditions que vous ne comprenez pas. À titre d’exemple, les terms and conditions de Paypal sont plus longues que Hamlet et beaucoup moins amusantes à lire. Et dans l’hypothèse même que vous les ayez lues vous n’allez certainement pas les négocier. Je ne sais pas si vous vous rappelez que récemment il y avait eu un scandale il y a un an parce que Facebook avait modifié les posts que recevaient un certain nombre d’utilisateurs en leur donnant à voir des choses négatives. Conclusion de l’étude c’était : quand les gens voyaient des messages négatifs ils devenaient plus tristes. Il ne fallait pas être un grand génie pour trouver ça ! Donc les gens ont protesté, mais le plus intéressant et le plus scandaleux c’est qu’en fait Facebook avait le droit de faire ça ; parce que dans les terms and conditions, que vous n’avez pas lues, vous laissez à Facebook le droit d’utiliser vos data, y compris sur vous-même, pour toute fin de recherche qu’il juge nécessaire.

Donc face à ça, face à ce nouveau problème des communs qui est que nos data sont pillées, sont dans la nature, évidemment, les gens s’en rendent compte, il y a plusieurs grandes options de politique publique qui apparaissent et qui, en fait, remettent au goût du jour les vielles philosophies politiques qui ont quelque chose à dire sur ce problème des data.

Vous avez l’option communiste qui est de nationaliser la donnée, et elle est discutée puisque quand Pierre Bellanger parle de souveraineté numérique, il a ça en tête. Il dit l’État finalement ramène toutes les données, les anonymise et ensuite les redistribue.

Vous avez l’option qui est aujourd’hui adoptée par les régulateurs européens et aussi français, par la CNIL, par le prochain règlement GDPR, qui est un système de droits et d’obligations, ce qu’on appelle le droit personnaliste. C’est-à-dire vous avez le droit de savoir quel algorithme a utilisé vos données bancaires par exemple ; vous avez le droit à l’oubli. À l’inverse, les plateformes ont l’obligation de proposer des algorithmes qui ne prennent en compte votre historique recherche, etc. Ce sont des droits et des obligations qui vont être extrêmement compliqués, qui vont judiciariser les processus, qui vont probablement freiner l’innovation et qui vont coûter énormément aux entreprises.

Vous avez une troisième option, ce n’est pas moi qui la propose, déjà Jaron Lanieraux États-Unis a beaucoup travaillé là-dessus, le think tank que je dirige est en train de faire un rapport avec des gens qui s’y connaissent mieux que moi.

Étienne Gernelle : Génération libre.

Gaspard Koenig : Génération libre, pour comprendre comment économiquement, juridiquement, ça peut tenir la route. C’est de créer un droit de propriété sur la data qui fait que via des intermédiaires qui se créeront, chacun peut vendre à ces plateformes ses data selon un prix qui sera un prix de marché. C’est-à-dire qu’il vous dira moi j’abandonne toutes mes data à Facebook par exemple, en échange j’ai le maximum ; ou moi j’utilise Facebook sans lui donner mes data et donc je paye, je paye le prix, c’est normal parce que je crée une externalité négative pour la plateforme ; ou bien je les cède mais, par exemple, avec des conditions, sans qu’il cède à des tiers, sans que ceci cela et, à ce moment-là, il y a un prix qui sera négocié. Chacun aura une sorte de compte intelligent avec des flux permanents de crédit et de débit sur l’utilisation qui sera faite de ses data et, me dit-on techniquement, la blockchain, c’est le mot magique qui permet de tout résoudre, permettrait d’y arriver.

Pourquoi ça ne se fait pas aujourd’hui ? Je ne vais dans les détails, mais ce serait intéressant d’en parler, pourquoi ça ne se fait pas aujourd’hui, quelle est la résistance philosophique profonde ? La résistance philosophique profonde, qui est clairement expliquée par le Conseil d’État dans son rapport de 2014 sur le numérique, qui est un texte très intéressant qui traduit toutes nos névroses, le problème philosophique profond c’est que la data est considérée par les juristes, par nos gouvernants, comme l’émanation de soi, les données personnelles. Or le soi, depuis le droit romain, le soi est un sujet, n’est pas un objet ; le soi n’est pas patrimonial : je ne peux pas vendre mon corps, je en peux pas vendre mes organes, je ne peux pas vendre mon cadavre ; même si d’ailleurs les hôpitaux les revendent ensuite à des chirurgiens, c’est le même problème finalement pour la data. Mais bon !

Donc vous avez un article 16-5 du Code civil qui dit le corps n’est pas à vendre. Puisque je ne peux pas marchandiser mon corps, c’est le même débat que sur la GPA, je ne peux pas marchandiser ma data. Et comme je ne peux pas la marchandiser eh bien, en fait, je me laisse piller. Alors que si on va jusqu’au bout de la logique de la modernité, jusqu’au bout de la logique de Locke qui est le premier à avoir posé que « je m’appartiens à moi-même », I ??? mysef, contre la logique judéo-chrétienne, qui voulait que nous ne soyons que l’usufruitier de notre propre corps qui, in fine, appartient à Dieu et reviendra dans son royaume, si véritablement nous sommes dans un monde immanent où personne d’autre que moi ne peut être propriétaire de moi-même, eh bien oui, il faut poser un droit de propriété de soi sur soi, dont la conséquence logique sera aussi d’avoir un droit de propriété sur les data.

Tout ça nous ramène, ce sujet de la patrimonialité des data, nous ramène à des options philosophiques profondes sur l’avenir de nos sociétés, parce que si vous substituez au sujet de droit romain la propriété de soi sur soi, vous chamboulez un certain nombre de systèmes juridiques et économiques et je pense que ça sera l’avenir, ça sera la grande question du siècle qui vient, avec les bio tech et tout ça.

10’ 28

Étienne Gernelle : À propos de résistance philosophique aux religions, est-ce que vous avez une résistance philosophique à ce que vient de dire Gaspard ?

Aurélie Jean : Je trouve l’idée très intéressante, en fait cette idée de vendre de la donnée qui du coup n’est pas anonyme, qui est rattachée à une personne, un individu, une identité. Moi, en fait, j’ai quelque d’autre en plus de ça, que je trouve intéressant, c’est de rendre la donnée anonyme et de la rendre ouverte à tous. Qui sont deux choses qui peuvent, pour moi, vivre en parallèle mais qui n’ont pas le même but. C’est-à-dire que ce que propose Gaspard est une manière, en fait, de développer un business modèle beaucoup plus juste et qui va peut-être s’auto-équilibrer, de la donnée. À l’heure actuelle, il faut quand même s’en rendre compte, le marché de la donnée est un marché unilatéral ; il faut quand même s’en rendre compte. Et d’ailleurs je le dis souvent aux gens. Quand les gens je leur demande : « Quel est selon vous le client de Facebook ? » Ils disent : « Eh bien c’est moi. » Je fais : « Non, ce n’est pas toi ! C’est le mec qui achète de la pub » et les gens ne s’en rendent pas compte. Donc c’est intéressant.

Moi, pour la donnée, en fait, j’aime beaucoup cette idée, parce qu’encore une fois ça remet à plat un business modèle qui a été fait de façon assez violente, assez rapide, et par des gens qui n’avaient pas forcément, peut-être, de bonnes idées à la base. Après, en parallèle de ça, moi je suis pour de rendre la donnée anonyme et ouverte à tous. Ce serait un moyen aussi d’arriver à tacler, quelque part, les challenges techniques liés à la donnée tels que les biais, enfin tu sais exactement, voilà.

Guillaume Grallet : Ouais, on va en parler tout de suite. Monsieur Berry vous avez une expression que j’adore vous dites qu’il faut s’emparer des problèmes avant qu’ils ne soient contrôlés par les autres. Est-ce que vous êtes d’accord avec l’approche de Gaspard ? Est-ce que vous pensez que c’est réalisable ?

Gérard Berry : Je suis d’accord avec l’approche à la base ; que ce soit réalisable, là, je pense que ce n’est pas du tout forcément vrai. De même que l’anonymisation parce qu’il y a des freins absolument majeurs qu’il faut bien connaître.

D’abord on a plusieurs problèmes sur le sujet. Il y en a un qui est absolument massif en ce moment, vous le suivez peut-être, qui s’appelle la sécurité informatique. Quand on se fait voler ses données en grand, ce qui arrive mais alors de façon triviale, eh bien là toutes les lois ne servent plus à rien, je dirais. Je donne deux exemples simplement

Equifax, organisme de certification du crédit numéro 1 aux États-Unis s’est juste fait voler 145 millions de données ; les données personnelles de 145 millions de clients aux États-Unis et probablement de 40 millions en Angleterre ; l’intégralité c’est-à-dire le nom, l’adresse, le numéro de téléphone, le numéro de compte en banque et tout ça. Ce n’est pas anodin ! Ils ont mis plusieurs mois à le dire. Uber vient de se faire voler les données, ne vient pas de se faire voler, vient d’admettre qu’il s’était fait voler en juillet les données de 57 millions de comptes, dont peut-être le vôtre, et, pour l’instant, ils ne se sentent pas obligés de dire de qui c’est. Pour l’instant les gens sont rentrés dans le bleu, dans le mou, parce que je ne sais qui dans cette salle a appris dans sa jeunesse quoi que ce soit sur l’informatique. Je pense qu’un médecin qui va être confronté à l’informatique tout le temps a eu exactement zéro seconde de formation sur le sujet. Donc, eh bien comme les gens ne comprennent pas le sujet, que les conditions générales d’utilisation, les fameuses CGU, sont de toutes façons incompréhensibles, qu’il faut juste cliquer dessus. Avant il ne fallait même pas cliquer dessus, il fallait cliquer dessus si on ne les voulait pas. Mais que de toutes façons ça ne marchera pas si on ne clique pas dessus, tout ça n’a aucun sens réel. D’accord ? Donc le premier obstacle c’est le maintien de l’ignorance. C’est-à-dire qu’on peut discuter très bien, on dit on va protéger les données, il faut juste admettre qu’on ne sait pas faire ça.

L’anonymisation. Ah ! C’est un très vaste sujet ! Eh bien il n’est pas clair qu’on sache faire ça. Un exemple. Je donne un exemple. Les médecins ont besoin des données génomiques pour faire des très grandes études de big data, pour le coup les données génomiques se sont pas trop fausses. Parce qu’il ne faut pas oublier que les données sont largement fausses dans la nature.

Guillaume Grallet : Ça c’est un vrai sujet.

Gérard Berry : Par exemple quand on dit on va lire la littérature sur le cancer, comme fait Watson, la littérature médicale, il ne faut pas oublier que les médecins pensent qu’il y a environ au moins 25 % des papiers qui sont foireux, donc il faut faire attention.

Étienne Gernelle :  ??? frelaté alors

Gérard Berry : Nettoyer les données c’est compliqué. Donc on est dans un monde qui est quand même difficile. La sécurité c’est difficile. Ce n’est pas que les gens sont spécialement mauvais, c’est que le problème est dur ; on ne sait pas vraiment le résoudre à l’heure actuelle. Donc l’anonymisation, c’est gentil, je ne sais pas comment on va faire pour anonymiser mon génome. Je pense qu’on sait me reconnaître.

Aurélie Jean : Vous avez entièrement raison, d’autant plus lorsqu’on s’intéresse à des données qui caractérisent votre identité. Ça je suis d’accord ; quand on s’intéresse à des données qui caractérisent votre identité.

Gérard Berry : Oui, mais regardez ça.

Aurélie Jean : Il y a déjà, je pense, un large panel de data qu’on peut rendre anonymes et qui nous permettent peut-être de mieux avancer sur ses propres données.

Gérard Berry : Ça c’est loin d’être sûr, parce qu’on sait croiser beaucoup de choses. Donc quand on donne des données. Voilà ! On ne peut pas non plus. Par exemple si on veut faire des statistiques médicales et qu’on dit on va enlever la date de naissance des gens, eh bien perd une information majeure, donc c’est difficile.

Aurélie Jean : Ce n’est pas assez. Vous avez entièrement raison et la médecine, je pense que c’est le cas le plus critique où, en fait, si on écarte les données ethniques, le sexe, on écarte complètement une donnée qui peut-être importante pour l’analyse en fait a posteriori des données de brut.

Gérard Berry : Et puis je pense qu’il n’est pas très dur à l’heure actuelle, mais ce n’est pas fait parce que les gens ne veulent pas le faire, de faire une application qui, quand on arrive sur un clavier quelconque, dit : « Who am I ? », et qui répond : « Vous êtes Gérard Berry. » Je pense qu’on saurait faire ça, donc l’anonymisation ce n’est pas facile.

Aurélie Jean : En fait, quand je parle de rendre les data anonymes, c’est de ne pas affecter la donnée à une identité. C’est-à-dire Gaspard, on peut connaître tes données, à savoir que tu es un homme de tel âge, je ne dirais pas ton âge, je ne connais pas ton âge, je ne veux vexer personne

Gaspard Koenig : Il est jeune ! Google le connaît !

Aurélie Jean : De telle nationalité, telle profession, mais ce ne sera pas Gaspard.

Gérard Berry : C’est très facile à croiser avec des tas d’autres.

Aurélie Jean : La corrélation est très facile, mais ça demande un effort supplémentaire.

Gérard Berry : Il faut vraiment analyser ce problème en détail, en grand, et c’est un problème technique, ce n’est pas qu’un problème philosophique, il faut faire les deux en même temps, ce que vous faites de toutes façons, il faut faire les deux en même temps et ne pas penser qu’il suffit de décider de faire quelque chose pour que ce soit fait. C’est difficile.

Aurélie Jean : Complètement.

Étienne Gernelle : Gaspard n’est pas difficile à reconnaître, parce que, en France, il est le seul à peu près à penser ce qu’il pense.

Gaspard Koenig : Sur le problème de l’ouverture des données de l’open data, faut-il être anonymisé, moi je reste extrêmement prudent, je me méfie énormément notamment des algorithmes qui pour le coup sont classés secret Défense, qui désormais, vous le savez, c’est l’article 2 de la loi renseignement, filtrent l’ensemble des metadata qui émanent des opérateurs téléphoniques français, la NSA le faisait déjà pour les États-Unis depuis longtemps. Et donc, aujourd’hui, vous avez quand même une mainmise extrêmement inquiétante du pouvoir central, des GAFA aussi, mais aussi du pouvoir politique sur l’ensemble de nos données. Et d’ailleurs, dans ce rapport du Conseil d’État que je mentionnais, il faisait l’hypothèse de la patrimonialité des data, ce que je viens de vous dire ; c’est quelque chose qui est étudié et il disait : « Oui mais quand même, ça serait très embêtant s’il y avait la patrimonialité des données, parce le fisc et la police devraient justifier l’utilisation qu’ils font des data des utilisateurs. »

Et c’est ça qui est intéressant dans ce système de patrimonialité, c’est que si pour des raisons d’intérêt général, santé, police, fisc, etc., vous voulez ouvrir les données, aujourd’hui, vous ne vous justifiez devant personne à peu près. Avec un système de propriété privée, vous devrez justifier de quoi ? D’une expropriation ou d’une mise à disposition, qui est un sujet juridique qui existe comme les lignes de train qui vont passer dans votre jardin parce que c’est d’intérêt général. Mais du coup c’est le juge judiciaire qui pourra contrôler que cette expropriation est proportionnelle à l’intérêt général recherché.

Et donc, au lieu de prendre toutes les données comme ça d’un coup en disant « oui, mais ne vous inquiétez pas, c’est pour l’intérêt général », s’il y a de la propriété privée des data les gens pourront dire « attendez, est-ce que vous êtes bien sûr que ce que vous faites est proportionnel, mesuré, etc. ? » Et c’est le juge judiciaire, j’insiste, et pas administratif, qui ira regarder ce qui se passe.

Donc ce système de droit de propriété, remettre le droit de propriété au centre du sujet de la data, a des conséquences sur la rémunération, mais a aussi des conséquences sur, par exemple, l’open data, et donc vous pouvez repenser, en fait, l’éthique de la data à travers le transfert des droits de propriété.

Étienne Gernelle : Sur le contrôle de la data par les citoyens.

Aurélie Jean : Et je pense qu’au-delà de la data, d’ouvrir la data, pour reprendre en fait la théorie de ??? qui est un data scientist irlandais et un grand activiste de la data et de la protection des données — je pense qu’il t’intéresserait énormément — et en fait il dit lui que au-delà des données, il faudrait ouvrir les algos, ce dont je m’explique. C’est-à-dire que lui il considère, et il cite Deleuze pour ça donc c’est très intéressant, qu’il y a les lois et puis au-dessus il y a les choses un peu plus élevées qui vont conditionner nos actes quotidiens, qui est une morale religieuse, laïque, peu importe, mais il y a quelque chose. En fait, il dit : « Les textes de loi sont des choses qui sont complètement ouvertes. Personne n’est censé ignorer la loi, et donc, quelque part, c’est ouvert. »

Étienne Gernelle : Ne peut la connaître.

Aurélie Jean : Ne peut. Voilà. Oui. Et en fait, lui ce qu’il dit c’est parce que les algorithmes, en fait, quelque part, recréent le tissu social de demain ce serait normal que les algo publics ou privés, on en parlait avec Gérard Berry en disant que les algos publics déjà, on était obligé de les rendre publics, doivent, en fait, être accessibles par tous. Donc je trouve ça, en fait, très intéressant, d’autant plus que lorsqu’on dit ça à quelqu’un les gens pensent que l’algorithme c’est la clef, c’est un peu le pétrole, le cœur du pétrole en fait du business modèle de toutes les entreprises tech. En fait, pas vraiment, parce qu’il y a la data, il y a l’algorithme et puis il y a ce qu’on en fait, l’implémentation dans le code informatique qui va définir quelque part aussi la réponse, la performance. En fait, c’est cette implémentation qui est vraiment un enjeu pour les entreprises. La preuve : des boîtes comme Google et Facebook publient dans des revues scientifiques leurs algorithmes. C’est intéressant. Je n’ai pas encore d’avis fort là-dessus, mais j’aime beaucoup cette idée de paralléliser, de mettre face à face les textes de loi et les algorithmes qui créent, en fait, le tissu social de demain et notre place dans la société à chacun.

Étienne Gernelle : C’est l’histoire de la révélation à l’étape de la loi.

Guillaume Grallet : Il y a un autre aspect sur lequel on voulait vous entendre Aurélie, c’est sur les biais qui peuvent être utilisés par les algorithmes. C’est-à-dire qu’un algorithme n’est pas neutre, en fait.

Aurélie Jean : Oui. Mais je dis aussi souvent que les algorithmes ne sont pas coupables. C’est-à-dire qu’en fait ce qui se passe c’est que lorsqu’on parle de données, et c’est pour ça que l’open data c’est quelque chose auquel je suis très sensible parce que ça permettrait de minimiser les biais, je pense, lorsqu’on parle de données, ces données vont nous servir à faire de l’analyse par un algorithme qu’on aura choisi et qu’on aura implémenté dans un code de calcul pour avoir une réponse, une prédiction, en tout cas une tendance.

Et ce qui se passe dans ces données, c’est qu’en fonction du type de données que vous allez choisir, que vous allez sélectionner, vous allez sûrement avoir des réponses différentes ; on parle d’échantillonnage. Et, en toute rigueur, lorsque vous faites un calcul, vous devez le faire sur plusieurs échantillons de tailles différentes, de natures différentes, pour pouvoir définir ce qu’on appelle la représentativité de l’échantillon et de faire un ???, de dire « mon échantillon est représentatif, il n’y a pas de biais ». Dans la réalité, c’est beaucoup plus compliqué que ça. Et l’intelligence artificielle, en plus de ça, va, quelque part, renforcer, est un amplificateur des conséquences de ces biais pour la simple et bonne raison que l’on va développer des algorithmes qui vont être entraînés sur des données. Le biais initial des données va renforcer, en fait, ce que j’appelle la discrimination technologique à la fin du produit en sachant que certains utilisateurs vont être écartés de l’utilisation d’un produit parce que leur data n’aura pas été considérée en entrée. Donc l’open data c’est quelque chose qui m’intéresse beaucoup pour ça parce que je pense, j’espère en tout cas, parce que ce n’a pas été testé complètement encore, qu’en fait, en ouvrant les données, ça veut dire qu’on aura beaucoup moins de contrôles sur la source, les gens pourront mettre leurs données, n’importe qui. Et on a aussi cette grande question de nos confrontations à l’aveugle, de benchmarkoù, en fait, les gens vont pouvoir aller prendre des données, les tester eux-mêmes. Les chercheurs le font, il y a eu un test très intéressant dans la ville de New-York pour ça où, en fait, la ville de New-York a une énorme plateforme d’open data où les gens vont mettre leurs données et les gens vont chercher des données pour les traiter, les analyser et on a vu des incohérences ; on a vu des biais, des incohérences, des mauvais fonctionnements dans la ville de New-York grâce à ça. Donc je crois beaucoup à l’ouverture pour minimiser les biais et donc minimiser les discriminations technologiques.

22’ 28

Gaspard Koenig : Mais le problème c’est où est-ce que tu places le curseur de considérer que cette data est d’intérêt général ou non.