« Les dames de l'algorithme » : différence entre les versions

De April MediaWiki
Aller à la navigationAller à la recherche
(Contenu remplacé par « Catégorie:Transcriptions Publié [https://www.librealire.org/les-dames-de-l-algorithme ici] - Août 2024 »)
Balise : Contenu remplacé
 
(14 versions intermédiaires par 2 utilisateurs non affichées)
Ligne 1 : Ligne 1 :
[[Catégorie:Transcriptions]]
[[Catégorie:Transcriptions]]


'''Titre :''' Les dames de l'algorithme
Publié [https://www.librealire.org/les-dames-de-l-algorithme ici] - Août 2024
 
'''Intervenant·es :''' Camille Girard-Chanudet - Xavier de La Porte
 
'''Lieu :''' France Inter Podcast <em>Le code a changé</em>
 
'''Date :''' 19 janvier 2024
 
'''Durée :''' 1 h 06 min
 
'''[https://media.radiofrance-podcast.net/podcast09/20856-19.01.2024-ITEMA_23610232-2024F38589E0002-21.mp3 Podcast]
 
'''[https://www.radiofrance.fr/franceinter/podcasts/le-code-a-change/le-code-a-change-6-5342040 Présentation du podcast]
 
'''Licence de la transcription :''' [http://www.gnu.org/licenses/licenses.html#VerbatimCopying Verbatim]
 
'''Illustration :''' À prévoir
 
'''NB :''' <em>Transcription réalisée par nos soins, fidèle aux propos des intervenant·es mais rendant le discours fluide.<br/>
Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas nécessairement celles de l'April, qui ne sera en aucun cas tenue responsable de leurs propos.</em>
 
==Description==
 
L'histoire d'un groupe "d'annotatrices" qui entraînent un programme d'IA sur un programme d'anonymisation automatique des décisions de justice qui doivent maintenant être accessibles à tous.
 
==Transcription==
 
<b>Xavier de La Porte : </b>C’est l’histoire d’une jeune chercheuse qui se lance dans une thèse de sociologie sur l’intelligence artificielle dans la justice française. Par un mélange de hasard et de persévérance, elle tombe sur un terrain, comme on dit en jargon, assez inattendu : quelques bureaux du Palais de Justice, sur l’île de la Cité, à Paris, où on entraîne un algorithme auto apprenant.<br/>
Camille Girard-Chanudet, c’est le nom de la jeune chercheuse, s’y installe et elle observe. D’ailleurs, elle ne fait pas qu’observer, elle écoute, elle discute, elle se renseigne, elle fait son enquête et, progressivement, elle comprend des choses. Ce qu’elle comprend, Camille l’a raconté dans sa thèse qu’elle a brillamment soutenue en décembre 2023 et qui explique, de manière passionnante, ce que signifie vraiment le passage au numérique d’une institution aussi complexe et aussi sensible que la justice. Mais, ce qu’elle observe et comprend dans ses bureaux de l' île de la Cité, va au-delà du monde judiciaire. Pour moi, c’est même comme une allégorie de notre monde à l’heure de l’IA.<br/>
Là où on n’imagine que des <em>data scientists</em> et des ingénieurs face à des écrans, eh bien, il y a aussi d’autres gens : là où on pense qu’il n’y a que machines et procédures automatiques, eh bien il y a, en fait, des humains qui chopent des tendinites et qui doivent faire des choix compliqués ; là où on postule une concurrence entre ces humains et les algorithmes, on voit plutôt une forme de sympathie, de solidarité ; là où on pense que les catégories sont claires, qu’il y a des données et des résultats, on s’aperçoit que les données ne sont pas données, qu’il faut les construire et que, dans une construction, entre de la subjectivité, de la morale et même de la politique. Bref ! Ce que je vois dans le travail de Camille, c’est une allégorie qui raconte, en gros, que nous nous sommes sans doute embarqués dans un truc beaucoup plus subtil et beaucoup plus humain que ce qu’on dit, le plus souvent, de l’intelligence artificielle.<br/>
J’ai conscience que, dit comme ça, c’est un peu mystérieux, donc, on va repartir du début.<br/>
On est à la fin du quinquennat de François Hollande. La secrétaire d’État chargée du Numérique, Axelle Lemaire, réussit à faire passer une loi que seuls les passionnés des questions numériques ont encore en mémoire, mais qui, pourtant, n’a pas fini de produire des effets. C’est là que commence notre histoire, même un jour très précis.
 
<b>Voix off : </b><em>Le code a changé</em>.
 
<b>Camille Girard-Chanudet : </b>Le 4 octobre 2016, il y a le vote de la loi pour une République numérique. Parmi toute une diversité d’articles, cette loi-là acte le principe de mise en <em>open data</em> des décisions de justice. Ça veut dire que toutes les décisions, les quatre millions de décisions qui sont produites par les tribunaux français chaque année, devront être mises en accès libre, sous format numérique, et gratuitement.
 
<b>Xavier de La Porte : </b>C’est intéressant de se souvenir comment Axelle Lemaire, elle-même, présentait cet aspect de la loi devant l’Assemblée nationale, juste avant sa discussion par les députés. On comprend mieux les enjeux qu’il y a derrière cette mise en <em>open data</em>
 
<b>Axelle Lemaire, voix off : </b>« On dit que le droit est en retard sur les usages, eh bien non, ici nous inventons pour construire le socle de l’économie de demain, de celui de la data, avec des nouvelles notions : l'<em>open data</em> par défaut, les données d’intérêt général, la mission de service public de la donnée, autant de dispositions qui doivent donner à la France une longueur d’avance dans ce qu’on appelle l’économie de la connaissance. Nous considérons que cette mise à disposition d’un certain nombre de données relève du bien commun. C’est une petite révolution en soi, une ambition politique tout autant qu’un impératif économique qui se traduit, par exemple, par la mise à disposition gratuite des données de la base Sirene de l’Insee, par l’ouverture des algorithmes administratifs en cas de décision individuelle, par l’ouverture des codes sources, aussi, des administrations.
 
<b>Xavier de La Porte : </b>Ce que dit Axelle Lemaître est assez général, mais j’aimerais savoir quels sont les enjeux pour les données de justice : est-ce que c’est la transparence ou est-ce qu’il y a aussi l’idée que ces données pourraient servir à autre chose ?
 
<b>Camille Girard-Chanudet : </b>Il y a, bien sûr, cet enjeu de transparence de la justice. Il y a aussi d’autres enjeux derrière qui sont des enjeux plus économiques : jusqu’à maintenant, les décisions ne sont pas en accès libre ; une sélection de décisions est communiquée, par les tribunaux, aux éditeurs juridiques qui sont, eux, ceux qui vont transmettre les décisions au grand public via leurs publications, via les manuels, les recueils qu’ils publient. L’idée c’est de dire qu’on va supprimer ces rentes, rendre les décisions accessibles au public, donc à des réutilisations soit citoyennes soit éventuellement par des startups qui vont se saisir de ce matériau-là et créer des outils par exemple de gestion statistique avec ce nouveau matériau numérique.
 
<b>Xavier de La Porte : </b>Qu’attend-on de ce que pourraient faire les startups à partir de ces décisions rendues publiques ?
 
<b>Camille Girard-Chanudet : </b>Je pense qu’il y a l’idée assez floue, à ce moment-là, en 2016, de dire que ces décisions contiennent énormément d’informations sur le contentieux qui est produit par les tribunaux français, finalement on n’en sait pas grand-chose, on sait des choses sur les grandes décisions qui sont rendues par les juridictions suprêmes, par certaines cours d’appel. Par contre, on ne sait pas trop ce qu’il y a dans le gros du contentieux qui est rendu par les tribunaux de première instance, donc les startups ou d’autres acteurs vont pouvoir faire de l’analyse statistique, essayer de dire quelles sont les grandes directions du contentieux, quelles sont les directions qui sont prises. Par exemple, est-ce que certaines cours jugent différemment ? Est-ce que certains magistrats jugent différemment ? Est-ce qu’on peut avoir une idée de la direction dans laquelle se dirige la jurisprudence et en tirer, par exemple, des enseignements pour l’avenir ? Mais je ne suis pas sûre que ce soit l’intention, à la base, de la loi pour une République numérique. Il y a surtout cette idée de ce grand mouvement <em>open data</em> qu’il y a, de façon générale, dans l’administration : il faut diffuser les documents qui sont détenus par les administrations et il faut aussi laisser libre les réutilisations qui n’ont pas été envisagées par le législateur, en fait voir ce qu’il en ressort d’une certaine façon.
 
<b>Xavier de La Porte : </b>OK. Transparence, donc, mais aussi réutilisation par des acteurs du numérique pour des usages non encore définis. Moi, tout de suite, concernant la justice, ça me fait penser à un truc. Je me souviens qu’à cette époque on parlait beaucoup, aux États-Unis, de programmes informatiques qui pourraient aider la justice à prendre certaines décisions grâce au moulinage des données. On avait même trouvé un nom un peu paradoxal, c’était « la justice prédictive ». Il y avait des expérimentations en cours dans certains États. Je demande donc à Camille si c’était à ce type d’usage qu’on pensait au moment de la loi ou si c’était un peu secondaire dans ses mobiles ?
 
<b>Camille Girard-Chanudet : </b>Je pense que c’est secondaire et que c’est quelque chose qui est arrivé après coup, quand les startups se sont saisies de cet outil-là, de cet objet décisions de justice, et que les startups, elles, ont très vite vu cette possibilité de faire de la justice prédictive, parce que les fondateurs de startups sont des personnes qui, pour beaucoup, ont fait leurs études aux États-Unis, qui ont été très au contact avec des outils type Compas, qui sont aussi très bercés de cet imaginaire technologique-là, un peu à la <em>Minority Report</em>, comment on va pouvoir prédire la justice du futur. À mon sens, c’est plutôt un discours qui a été manufacturé après, au niveau des startups, qu’au moment du vote de la loi pour une République numérique, à mon avis on n’était pas tant sur ces enjeux-là à ce moment-là.
 
<b>Xavier de La Porte : </b>D’autant qu’il y avait déjà quelques raisons de se méfier des ambitions de la justice prédictive. Compas, le logiciel que mentionne Camille, qui avait été expérimenté aux États-Unis pour aider à prévoir la récidive de crime, avait déjà été remis en question. En mai 2016, donc quelques mois avant le vote de la loi française, le site ProPublica, le site d’enquête, avait publié un gros papier montrant la manière dont les biais racistes se répercutaient dans ces modèles de prédiction. De toute façon, Camille le dit bien : « Cet enjeu est secondaire et lointain dans la loi, ce qu’il faut d’abord c’est rendre les décisions de justice accessibles ». Donc, octobre 2016, la justice française doit se mettre à l'<em>open data</em>. J’imagine que ça lance un grand mouvement, alors qu’est-ce qu’il se passe ?
 
<b>Camille Girard-Chanudet : </b>En fait, spontanément, il ne se passe pas grand-chose parce que ces articles, les articles 20 et 21 de la loi pour une République numérique, sortent sans le ministère de la Justice et le monde de la justice aient été trop impliqués dans les débats qui entourent cette loi-là. Ils se retrouvent, d’un coup, avec ces dispositions qu’il faut mettre en œuvre sans avoir trop de connaissances techniques en la matière, parce que l'<em>open data</em> ne se fait pas sur un claquement de doigts. Aujourd’hui, il y a quatre millions de décisions de justice par an, conservées dans des classeurs, souvent en format papier, dans les services de greffe des tribunaux. La justice est publique, c’est un principe, mais si tout un chacun veut une décision de justice, il faut contacter le tribunal de Bobigny, par exemple, le service de greffe et dire « je voudrais la décision en date du 20 janvier » et on obtient, au format papier, une copie d’une décision donnée.<br/>
L'<em>open data</em> est un changement radical d’échelle par rapport aux modes de circulation traditionnels des décisions de justice. Il faut mettre en place tout un dispositif technique de numérisation des décisions, même de saisie des décisions à l’origine. Quand un magistrat va saisir sa décision, une fois qu’elle est rendue, il faut qu’elle soit dans un format standardisé, il faut que ce soit homogénéisé, il faut que ce soit envoyé, ensuite, sur des serveurs centralisés ; il va falloir construire toute l’infrastructure de diffusion des décisions, les plateformes, avec quel public on a en tête pour cet <em>open data</em> : est-ce que ça va être un public qualifié juridiquement, avec un moteur de recherche ? Est-ce que c’est plutôt pour ces startups, justement, avec une API ? Il faut donc imaginer toute cette infrastructure-là et ça a mis plusieurs années, puisque la mise en œuvre de l'<em>open data</em> est encore en action aujourd’hui, donc !
 
<b>Xavier de La Porte : </b>Donc, sept ans après le vote de la loi. C’est sûr que l’énumération faite par Camille est vertigineuse : standardisation, saisie, création de bases de données, format de mise à disposition, plateformes par lesquelles on y accède, etc. ; il faut former des gens, il faut leur expliquer de ne mettre sur les serveurs que les décisions de justice et pas leurs mails ; il faut automatiser les processus de transmission d’une juridiction à l’autre, etc. Bon ! C’est un chantier titanesque ! C’est intéressant parce qu’on n’imagine pas toujours les conséquences concrètes d’une loi. On pourrait se dire que mettre en <em>open data</em> les décisions de justice en 2016, c’est juste rendre accessible à tous un fichier centralisé où sont stockées ces décisions. Eh bien non ! D’ailleurs, dans ce chantier, j’aimerais savoir quels sont les principaux problèmes à résoudre et, pour Camille, le premier c’est la décision elle-même, sa circulation et son stockage.
 
<b>Camille Girard-Chanudet : </b>Les décisions sont des objets juridiques, qui ont une vie à l’intérieur du système de la justice, qui est très particulière. Une décision est rendue par une cour, elle va, éventuellement circuler vers d’autres cours si, par exemple, la personne fait appel. Elles vont être stockées dans des espaces particuliers, elles vont, éventuellement, être communiquées à des journalistes ou à des personnes intéressées ; ça, c’est le mode d’existence des décisions de justice. Pour les mettre en <em>open data</em> il faut les extraire, en quelque sorte, de tous ce mode d’existence-là et les insérer dans des nouveaux modes d’existence où elles vont être en contact avec d’autres acteurs, avec des acteurs de l’entrepreneuriat numérique, avec tout un tas d’autres gens et traduire les objets traditionnels en données numériques standardisées, à très grande échelle, c’est quelque chose qui demande énormément de travail ; ça demande du matériel, ça demande des espaces de stockage. Par exemple, à la Cour de cassation qui stocke les décisions dans le cadre de la mise en <em>open data</em>, ils avaient, originellement, une salle des serveurs qui était toute petite, qui se trouve sous le niveau de la Seine, dans le palais de justice de l’île de la Cité, une pièce de peut-être 12 mètres carrés ! Il y a donc plein de problèmes, parce que, régulièrement, quand il y a des crues du niveau de la Seine, il faut mettre à l’arrêt les serveurs pour protéger les données, ça ne peut donc pas être utilisé de façon pérenne. Il y a donc des enjeux de déplacement des salles de serveurs, de mutualisation avec d’autres serveurs du ministère de la Justice dans des endroits beaucoup plus sécurisés et mieux prévus pour cet afflux de données. Il faut donc faire tout cela, il faut construire ces nouvelles infrastructures de stockage pour des décisions numérisées, quatre millions par an fois X années, ça fait énormément de décisions à stocker.
 
<b>Xavier de La Porte : </b>Donc, pour Camille, le premier problème c’est le passage de la décision de justice d’un mode d’existence à un autre avec tout ce que nécessite ce passage. Un autre problème c’est : qui va se charger de faire ce travail d'<em>open data</em> ? Ça aurait pu être le ministère, ça aurait pu être chaque juridiction dans son coin, ça aurait pu être les acteurs traditionnels comme les éditeurs juridiques, ça aurait pu être les startups aussi, après tout les startups maîtrisent l’informatique ! Mais, finalement, on décide que ce sera la Cour de cassation, parce que, en tant que cour suprême elle est légitime et parce que, en plus, il semblerait qu’elle ait des compétences en matière de numérisation.<br/>
Donc, une fois qu’il est décidé que c’est la Cour de cassation qui est responsable de ce travail, une fois résolus les problèmes de serveur de l’île de la Cité qui peuvent être inondés à la moindre crue, une fois mises en place des procédures de saisie des données, de standardisation, etc., on pourrait croire que c’est bon, qu’on va pouvoir y aller, qu’on est prêt à mettre les décisions en accès libre, sauf que non ! Parce que se pose un autre problème !
 
<b>Camille Girard-Chanudet : </b>C’est comment protéger la vie privée des personnes qui sont citées dans les décisions, puisque les décisions sont des documents qui contiennent tout un tas d’informations, à caractère parfois très sensible sur les personnes qui sont dans les affaires, donc, on ne peut pas mettre en <em>open data</em> les décisions de justice sans occulter ces informations-là. Il a donc fallu trouver une solution technique pour mettre ça en œuvre. C’est donc à ce moment-là qu’émerge l’idée d’internaliser le processus d’anonymisation des décisions de justice, en ayant recours à un dispositif d’apprentissage automatique, parce que c’est impossible d’anonymiser à la main quatre millions de décisions par an, donc d’avoir une petite équipe de techniciens qui resterait dans les locaux de la Cour de cassation pendant dix mois pour construire une première version d’un logiciel d’anonymisation automatique des décisions.
 
<b>Xavier de La Porte : </b>Automatiser l’anonymisation. Dans le jargon, on parle plutôt de pseudonymisation, mais bon !, nous dirons anonymisation.<br/>
Automatiser l’anonymisation donc, parce que ni les magistrats qui prennent ces décisions, ni les services de greffe qui rédigent les décisions de justice en collaboration avec les magistrats, n’ont les moyens ou le temps de prendre en charge ce travail et on n’allait pas, non plus, engager des milliers de personnes pour le faire à la main, décision après décision. C’est donc là qu’est fait le choix d’avoir recours à l’apprentissage automatique, une des modalités de l’intelligence artificielle. Et on comprend tout à fait la logique de ce choix d’un programme d’apprentissage automatique. On est vers 2018, les progrès réalisés par ces programmes depuis le début des années 2010 sont hyper impressionnants, mais il y a quand même un truc qui m’intrigue : pourquoi avoir besoin de ces logiciels sophistiqués pour anonymiser ? Un logiciel classique ne pourrait-il pas le faire ? C’est si compliqué que ça d’anonymiser des décisions de justice ?
 
<b>Camille Girard-Chanudet : </b>Ça pourrait être très simple si on disait, par exemple, qu’on veut enlever juste les noms et les prénoms dans une décision. À ce moment-là, on pourrait dire qu’il faut enlever tout ce qu’il y a derrière le mot madame ou derrière le mot monsieur, puisque, à priori, ce sera un nom de famille qui suivra. C’est un algorithme qui s’appelle « par règle », c’est-à-dire qu’on dit si avant il y a le mot monsieur, alors occulter ce qui vient ensuite. C’est la solution qui a été adoptée à la base. On s’est rendu compte que ça marchait d’abord très mal parce que, en réalité, il y a tout un tas de choses imprévues dans les décisions de justice. En plus, si on veut protéger la vie privée des justiciables et des personnes qui sont citées dans les décisions, on ne peut pas se contenter d’enlever simplement leurs noms et leurs prénoms. Les décisions contiennent plein d’informations qui permettent de remonter à l’identité des personnes, par exemple dans quelle ville ça s’est passé, c’est une affaire qui s’est passée dans l’école d’une petite ville où on sait qu’il y a tant d’habitants, que l’école se trouve à côté de la boulangerie et que, finalement, il s’est passé quelque chose sous l’arbre du village. Ce sont des détails qui sont dans les décisions parce qu’ils permettent, souvent, de bien comprendre ce qui s’est passé dans le cas et ils ont une influence sur l’issue juridique de l’affaire. Donc, si on a tous ces éléments-là, on risque, en connaissant la personne ou si on veut la rechercher, de retomber très facilement sur son identité. On a donc décidé qu’il fallait occulter beaucoup plus d’informations, par exemple les adresses, les noms des entreprises, les noms des établissements, c’est-à-dire les écoles, les hôpitaux, les noms des prisons, les plaques d’immatriculation, les numéros de téléphone, en tout cas, il faut supprimer le plus possible d’éléments qui permettent de remonter à quelqu’un.
 
==17’ 00==
 
<b>Xavier de La Porte : </b>OK !

Dernière version du 28 août 2024 à 16:19


Publié ici - Août 2024