Les dames de l'algorithme

De April MediaWiki
Aller à la navigationAller à la recherche


Titre : Les dames de l'algorithme

Intervenant·es : Camille Girard-Chanudet - Xavier de La Porte

Lieu : France Inter Podcast Le code a changé

Date : 19 janvier 2024

Durée : 1 h 06 min

Podcast

Présentation du podcast

Licence de la transcription : Verbatim

Illustration : À prévoir

NB : Transcription réalisée par nos soins, fidèle aux propos des intervenant·es mais rendant le discours fluide.
Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas nécessairement celles de l'April, qui ne sera en aucun cas tenue responsable de leurs propos.

Description

L'histoire d'un groupe "d'annotatrices" qui entraînent un programme d'IA sur un programme d'anonymisation automatique des décisions de justice qui doivent maintenant être accessibles à tous.

Transcription

Xavier de La Porte : C’est l’histoire d’une jeune chercheuse qui se lance dans une thèse de sociologie sur l’intelligence artificielle dans la justice française. Par un mélange de hasard et de persévérance, elle tombe sur un terrain, comme on dit en jargon, assez inattendu : quelques bureaux du Palais de Justice, sur l’île de la Cité, à Paris, où on entraîne un algorithme auto apprenant.
Camille Girard-Chanudet, c’est le nom de la jeune chercheuse, s’y installe et elle observe. D’ailleurs, elle ne fait pas qu’observer, elle écoute, elle discute, elle se renseigne, elle fait son enquête et, progressivement, elle comprend des choses. Ce qu’elle comprend, Camille l’a raconté dans sa thèse qu’elle a brillamment soutenue en décembre 2023 et qui explique, de manière passionnante, ce que signifie vraiment le passage au numérique d’une institution aussi complexe et aussi sensible que la justice. Mais, ce qu’elle observe et comprend dans ses bureaux de l' île de la Cité, va au-delà du monde judiciaire. Pour moi, c’est même comme une allégorie de notre monde à l’heure de l’IA.
Là où on n’imagine que des data scientists et des ingénieurs face à des écrans, eh bien, il y a aussi d’autres gens : là où on pense qu’il n’y a que machines et procédures automatiques, eh bien il y a, en fait, des humains qui chopent des tendinites et qui doivent faire des choix compliqués ; là où on postule une concurrence entre ces humains et les algorithmes, on voit plutôt une forme de sympathie, de solidarité ; là où on pense que les catégories sont claires, qu’il y a des données et des résultats, on s’aperçoit que les données ne sont pas données, qu’il faut les construire et que, dans une construction, entre de la subjectivité, de la morale et même de la politique. Bref ! Ce que je vois dans le travail de Camille, c’est une allégorie qui raconte, en gros, que nous nous sommes sans doute embarqués dans un truc beaucoup plus subtil et beaucoup plus humain que ce qu’on dit, le plus souvent, de l’intelligence artificielle.
J’ai conscience que, dit comme ça, c’est un peu mystérieux, donc, on va repartir du début.
On est à la fin du quinquennat de François Hollande. La secrétaire d’État chargée du Numérique, Axelle Lemaire, réussit à faire passer une loi que seuls les passionnés des questions numériques ont encore en mémoire, mais qui, pourtant, n’a pas fini de produire des effets. C’est là que commence notre histoire, même un jour très précis.

Voix off : Le code a changé.

Camille Girard-Chanudet : Le 4 octobre 2016, il y a le vote de la loi pour une République numérique. Parmi toute une diversité d’articles, cette loi-là acte le principe de mise en open data des décisions de justice. Ça veut dire que toutes les décisions, les quatre millions de décisions qui sont produites par les tribunaux français chaque année, devront être mises en accès libre, sous format numérique, et gratuitement.

Xavier de La Porte : C’est intéressant de se souvenir comment Axelle Lemaire, elle-même, présentait cet aspect de la loi devant l’Assemblée nationale, juste avant sa discussion par les députés. On comprend mieux les enjeux qu’il y a derrière cette mise en open data

Axelle Lemaire, voix off : « On dit que le droit est en retard sur les usages, eh bien non, ici nous inventons pour construire le socle de l’économie de demain, de celui de la data, avec des nouvelles notions : l'open data par défaut, les données d’intérêt général, la mission de service public de la donnée, autant de dispositions qui doivent donner à la France une longueur d’avance dans ce qu’on appelle l’économie de la connaissance. Nous considérons que cette mise à disposition d’un certain nombre de données relève du bien commun. C’est une petite révolution en soi, une ambition politique tout autant qu’un impératif économique qui se traduit, par exemple, par la mise à disposition gratuite des données de la base Sirene de l’Insee, par l’ouverture des algorithmes administratifs en cas de décision individuelle, par l’ouverture des codes sources, aussi, des administrations.

Xavier de La Porte : Ce que dit Axelle Lemaître est assez général, mais j’aimerais savoir quels sont les enjeux pour les données de justice : est-ce que c’est la transparence ou est-ce qu’il y a aussi l’idée que ces données pourraient servir à autre chose ?

Camille Girard-Chanudet : Il y a, bien sûr, cet enjeu de transparence de la justice. Il y a aussi d’autres enjeux derrière qui sont des enjeux plus économiques : jusqu’à maintenant, les décisions ne sont pas en accès libre ; une sélection de décisions est communiquée, par les tribunaux, aux éditeurs juridiques qui sont, eux, ceux qui vont transmettre les décisions au grand public via leurs publications, via les manuels, les recueils qu’ils publient. L’idée c’est de dire qu’on va supprimer ces rentes, rendre les décisions accessibles au public, donc à des réutilisations soit citoyennes soit éventuellement par des startups qui vont se saisir de ce matériau-là et créer des outils par exemple de gestion statistique avec ce nouveau matériau numérique.

Xavier de La Porte : Qu’attend-on de ce que pourraient faire les startups à partir de ces décisions rendues publiques ?

Camille Girard-Chanudet : Je pense qu’il y a l’idée assez floue, à ce moment-là, en 2016, de dire que ces décisions contiennent énormément d’informations sur le contentieux qui est produit par les tribunaux français, finalement on n’en sait pas grand-chose, on sait des choses sur les grandes décisions qui sont rendues par les juridictions suprêmes, par certaines cours d’appel. Par contre, on ne sait pas trop ce qu’il y a dans le gros du contentieux qui est rendu par les tribunaux de première instance, donc les startups ou d’autres acteurs vont pouvoir faire de l’analyse statistique, essayer de dire quelles sont les grandes directions du contentieux, quelles sont les directions qui sont prises. Par exemple, est-ce que certaines cours jugent différemment ? Est-ce que certains magistrats jugent différemment ? Est-ce qu’on peut avoir une idée de la direction dans laquelle se dirige la jurisprudence et en tirer, par exemple, des enseignements pour l’avenir ? Mais je ne suis pas sûre que ce soit l’intention, à la base, de la loi pour une République numérique. Il y a surtout cette idée de ce grand mouvement open data qu’il y a, de façon générale, dans l’administration : il faut diffuser les documents qui sont détenus par les administrations et il faut aussi laisser libre les réutilisations qui n’ont pas été envisagées par le législateur, en fait voir ce qu’il en ressort d’une certaine façon.

Xavier de La Porte : OK. Transparence, donc, mais aussi réutilisation par des acteurs du numérique pour des usages non encore définis. Moi, tout de suite, concernant la justice, ça me fait penser à un truc. Je me souviens qu’à cette époque on parlait beaucoup, aux États-Unis, de programmes informatiques qui pourraient aider la justice à prendre certaines décisions grâce au moulinage des données. On avait même trouvé un nom un peu paradoxal, c’était « la justice prédictive ». Il y avait des expérimentations en cours dans certains États. Je demande donc à Camille si c’était à ce type d’usage qu’on pensait au moment de la loi ou si c’était un peu secondaire dans ses mobiles ?

Camille Girard-Chanudet : Je pense que c’est secondaire et que c’est quelque chose qui est arrivé après coup, quand les startups se sont saisies de cet outil-là, de cet objet décisions de justice, et que les startups, elles, ont très vite vu cette possibilité de faire de la justice prédictive, parce que les fondateurs de startups sont des personnes qui, pour beaucoup, ont fait leurs études aux États-Unis, qui ont été très au contact avec des outils type Compas, qui sont aussi très bercés de cet imaginaire technologique-là, un peu à la Minority Report, comment on va pouvoir prédire la justice du futur. À mon sens, c’est plutôt un discours qui a été manufacturé après, au niveau des startups, qu’au moment du vote de la loi pour une République numérique, à mon avis on n’était pas tant sur ces enjeux-là à ce moment-là.

Xavier de La Porte : D’autant qu’il y avait déjà quelques raisons de se méfier des ambitions de la justice prédictive. Compas, le logiciel que mentionne Camille, qui avait été expérimenté aux États-Unis pour aider à prévoir la récidive de crime, avait déjà été remis en question. En mai 2016, donc quelques mois avant le vote de la loi française, le site ProPublica, le site d’enquête, avait publié un gros papier montrant la manière dont les biais racistes se répercutaient dans ces modèles de prédiction. De toute façon, Camille le dit bien : « Cet enjeu est secondaire et lointain dans la loi, ce qu’il faut d’abord c’est rendre les décisions de justice accessibles ». Donc, octobre 2016, la justice française doit se mettre à l'open data. J’imagine que ça lance un grand mouvement, alors qu’est-ce qu’il se passe ?

Camille Girard-Chanudet : En fait, spontanément, il ne se passe pas grand-chose parce que ces articles, les articles 20 et 21 de la loi pour une République numérique, sortent sans le ministère de la Justice et le monde de la justice aient été trop impliqués dans les débats qui entourent cette loi-là. Ils se retrouvent, d’un coup, avec ces dispositions qu’il faut mettre en œuvre sans avoir trop de connaissances techniques en la matière, parce que l'open data ne se fait pas sur un claquement de doigts. Aujourd’hui, il y a quatre millions de décisions de justice par an, conservées dans des classeurs, souvent en format papier, dans les services de greffe des tribunaux. La justice est publique, c’est un principe, mais si tout un chacun veut une décision de justice, il faut contacter le tribunal de Bobigny, par exemple, le service de greffe et dire « je voudrais la décision en date du 20 janvier » et on obtient, au format papier, une copie d’une décision donnée.
L'open data est un changement radical d’échelle par rapport aux modes de circulation traditionnels des décisions de justice. Il faut mettre en place tout un dispositif technique de numérisation des décisions, même de saisie des décisions à l’origine. Quand un magistrat va saisir sa décision, une fois qu’elle est rendue, il faut qu’elle soit dans un format standardisé, il faut que ce soit homogénéisé, il faut que ce soit envoyé, ensuite, sur des serveurs centralisés ; il va falloir construire toute l’infrastructure de diffusion des décisions, les plateformes, avec quel public on a en tête pour cet open data : est-ce que ça va être un public qualifié juridiquement, avec un moteur de recherche ? Est-ce que c’est plutôt pour ces startups, justement, avec une API ? Il faut donc imaginer toute cette infrastructure-là et ça a mis plusieurs années, puisque la mise en œuvre de l'open data est encore en action aujourd’hui, donc !

Xavier de La Porte : Donc, sept ans après le vote de la loi. C’est sûr que l’énumération faite par Camille est vertigineuse : standardisation, saisie, création de bases de données, format de mise à disposition, plateformes par lesquelles on y accède, etc. ; il faut former des gens, il faut leur expliquer de ne mettre sur les serveurs que les décisions de justice et pas leurs mails ; il faut automatiser les processus de transmission d’une juridiction à l’autre, etc. Bon ! C’est un chantier titanesque ! C’est intéressant parce qu’on n’imagine pas toujours les conséquences concrètes d’une loi. On pourrait se dire que mettre en open data les décisions de justice en 2016, c’est juste rendre accessible à tous un fichier centralisé où sont stockées ces décisions. Eh bien non ! D’ailleurs, dans ce chantier, j’aimerais savoir quels sont les principaux problèmes à résoudre et, pour Camille, le premier c’est la décision elle-même, sa circulation et son stockage.

Camille Girard-Chanudet : Les décisions sont des objets juridiques, qui ont une vie à l’intérieur du système de la justice, qui est très particulière. Une décision est rendue par une cour, elle va, éventuellement circuler vers d’autres cours si, par exemple, la personne fait appel. Elles vont être stockées dans des espaces particuliers, elles vont, éventuellement, être communiquées à des journalistes ou à des personnes intéressées ; ça, c’est le mode d’existence des décisions de justice. Pour les mettre en open data il faut les extraire, en quelque sorte, de tous ce mode d’existence-là et les insérer dans des nouveaux modes d’existence où elles vont être en contact avec d’autres acteurs, avec des acteurs de l’entrepreneuriat numérique, avec tout un tas d’autres gens et traduire les objets traditionnels en données numériques standardisées, à très grande échelle, c’est quelque chose qui demande énormément de travail ; ça demande du matériel, ça demande des espaces de stockage. Par exemple, à la Cour de cassation qui stocke les décisions dans le cadre de la mise en open data, ils avaient, originellement, une salle des serveurs qui était toute petite, qui se trouve sous le niveau de la Seine, dans le palais de justice de l’île de la Cité, une pièce de peut-être 12 mètres carrés ! Il y a donc plein de problèmes, parce que, régulièrement, quand il y a des crues du niveau de la Seine, il faut mettre à l’arrêt les serveurs pour protéger les données, ça ne peut donc pas être utilisé de façon pérenne. Il y a donc des enjeux de déplacement des salles de serveurs, de mutualisation avec d’autres serveurs du ministère de la Justice dans des endroits beaucoup plus sécurisés et mieux prévus pour cet afflux de données. Il faut donc faire tout cela, il faut construire ces nouvelles infrastructures de stockage pour des décisions numérisées, quatre millions par an fois X années, ça fait énormément de décisions à stocker.

Xavier de La Porte : Donc, pour Camille, le premier problème c’est le passage de la décision de justice d’un mode d’existence à un autre avec tout ce que nécessite ce passage. Un autre problème c’est : qui va se charger de faire ce travail d'open data ? Ça aurait pu être le ministère, ça aurait pu être chaque juridiction dans son coin, ça aurait pu être les acteurs traditionnels comme les éditeurs juridiques, ça aurait pu être les startups aussi, après tout les startups maîtrisent l’informatique ! Mais, finalement, on décide que ce sera la Cour de cassation, parce que, en tant que cour suprême elle est légitime et parce que, en plus, il semblerait qu’elle ait des compétences en matière de numérisation.
Donc, une fois qu’il est décidé que c’est la Cour de cassation qui est responsable de ce travail, une fois résolus les problèmes de serveur de l’île de la Cité qui peuvent être inondés à la moindre crue, une fois mises en place des procédures de saisie des données, de standardisation, etc., on pourrait croire que c’est bon, qu’on va pouvoir y aller, qu’on est prêt à mettre les décisions en accès libre, sauf que non ! Parce que se pose un autre problème !

Camille Girard-Chanudet : C’est comment protéger la vie privée des personnes qui sont citées dans les décisions, puisque les décisions sont des documents qui contiennent tout un tas d’informations, à caractère parfois très sensible sur les personnes qui sont dans les affaires, donc, on ne peut pas mettre en open data les décisions de justice sans occulter ces informations-là. Il a donc fallu trouver une solution technique pour mettre ça en œuvre. C’est donc à ce moment-là qu’émerge l’idée d’internaliser le processus d’anonymisation des décisions de justice, en ayant recours à un dispositif d’apprentissage automatique, parce que c’est impossible d’anonymiser à la main quatre millions de décisions par an, donc d’avoir une petite équipe de techniciens qui resterait dans les locaux de la Cour de cassation pendant dix mois pour construire une première version d’un logiciel d’anonymisation automatique des décisions.

Xavier de La Porte : Automatiser l’anonymisation. Dans le jargon, on parle plutôt de pseudonymisation, mais bon !, nous dirons anonymisation.
Automatiser l’anonymisation donc, parce que ni les magistrats qui prennent ces décisions, ni les services de greffe qui rédigent les décisions de justice en collaboration avec les magistrats, n’ont les moyens ou le temps de prendre en charge ce travail et on n’allait pas, non plus, engager des milliers de personnes pour le faire à la main, décision après décision. C’est donc là qu’est fait le choix d’avoir recours à l’apprentissage automatique, une des modalités de l’intelligence artificielle. Et on comprend tout à fait la logique de ce choix d’un programme d’apprentissage automatique. On est vers 2018, les progrès réalisés par ces programmes depuis le début des années 2010 sont hyper impressionnants, mais il y a quand même un truc qui m’intrigue : pourquoi avoir besoin de ces logiciels sophistiqués pour anonymiser ? Un logiciel classique ne pourrait-il pas le faire ? C’est si compliqué que ça d’anonymiser des décisions de justice ?

Camille Girard-Chanudet : Ça pourrait être très simple si on disait, par exemple, qu’on veut enlever juste les noms et les prénoms dans une décision. À ce moment-là, on pourrait dire qu’il faut enlever tout ce qu’il y a derrière le mot madame ou derrière le mot monsieur, puisque, à priori, ce sera un nom de famille qui suivra. C’est un algorithme qui s’appelle « par règle », c’est-à-dire qu’on dit si avant il y a le mot monsieur, alors occulter ce qui vient ensuite. C’est la solution qui a été adoptée à la base. On s’est rendu compte que ça marchait d’abord très mal parce que, en réalité, il y a tout un tas de choses imprévues dans les décisions de justice. En plus, si on veut protéger la vie privée des justiciables et des personnes qui sont citées dans les décisions, on ne peut pas se contenter d’enlever simplement leurs noms et leurs prénoms. Les décisions contiennent plein d’informations qui permettent de remonter à l’identité des personnes, par exemple dans quelle ville ça s’est passé, c’est une affaire qui s’est passée dans l’école d’une petite ville où on sait qu’il y a tant d’habitants, que l’école se trouve à côté de la boulangerie et que, finalement, il s’est passé quelque chose sous l’arbre du village. Ce sont des détails qui sont dans les décisions parce qu’ils permettent, souvent, de bien comprendre ce qui s’est passé dans le cas et ils ont une influence sur l’issue juridique de l’affaire. Donc, si on a tous ces éléments-là, on risque, en connaissant la personne ou si on veut la rechercher, de retomber très facilement sur son identité. On a donc décidé qu’il fallait occulter beaucoup plus d’informations, par exemple les adresses, les noms des entreprises, les noms des établissements, c’est-à-dire les écoles, les hôpitaux, les noms des prisons, les plaques d’immatriculation, les numéros de téléphone, en tout cas, il faut supprimer le plus possible d’éléments qui permettent de remonter à quelqu’un.

17’ 00

Xavier de La Porte : OK ! Anonymiser, c’est plus compliqué qu’il n’y paraît, je veux bien, mais je ne vois toujours pas pourquoi une IA le ferait mieux qu’un programme bien troussé.

Camille Girard-Chanudet : Un logiciel d’apprentissage automatique est capable de reconnaître des éléments dans un document textuel, même si la forme dans laquelle apparaissent ces éléments n’est pas toujours la même, c’est-à-dire que nom, prénom, par exemple, on a souvent une forme qui est toujours la même, monsieur machin ; par contre, d’autres éléments par exemple le nom d’une entreprise, le nom d’un lieu-dit, ça n’apparaît pas toujours de la même façon dans une décision, donc on ne peut pas juste l’automatiser avec des règles simples. Il faut fournir, à une machine, un très grand nombre d’exemples qui ont été annotés à la main, pour apprendre au logiciel à reconnaître des choses qui sont issues de données qui sont imprévues et issues d’un réel qui est mouvant, comme le réel sur lequel s’appliquent les décisions de justice.

Xavier de La Porte : Plusieurs choses m’intriguent dans ce que vient de dire Camille. Il y a d’abord « annotées à la main », qu’elle a glissé, l’air de rien, mais qui m’a sauté à l’oreille, il faudra qu’on y revienne. Il y a aussi le réel qu’elle évoque mouvant ; pareil, il faudra qu’on y revienne. Mais, avant ça, je me demande bien où les ingénieurs et les techniciens de la Cour de cassation sont allés chercher leur modèle d’apprentissage automatique : est-ce qu’ils l’ont codé eux-mêmes ou alors est-ce qu’ils s’en sont procuré un qui existait déjà ?

Camille Girard-Chanudet : Dans l’apprentissage automatique, dans la reconnaissance du langage en tout cas, les modèles qui sont utilisés, en tout cas par la Cour de cassation, sont des modèles qui sont mis en open access par des grandes entreprises. Par exemple, au moment de mon enquête, les modèles qui étaient utilisés étaient des modèles de Zalando et de Facebook. Ces grandes entreprises mettent, en tout cas au moins une partie de ce qu’elles produisent, en open access et c’est réutilisé par des petites équipes qui, ensuite, ont juste à insérer ces modèles dans leur cadre de travail et à en faire varier les paramètres pour trouver la solution la plus optimale. En tout cas, ils ne codent pas du tout de A à Z les programmes d’apprentissage automatique et je pense que c’est le cas de façon générale. Dans la plupart des fabriques d’intelligence artificielle, on n’écrit pas de A à Z les programmes algorithmiques.

Xavier de La Porte : C’est marrant ça ! Je savais que Facebook, comme Google et d’autres, avait des centres de recherche et qu’il mettait en accès libre des modèles d’IA. Pour Zalando, j’ignorais complètement ! Pour moi, Zalando c’est juste une énorme boîte allemande de e-commerce, ce n’est pas une entreprise tech. Je pense que ma vision du monde numérique est décidément ultra simpliste. Bref ! Je reviens à ce « annotées à la main » que Camille a prononcé tout à l’heure quand elle parlait du programme auto apprenant. Je serais curieux de savoir ce qu’elle entendait vraiment par là.

Camille Girard-Chanudet : Il faut nourrir un modèle d’apprentissage automatique d’une très grande quantité d’exemples. Là, l’objectif c’est d’anonymiser les décisions. Au bout du compte, il faut que le modèle soit capable d’identifier tout seul, sur une décision, tous les éléments identifiants qu’on a imaginés. Pour lui permettre de faire ça, on doit lui fournir des exemples sur lesquels des personnes ont indiqué manuellement : là tu as-un nom, là tu as un prénom, là tu as tous les éléments à reconnaître ; ce sont plusieurs milliers de décisions sur lesquelles des personnes ont indiqué manuellement ces éléments. Ensuite, on va entraîner le modèle sur la base de ces bases de données d’entraînement, comme on les appelle, et il va donc apprendre progressivement, à partir de calculs probabilistes, à identifier pour des nouveaux éléments, qui ne lui auraient jamais été présentés, à quelle catégorie ils s’associeraient le mieux.

Xavier de La Porte : Là, évidemment, on a très envie de savoir qui fait ça, qui annote en série des milliers de décisions de justice pour dire au modèle « ça, c’est un truc que tu dois éliminer ».

Camille Girard-Chanudet : La spécificité de la Cour de cassation et ce qui fait que leur algorithme fonctionne particulièrement bien, c’est qu’elle a recruté, en interne, une équipe d’annotatrices. Je parle d’elles au féminin, parce que ce sont en très grande majorité des femmes, des agents administratifs de catégorie C, qui annotent quotidiennement des décisions de justice pour entraîner le modèle dans la phase initiale et, ensuite, pour corriger les résultats qui sont produits par le modèle, quand il tourne mais qu’il continue à produire des erreurs, ce qui est normal pour un modèle d’apprentissage automatique.

Xavier de La Porte : Voilà ! On y est ! Au cœur du programme, pour son apprentissage quotidien et pour vérifier qu’il le fasse bien, il y a donc des femmes, des fonctionnaires tout en bas de l’échelle administrative. C’est drôle, mais immédiatement ça m’évoque deux images, je dis « images » parce que ces évocations viennent notamment des séries et du cinéma et elles ont en commun de raconter la vie de femmes qui sont au cœur de processus techniques, mais dans des rôles qui sont soit complètement subalternes soit complètement invisibles. La première image qui m’est venue à l’esprit, ce sont Les demoiselles du téléphone, une série espagnole qui raconte la vie d’un groupe de standardistes pendant l’entre-deux-guerres.

Plusieurs voix off : En 1928, il y avait deux milliards d’êtres humains sur terre, chacun avec ses propres rêves, ses propres espoirs et surtout ses propres soucis. La vie n’était facile pour personne, mais elle l’était encore moins pour les femmes, nous n’étions pas libres, mais nous rêvions de l’être.
Ça va être un grand jour pour cette compagnie.
Aux nouvelles filles du standard : à partir d’aujourd’hui, nous sommes des femmes indépendantes.

Xavier de La Porte : La seconde image qui m’est apparue, c’est celle de ces femmes qu’on appelait « les calculatrices », parce qu’avant les ordinateurs et les machines à calculer, quand on avait besoin de faire des opérations mathématiques longues et compliquées, on utilisait des humains. Or, il se trouve qu’à partir du 19e siècle, dans plusieurs domaines scientifiques, ce sont souvent des femmes qui ont fait ce travail. En astronomie, par exemple, à l’Observatoire de Paris, les calculs étaient faits par des femmes qu’on appelait « les dames de la carte du ciel ». De manière un peu moins imagée l’astronome anglais Pickering avait ce qu’on appelait un harem qui calculait pour lui. Et puis, il y a l’exemple plus récent de ces afro-américaines, super fortes en maths, que la Nasa a embauchées après guerre pour faire des opérations calcul largement invisible mais complètement essentielles. Ça a donné un film, Les Figures de l’ombre.

Plusieurs voix off : Nous avons envoyé un homme dans l’espace.
Si on le ramène trop tôt, il sera carbonisé dans l’atmosphère.
J’ai besoin de calculs qui n’existent pas encore, trouvez-moi un mathématicien avant que les Russes plantent leur drapeau en plein milieu de la lune.
Il faut une calculatrice pour l’aérospatiale.
Catherine fera ça très bien, tout ce qui est chiffre, elle en fait son affaire.
Il n’y a jamais eu de gens de couleur ici, ne me faites pas rompre.
Le système de traitement de données IBM, nous devons apprendre à le programmer.
Bravo chéri. Lui c’est John Glen.
Et vous faites quoi à la Nasa ?
Nous calculons vos trajectoires.
Sans les calculs, on n’irait pas bien loin !
La Nasa n’engage pas de femmes en ingénierie.
Chaque fois que nous avons l’occasion d’avancer.
Je demande à assister à la réunion.
Il n’y a pas de protocole d’admission pour les femmes.
Il faut reculer la ligne d’arrivée.
Vous devriez déjà me remercier de vous éviter le chômage !
Je ne sais même pas si je pourrai suivre !
Catherine, tu es plus forte en maths que le plus fort d’entre eux.
Nous gravirons la montagne ensemble ou pas du tout.
Plus de 50 millions de personnes vont regarder le lancement.
???[24 min 29] IBM se trompe ?
Faisons vérifier les calculs par les filles.
Mes filles sont prêtes. On y arrivera.
Colonel Glen !
Je suis content que la Nasa n’ait pas tiré un trait sur l’intelligence.
Un chipset semble avoir subi une défaillance.
Il y a une vraie boule de feu. Il fait un peu chaud d’ailleurs !
C’est le combat d’une vie mes amis.

Xavier de La Porte : Il est fort possible que le travail des annotatrices de la Cour de cassation soit un peu moins romanesque, encore que ! Du coup, c’est ça que j’ai envie savoir, j’ai envie de connaître, le plus concrètement possible, leurs conditions de travail : où ces femmes travaillent-elles ? Comment travaillent ces femmes ?

Camille Girard-Chanudet : L’équipe d’annotation est dans le Palais de justice sur l’île de la Cité, dans les mêmes locaux dans lesquels travaillent les data scientists, les ingénieurs, les magistrats du pôle open data. Elles sont dans des bureaux partagés dans lesquels elles sont quatre/cinq. Elles travaillent sur ordinateur. Toute la journée, elles ont des décisions de justice qui s’affichent sur leur écran, sur une interface dédiée. Elles font défiler le texte des décisions de justice et elles regardent où il y a ce qu’elles appellent « des termes identifiants », donc elles vont surligner : là, c’est une adresse, je surligne et j’attribue le label adresse à ce que j’ai surligné. Elles font ça continuellement. Elles développent tout un tas de stratégies. Elles me disent, par exemple, qu’elles ne lisent pas vraiment la décision mot pour mot, leur œil a appris à reconnaître, comme ça, à faire ressortir les éléments identifiants des décisions, elles savent reconnaître spontanément, par exemple, des chiffres. Elles passent donc la décision de haut en bas, puis de bas en haut, pour vérifier qu’elles n’ont rien oublié. Elles travaillent, comme ça, sur plusieurs dizaines de décisions par jour.

Xavier de La Porte : La première réaction que j’ai en écoutant Camille, c’est de me dire « ce travail doit être répétitif, donc nécessiter une intention assez fatigante ».

Camille Girard-Chanudet : Oui. Le travail d’annotation en général est très fastidieux, donc, elles sont extrêmement vigilantes à maintenir une attention constante sur ce qu’elles font parce qu’il ne faut pas laisser passer quelque chose. Elles ont tout un tas de stratégies entre elles, elles font de temps en temps des pauses, elles regardent par la fenêtre toutes les 20 minutes, elles regardent parfois des podcasts, elles écoutent parfois de la musique, elles font des étirements aussi, parce que, finalement, on a l’impression que c’est un travail facile physiquement, mais ce n’est pas du tout le cas. Il faut rester assis, il faut cliquer très régulièrement, elles peuvent avoir des problèmes de canal carpien, par exemple. Elles ont des kinés qui leur recommandent des exercices, elles se les conseillent entre elles. En tout cas, elles mettent en place tout un tas de stratégies pour rester alertes dans leur travail, parce que c’est un travail qui est fondamental, qu’elles ont conscience de devoir exécuter d’une façon exemplaire.

Xavier de La Porte : Là, en écoutant Camille, je retrouve des choses qui ont été décrites, depuis quelque temps déjà, notamment dans les travaux que le sociologue Antonio Casilli a consacrés à ce qu’il appelle « les travailleurs du clic » – dont il notait déjà que ce sont souvent des travailleuses, au passage – qui sont payés à la tâche pour entraîner des IA. Il y a toutes sortes de jobs du clic qui servent à entraîner toutes sortes de programmes – reconnaissance du langage, des images, des visages, etc. Casilli montrait que ce travail était le plus souvent effectué à distance, sous la forme de séquences pas très longues et peu rémunérées, par des gens précaires, souvent dans des pays pauvres ou des régions en crise de pays riches. Une sorte de sous-prolétariat l’intelligence artificielle qu’on a d’ailleurs vu réapparaître quand des enquêtes journalistiques ont montré que OpenAI, l’entreprise qui a créé ChatGPT, faisait superviser son modèle par des travailleurs kényans sous-payés et complètement exploités.
Là, à la Cour de cassation, le modèle de travail est différent : ces dames sont des fonctionnaires, elles bossent dans un cadre législatif qui est bien défini, sur le même lieu que les ingénieurs et les magistrats, et puis, surtout, leur tâche est précise et elle est circonscrite, c’est l’anonymisation.
Camille disait que ces dames ressentaient la nécessité de rester constamment très attentives. Pourquoi ça ?

Camille Girard-Chanudet : C’est presque systématique que, dans une décision, il y ait un élément dont elles ne sachent pas quoi faire. On donne aux annotatrices ce qui s’appelle un guide d’annotation dans lequel sont indiquées toutes les catégories de choses qu’elles doivent reconnaître. Il peut y avoir plusieurs types de problèmes dans ce travail-là : soit on trouve un élément qui ne correspond à aucune catégorie, mais l’annotatrice dit « ça, c’est quelque chose qui est quand même vraiment identifiant », par exemple un nom de cheval de course. Avec le nom d’un cheval de course, c’est très facile de remonter à son propriétaire. Donc, si on laisse un nom de cheval de course, on saura très vite de qui traite la décision, donc, dans ce cas-là, l’annotatrice n’a aucune catégorie à laquelle associer ce nom-là, mais va devoir négocier pour faire entrer quand même cet élément-là dans une catégorie, comme si c’était un nom de personne, c’est un des cas. Sinon, elle peut avoir des cas de choses qui correspondraient à plusieurs catégories et elles ne savent pas dans quelle catégorie les faire rentrer, par exemple un nom d’entreprise, mais qui serait, en même temps, un nom de lieu. Par exemple « Boulangerie des Champs-Élysées », ça pose tout un tas de problèmes : est-ce qu’on le met dans « nom d’entreprise » ou dans « nom de lieu ». En fait, les annotatrices n’ont pas du tout un travail monotone et automatique, elles passent leur temps à faire tout un tas de micro-enquêtes pour savoir comment associer tous les éléments rigides du cadre catégoriel qui leur est donné avec la réalité qui est mouvante et toujours imprévisible, en fait ce qu’elles trouvent dans les décisions au fur et à mesure qu’elles les lisent.

Xavier de La Porte : Plusieurs choses très intéressantes là-dedans. D’abord, la difficulté qu’il y a à tout faire entrer dans des catégories préétablies, duquel le réel déborde toujours un peu. C’est très important le réel qui déborde. Ça fait deux fois que Camille parle de ce réel mouvant et imprévisible, il va vraiment falloir qu’on y revienne. Ensuite, il y a ces micro-enquêtes dont parle Camille. Je serais curieux de savoir comment ces dames les mènent.

Xavier de La Porte : Le code a changé – Xavier sur France Inter.

Camille Girard-Chanudet : Elles peuvent faire des recherches en utilisant Google, par exemple, pour voir ce que c’est, si elles ne savent pas trop ce qu’est un mot qu’elles rencontrent. J’ai le souvenir d’une annotatrice qui était tombée sur le mot « Assurances Paques », elle ne savait pas ce que c’était, elle m’a dit « peut-être que c’est le nom d’une compagnie d’assurances, donc il faudrait l’anonymiser ». Elle va sur Google et là elle me dit « ah non ! Là je vois que c’est police d’assurances constructions, c’est juste un type d’assurances, donc il ne faut pas l’annoter ». Elle se tourne vers sa collègue et lui dit « on est d’accord, il faut pas annoter Paques ? ». Sa collègue lui dit « non, il ne faut pas le faire ». Ça fait partie aussi du travail d’enquête, les échanges avec les collègues pour essayer aussi d’harmoniser les pratiques, parce que, comme on n’est jamais vraiment sûr de comment faire, les échanges entre collègues c’est extrêmement important, l’expérience personnelle aussi de choses qu’elles savent être identifiant parce qu’elles l’ont rencontré dans leur vie personnelle. Une annotatrice me disait qu’elle venait de faire renouveler sa carte vitale, donc, elle savait très bien qu’un numéro de sécurité sociale c’est super identifiant, donc elle va l’annoter spontanément, puis, en fin de compte, en référer à ses supérieurs si vraiment ça ne marche pas.

Xavier de La Porte : Voilà. Comme le réel n’entre pas toujours dans les catégories, il y a des doutes, il y a une marge de manœuvre, il y a de la place pour de la subjectivité. Et là, ça pose une question : est-ce que cette place laissée à la subjectivité va jusqu’à des interprétations qui diffèrent selon les annotatrices qui auraient des conceptions plus ou moins radicales de ce qui est identifiant, ou pas, dans une décision de justice ?

Camille Girard-Chanudet : Complètement. C’est quelque chose qui est assez intéressant et qui est un enjeu dans le cadre d’un algorithme d’apprentissage automatique. Quand on annote de façon différenciée, le modèle va avoir du mal à savoir à quel type d’annotation se référer. Certaines annotatrices me disaient, par exemple, qu’elles annotaient les noms de prison comme si c’était des domiciles, parce qu’elles se disaient que la personne, en fait, habite dans cet endroit, donc, finalement, c’est comme si c’était son domicile. Elles me disaient « peut-être que je sur-anonymise, mais c’est important, pour moi, de protéger la vie privée des personnes », ce qui n’est pas forcément le cas de toutes les annotatrices. On touche là un point qui est super important, qui est la façon des annotatrices de faire sens de leur travail, c’est-à-dire qu’elles accordent une importance énorme aux conséquences que ça va avoir sur les personnes derrière. Elles ont toujours en tête les effets que va avoir leur travail d’anonymisation.

32’ 58

Xavier de La Porte : C’est très beau