Les dames de l'algorithme

De April MediaWiki
Aller à la navigationAller à la recherche


Titre : Les dames de l'algorithme

Intervenant·es : Camille Girard-Chanudet - Xavier de La Porte

Lieu : France Inter Podcast Le code a changé

Date : 19 janvier 2024

Durée : 1 h 06 min

Podcast

Présentation du podcast

Licence de la transcription : Verbatim

Illustration : À prévoir

NB : Transcription réalisée par nos soins, fidèle aux propos des intervenant·es mais rendant le discours fluide.
Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas nécessairement celles de l'April, qui ne sera en aucun cas tenue responsable de leurs propos.

Description

L'histoire d'un groupe "d'annotatrices" qui entraînent un programme d'IA sur un programme d'anonymisation automatique des décisions de justice qui doivent maintenant être accessibles à tous.

Transcription

Xavier de La Porte : C’est l’histoire d’une jeune chercheuse qui se lance dans une thèse de sociologie sur l’intelligence artificielle dans la justice française. Par un mélange de hasard et de persévérance, elle tombe sur un terrain, comme on dit en jargon, assez inattendu : quelques bureaux du Palais de Justice, sur l’île de la Cité, à Paris, où on entraîne un algorithme auto apprenant.
Camille Girard-Chanudet, c’est le nom de la jeune chercheuse, s’y installe et elle observe. D’ailleurs, elle ne fait pas qu’observer, elle écoute, elle discute, elle se renseigne, elle fait son enquête et, progressivement, elle comprend des choses. Ce qu’elle comprend, Camille l’a raconté dans sa thèse qu’elle a brillamment soutenue en décembre 2023 et qui explique, de manière passionnante, ce que signifie vraiment le passage au numérique d’une institution aussi complexe et aussi sensible que la justice. Mais, ce qu’elle observe et comprend dans ses bureaux de l' île de la Cité, va au-delà du monde judiciaire. Pour moi, c’est même comme une allégorie de notre monde à l’heure de l’IA.
Là où on n’imagine que des data scientists et des ingénieurs face à des écrans, eh bien, il y a aussi d’autres gens : là où on pense qu’il n’y a que machines et procédures automatiques, eh bien il y a, en fait, des humains qui chopent des tendinites et qui doivent faire des choix compliqués ; là où on postule une concurrence entre ces humains et les algorithmes, on voit plutôt une forme de sympathie, de solidarité ; là où on pense que les catégories sont claires, qu’il y a des données et des résultats, on s’aperçoit que les données ne sont pas données, qu’il faut les construire et que, dans une construction, entre de la subjectivité, de la morale et même de la politique. Bref ! Ce que je vois dans le travail de Camille, c’est une allégorie qui raconte, en gros, que nous nous sommes sans doute embarqués dans un truc beaucoup plus subtil et beaucoup plus humain que ce qu’on dit, le plus souvent, de l’intelligence artificielle.
J’ai conscience que, dit comme ça, c’est un peu mystérieux, donc, on va repartir du début.
On est à la fin du quinquennat de François Hollande. La secrétaire d’État chargée du Numérique, Axelle Lemaire, réussit à faire passer une loi que seuls les passionnés des questions numériques ont encore en mémoire, mais qui, pourtant, n’a pas fini de produire des effets. C’est là que commence notre histoire, même un jour très précis.

Voix off : Le code a changé.

Camille Girard-Chanudet : Le 4 octobre 2016, il y a le vote de la loi pour une République numérique. Parmi toute une diversité d’articles, cette loi-là acte le principe de mise en open data des décisions de justice. Ça veut dire que toutes les décisions, les quatre millions de décisions qui sont produites par les tribunaux français chaque année, devront être mises en accès libre, sous format numérique, et gratuitement.

Xavier de La Porte : C’est intéressant de se souvenir comment Axelle Lemaire, elle-même, présentait cet aspect de la loi devant l’Assemblée nationale, juste avant sa discussion par les députés. On comprend mieux les enjeux qu’il y a derrière cette mise en open data

Axelle Lemaire, voix off : « On dit que le droit est en retard sur les usages, eh bien non, ici nous inventons pour construire le socle de l’économie de demain, de celui de la data, avec des nouvelles notions : l'open data par défaut, les données d’intérêt général, la mission de service public de la donnée, autant de dispositions qui doivent donner à la France une longueur d’avance dans ce qu’on appelle l’économie de la connaissance. Nous considérons que cette mise à disposition d’un certain nombre de données relève du bien commun. C’est une petite révolution en soi, une ambition politique tout autant qu’un impératif économique qui se traduit, par exemple, par la mise à disposition gratuite des données de la base Sirene de l’Insee, par l’ouverture des algorithmes administratifs en cas de décision individuelle, par l’ouverture des codes sources, aussi, des administrations.

Xavier de La Porte : Ce que dit Axelle Lemaître est assez général, mais j’aimerais savoir quels sont les enjeux pour les données de justice : est-ce que c’est la transparence ou est-ce qu’il y a aussi l’idée que ces données pourraient servir à autre chose ?

Camille Girard-Chanudet : Il y a, bien sûr, cet enjeu de transparence de la justice. Il y a aussi d’autres enjeux derrière qui sont des enjeux plus économiques : jusqu’à maintenant, les décisions ne sont pas en accès libre ; une sélection de décisions est communiquée, par les tribunaux, aux éditeurs juridiques qui sont, eux, ceux qui vont transmettre les décisions au grand public via leurs publications, via les manuels, les recueils qu’ils publient. L’idée c’est de dire qu’on va supprimer ces rentes, rendre les décisions accessibles au public, donc à des réutilisations soit citoyennes soit éventuellement par des startups qui vont se saisir de ce matériau-là et créer des outils par exemple de gestion statistique avec ce nouveau matériau numérique.

Xavier de La Porte : Qu’attend-on de ce que pourraient faire les startups à partir de ces décisions rendues publiques ?

Camille Girard-Chanudet : Je pense qu’il y a l’idée assez floue, à ce moment-là, en 2016, de dire que ces décisions contiennent énormément d’informations sur le contentieux qui est produit par les tribunaux français, finalement on n’en sait pas grand-chose, on sait des choses sur les grandes décisions qui sont rendues par les juridictions suprêmes, par certaines cours d’appel. Par contre, on ne sait pas trop ce qu’il y a dans le gros du contentieux qui est rendu par les tribunaux de première instance, donc les startups ou d’autres acteurs vont pouvoir faire de l’analyse statistique, essayer de dire quelles sont les grandes directions du contentieux, quelles sont les directions qui sont prises. Par exemple, est-ce que certaines cours jugent différemment ? Est-ce que certains magistrats jugent différemment ? Est-ce qu’on peut avoir une idée de la direction dans laquelle se dirige la jurisprudence et en tirer, par exemple, des enseignements pour l’avenir ? Mais je ne suis pas sûre que ce soit l’intention, à la base, de la loi pour une République numérique. Il y a surtout cette idée de ce grand mouvement open data qu’il y a, de façon générale, dans l’administration : il faut diffuser les documents qui sont détenus par les administrations et il faut aussi laisser libre les réutilisations qui n’ont pas été envisagées par le législateur, en fait voir ce qu’il en ressort d’une certaine façon.

Xavier de La Porte : OK. Transparence, donc, mais aussi réutilisation par des acteurs du numérique pour des usages non encore définis. Moi, tout de suite, concernant la justice, ça me fait penser à un truc. Je me souviens qu’à cette époque on parlait beaucoup, aux États-Unis, de programmes informatiques qui pourraient aider la justice à prendre certaines décisions grâce au moulinage des données. On avait même trouvé un nom un peu paradoxal, c’était « la justice prédictive ». Il y avait des expérimentations en cours dans certains États. Je demande donc à Camille si c’était à ce type d’usage qu’on pensait au moment de la loi ou si c’était un peu secondaire dans ses mobiles ?

Camille Girard-Chanudet : Je pense que c’est secondaire et que c’est quelque chose qui est arrivé après coup, quand les startups se sont saisies de cet outil-là, de cet objet décisions de justice, et que les startups, elles, ont très vite vu cette possibilité de faire de la justice prédictive, parce que les fondateurs de startups sont des personnes qui, pour beaucoup, ont fait leurs études aux États-Unis, qui ont été très au contact avec des outils type Compas, qui sont aussi très bercés de cet imaginaire technologique-là, un peu à la Minority Report, comment on va pouvoir prédire la justice du futur. À mon sens, c’est plutôt un discours qui a été manufacturé après, au niveau des startups, qu’au moment du vote de la loi pour une République numérique, à mon avis on n’était pas tant sur ces enjeux-là à ce moment-là.

Xavier de La Porte : D’autant qu’il y avait déjà quelques raisons de se méfier des ambitions de la justice prédictive. Compas, le logiciel que mentionne Camille, qui avait été expérimenté aux États-Unis pour aider à prévoir la récidive de crime, avait déjà été remis en question. En mai 2016, donc quelques mois avant le vote de la loi française, le site ProPublica, le site d’enquête, avait publié un gros papier montrant la manière dont les biais racistes se répercutaient dans ces modèles de prédiction. De toute façon, Camille le dit bien : « Cet enjeu est secondaire et lointain dans la loi, ce qu’il faut d’abord c’est rendre les décisions de justice accessibles ». Donc, octobre 2016, la justice française doit se mettre à l'open data. J’imagine que ça lance un grand mouvement, alors qu’est-ce qu’il se passe ?

Camille Girard-Chanudet : En fait, spontanément, il ne se passe pas grand-chose parce que ces articles, les articles 20 et 21 de la loi pour une République numérique, sortent sans le ministère de la Justice et le monde de la justice aient été trop impliqués dans les débats qui entourent cette loi-là. Ils se retrouvent, d’un coup, avec ces dispositions qu’il faut mettre en œuvre sans avoir trop de connaissances techniques en la matière, parce que l'open data ne se fait pas sur un claquement de doigts. Aujourd’hui, il y a quatre millions de décisions de justice par an, conservées dans des classeurs, souvent en format papier, dans les services de greffe des tribunaux. La justice est publique, c’est un principe, mais si tout un chacun veut une décision de justice, il faut contacter le tribunal de Bobigny, par exemple, le service de greffe et dire « je voudrais la décision en date du 20 janvier » et on obtient, au format papier, une copie d’une décision donnée.
L'open data est un changement radical d’échelle par rapport aux modes de circulation traditionnels des décisions de justice. Il faut mettre en place tout un dispositif technique de numérisation des décisions, même de saisie des décisions à l’origine. Quand un magistrat va saisir sa décision, une fois qu’elle est rendue, il faut qu’elle soit dans un format standardisé, il faut que ce soit homogénéisé, il faut que ce soit envoyé, ensuite, sur des serveurs centralisés ; il va falloir construire toute l’infrastructure de diffusion des décisions, les plateformes, avec quel public on a en tête pour cet open data : est-ce que ça va être un public qualifié juridiquement, avec un moteur de recherche ? Est-ce que c’est plutôt pour ces startups, justement, avec une API ? Il faut donc imaginer toute cette infrastructure-là et ça a mis plusieurs années, puisque la mise en œuvre de l'open data est encore en action aujourd’hui, donc !

Xavier de La Porte : Donc, sept ans après le vote de la loi. C’est sûr que l’énumération faite par Camille est vertigineuse : standardisation, saisie, création de bases de données, format de mise à disposition, plateformes par lesquelles on y accède, etc. ; il faut former des gens, il faut leur expliquer de ne mettre sur les serveurs que les décisions de justice et pas leurs mails ; il faut automatiser les processus de transmission d’une juridiction à l’autre, etc. Bon ! C’est un chantier titanesque ! C’est intéressant parce qu’on n’imagine pas toujours les conséquences concrètes d’une loi. On pourrait se dire que mettre en open data les décisions de justice en 2016, c’est juste rendre accessible à tous un fichier centralisé où sont stockées ces décisions. Eh bien non ! D’ailleurs, dans ce chantier, j’aimerais savoir quels sont les principaux problèmes à résoudre et, pour Camille, le premier c’est la décision elle-même, sa circulation et son stockage.

Camille Girard-Chanudet : Les décisions sont des objets juridiques, qui ont une vie à l’intérieur du système de la justice, qui est très particulière. Une décision est rendue par une cour, elle va, éventuellement circuler vers d’autres cours si, par exemple, la personne fait appel. Elles vont être stockées dans des espaces particuliers, elles vont, éventuellement, être communiquées à des journalistes ou à des personnes intéressées ; ça, c’est le mode d’existence des décisions de justice. Pour les mettre en open data il faut les extraire, en quelque sorte, de tous ce mode d’existence-là et les insérer dans des nouveaux modes d’existence où elles vont être en contact avec d’autres acteurs, avec des acteurs de l’entrepreneuriat numérique, avec tout un tas d’autres gens et traduire les objets traditionnels en données numériques standardisées, à très grande échelle, c’est quelque chose qui demande énormément de travail ; ça demande du matériel, ça demande des espaces de stockage. Par exemple, à la Cour de cassation qui stocke les décisions dans le cadre de la mise en open data, ils avaient, originellement, une salle des serveurs qui était toute petite, qui se trouve sous le niveau de la Seine, dans le palais de justice de l’île de la Cité, une pièce de peut-être 12 mètres carrés ! Il y a donc plein de problèmes, parce que, régulièrement, quand il y a des crues du niveau de la Seine, il faut mettre à l’arrêt les serveurs pour protéger les données, ça ne peut donc pas être utilisé de façon pérenne. Il y a donc des enjeux de déplacement des salles de serveurs, de mutualisation avec d’autres serveurs du ministère de la Justice dans des endroits beaucoup plus sécurisés et mieux prévus pour cet afflux de données. Il faut donc faire tout cela, il faut construire ces nouvelles infrastructures de stockage pour des décisions numérisées, quatre millions par an fois X années, ça fait énormément de décisions à stocker.

Xavier de La Porte : Donc, pour Camille, le premier problème c’est le passage de la décision de justice d’un mode d’existence à un autre avec tout ce que nécessite ce passage. Un autre problème c’est : qui va se charger de faire ce travail d'open data ? Ça aurait pu être le ministère, ça aurait pu être chaque juridiction dans son coin, ça aurait pu être les acteurs traditionnels comme les éditeurs juridiques, ça aurait pu être les startups aussi, après tout les startups maîtrisent l’informatique ! Mais, finalement, on décide que ce sera la Cour de cassation, parce que, en tant que cour suprême elle est légitime et parce que, en plus, il semblerait qu’elle ait des compétences en matière de numérisation.
Donc, une fois qu’il est décidé que c’est la Cour de cassation qui est responsable de ce travail, une fois résolus les problèmes de serveur de l’île de la Cité qui peuvent être inondés à la moindre crue, une fois mises en place des procédures de saisie des données, de standardisation, etc., on pourrait croire que c’est bon, qu’on va pouvoir y aller, qu’on est prêt à mettre les décisions en accès libre, sauf que non ! Parce que se pose un autre problème !

Camille Girard-Chanudet : C’est comment protéger la vie privée des personnes qui sont citées dans les décisions, puisque les décisions sont des documents qui contiennent tout un tas d’informations, à caractère parfois très sensible sur les personnes qui sont dans les affaires, donc, on ne peut pas mettre en open data les décisions de justice sans occulter ces informations-là. Il a donc fallu trouver une solution technique pour mettre ça en œuvre. C’est donc à ce moment-là qu’émerge l’idée d’internaliser le processus d’anonymisation des décisions de justice, en ayant recours à un dispositif d’apprentissage automatique, parce que c’est impossible d’anonymiser à la main quatre millions de décisions par an, donc d’avoir une petite équipe de techniciens qui resterait dans les locaux de la Cour de cassation pendant dix mois pour construire une première version d’un logiciel d’anonymisation automatique des décisions.

Xavier de La Porte : Automatiser l’anonymisation. Dans le jargon, on parle plutôt de pseudonymisation, mais bon !, nous dirons anonymisation.
Automatiser l’anonymisation donc, parce que ni les magistrats qui prennent ces décisions, ni les services de greffe qui rédigent les décisions de justice en collaboration avec les magistrats, n’ont les moyens ou le temps de prendre en charge ce travail et on n’allait pas, non plus, engager des milliers de personnes pour le faire à la main, décision après décision. C’est donc là qu’est fait le choix d’avoir recours à l’apprentissage automatique, une des modalités de l’intelligence artificielle. Et on comprend tout à fait la logique de ce choix d’un programme d’apprentissage automatique. On est vers 2018, les progrès réalisés par ces programmes depuis le début des années 2010 sont hyper impressionnants, mais il y a quand même un truc qui m’intrigue : pourquoi avoir besoin de ces logiciels sophistiqués pour anonymiser ? Un logiciel classique ne pourrait-il pas le faire ? C’est si compliqué que ça d’anonymiser des décisions de justice ?

Camille Girard-Chanudet : Ça pourrait être très simple si on disait, par exemple, qu’on veut enlever juste les noms et les prénoms dans une décision. À ce moment-là, on pourrait dire qu’il faut enlever tout ce qu’il y a derrière le mot madame ou derrière le mot monsieur, puisque, à priori, ce sera un nom de famille qui suivra. C’est un algorithme qui s’appelle « par règle », c’est-à-dire qu’on dit si avant il y a le mot monsieur, alors occulter ce qui vient ensuite. C’est la solution qui a été adoptée à la base. On s’est rendu compte que ça marchait d’abord très mal parce que, en réalité, il y a tout un tas de choses imprévues dans les décisions de justice. En plus, si on veut protéger la vie privée des justiciables et des personnes qui sont citées dans les décisions, on ne peut pas se contenter d’enlever simplement leurs noms et leurs prénoms. Les décisions contiennent plein d’informations qui permettent de remonter à l’identité des personnes, par exemple dans quelle ville ça s’est passé, c’est une affaire qui s’est passée dans l’école d’une petite ville où on sait qu’il y a tant d’habitants, que l’école se trouve à côté de la boulangerie et que, finalement, il s’est passé quelque chose sous l’arbre du village. Ce sont des détails qui sont dans les décisions parce qu’ils permettent, souvent, de bien comprendre ce qui s’est passé dans le cas et ils ont une influence sur l’issue juridique de l’affaire. Donc, si on a tous ces éléments-là, on risque, en connaissant la personne ou si on veut la rechercher, de retomber très facilement sur son identité. On a donc décidé qu’il fallait occulter beaucoup plus d’informations, par exemple les adresses, les noms des entreprises, les noms des établissements, c’est-à-dire les écoles, les hôpitaux, les noms des prisons, les plaques d’immatriculation, les numéros de téléphone, en tout cas, il faut supprimer le plus possible d’éléments qui permettent de remonter à quelqu’un.

17’ 00

Xavier de La Porte : OK ! Anonymiser, c’est plus compliqué qu’il n’y paraît, je veux bien, mais je ne vois toujours pas pourquoi une IA le ferait mieux qu’un programme bien troussé.

Camille Girard-Chanudet : Un logiciel d’apprentissage automatique est capable de reconnaître des éléments dans un document textuel, même si la forme dans laquelle apparaissent ces éléments n’est pas toujours la même, c’est-à-dire que nom, prénom, par exemple, on a souvent une forme qui est toujours la même, monsieur machin ; par contre, d’autres éléments par exemple le nom d’une entreprise, le nom d’un lieu-dit, ça n’apparaît pas toujours de la même façon dans une décision, donc on ne peut pas juste l’automatiser avec des règles simples. Il faut fournir, à une machine, un très grand nombre d’exemples qui ont été annotés à la main, pour apprendre au logiciel à reconnaître des choses qui sont issues de données qui sont imprévues et issues d’un réel qui est mouvant, comme le réel sur lequel s’appliquent les décisions de justice.

Xavier de La Porte : Plusieurs choses m’intriguent dans ce que vient de dire Camille. Il y a d’abord « annotées à la main », qu’elle a glissé, l’air de rien, mais qui m’a sauté à l’oreille, il faudra qu’on y revienne. Il y a aussi le réel qu’elle évoque mouvant ; pareil, il faudra qu’on y revienne. Mais, avant ça, je me demande bien où les ingénieurs et les techniciens de la Cour de cassation sont allés chercher leur modèle d’apprentissage automatique : est-ce qu’ils l’ont codé eux-mêmes ou alors est-ce qu’ils s’en sont procuré un qui existait déjà ?

Camille Girard-Chanudet : Dans l’apprentissage automatique, dans la reconnaissance du langage en tout cas, les modèles qui sont utilisés, en tout cas par la Cour de cassation, sont des modèles qui sont mis en open access par des grandes entreprises. Par exemple, au moment de mon enquête, les modèles qui étaient utilisés étaient des modèles de Zalando et de Facebook. Ces grandes entreprises mettent, en tout cas au moins une partie de ce qu’elles produisent, en open access et c’est réutilisé par des petites équipes qui, ensuite, ont juste à insérer ces modèles dans leur cadre de travail et à en faire varier les paramètres pour trouver la solution la plus optimale. En tout cas, ils ne codent pas du tout de A à Z les programmes d’apprentissage automatique et je pense que c’est le cas de façon générale. Dans la plupart des fabriques d’intelligence artificielle, on n’écrit pas de A à Z les programmes algorithmiques.

Xavier de La Porte : C’est marrant ça ! Je savais que Facebook, comme Google et d’autres, avait des centres de recherche et qu’il mettait en accès libre des modèles d’IA. Pour Zalando, j’ignorais complètement ! Pour moi, Zalando c’est juste une énorme boîte allemande de e-commerce, ce n’est pas une entreprise tech. Je pense que ma vision du monde numérique est décidément ultra simpliste. Bref ! Je reviens à ce « annotées à la main » que Camille a prononcé tout à l’heure quand elle parlait du programme auto apprenant. Je serais curieux de savoir ce qu’elle entendait vraiment par là.

Camille Girard-Chanudet : Il faut nourrir un modèle d’apprentissage automatique d’une très grande quantité d’exemples. Là, l’objectif c’est d’anonymiser les décisions. Au bout du compte, il faut que le modèle soit capable d’identifier tout seul, sur une décision, tous les éléments identifiants qu’on a imaginés. Pour lui permettre de faire ça, on doit lui fournir des exemples sur lesquels des personnes ont indiqué manuellement : là tu as-un nom, là tu as un prénom, là tu as tous les éléments à reconnaître ; ce sont plusieurs milliers de décisions sur lesquelles des personnes ont indiqué manuellement ces éléments. Ensuite, on va entraîner le modèle sur la base de ces bases de données d’entraînement, comme on les appelle, et il va donc apprendre progressivement, à partir de calculs probabilistes, à identifier pour des nouveaux éléments, qui ne lui auraient jamais été présentés, à quelle catégorie ils s’associeraient le mieux.

Xavier de La Porte : Là, évidemment, on a très envie de savoir qui fait ça, qui annote en série des milliers de décisions de justice pour dire au modèle « ça, c’est un truc que tu dois éliminer ».

Camille Girard-Chanudet : La spécificité de la Cour de cassation et ce qui fait que leur algorithme fonctionne particulièrement bien, c’est qu’elle a recruté, en interne, une équipe d’annotatrices. Je parle d’elles au féminin, parce que ce sont en très grande majorité des femmes, des agents administratifs de catégorie C, qui annotent quotidiennement des décisions de justice pour entraîner le modèle dans la phase initiale et, ensuite, pour corriger les résultats qui sont produits par le modèle, quand il tourne mais qu’il continue à produire des erreurs, ce qui est normal pour un modèle d’apprentissage automatique.

Xavier de La Porte : Voilà ! On y est ! Au cœur du programme, pour son apprentissage quotidien et pour vérifier qu’il le fasse bien, il y a donc des femmes, des fonctionnaires tout en bas de l’échelle administrative. C’est drôle, mais immédiatement ça m’évoque deux images, je dis « images » parce que ces évocations viennent notamment des séries et du cinéma et elles ont en commun de raconter la vie de femmes qui sont au cœur de processus techniques, mais dans des rôles qui sont soit complètement subalternes soit complètement invisibles. La première image qui m’est venue à l’esprit, ce sont Les demoiselles du téléphone, une série espagnole qui raconte la vie d’un groupe de standardistes pendant l’entre-deux-guerres.

Plusieurs voix off : En 1928, il y avait deux milliards d’êtres humains sur terre, chacun avec ses propres rêves, ses propres espoirs et surtout ses propres soucis. La vie n’était facile pour personne, mais elle l’était encore moins pour les femmes, nous n’étions pas libres, mais nous rêvions de l’être.
Ça va être un grand jour pour cette compagnie.
Aux nouvelles filles du standard : à partir d’aujourd’hui, nous sommes des femmes indépendantes.

Xavier de La Porte : La seconde image qui m’est apparue, c’est celle de ces femmes qu’on appelait « les calculatrices », parce qu’avant les ordinateurs et les machines à calculer, quand on avait besoin de faire des opérations mathématiques longues et compliquées, on utilisait des humains. Or, il se trouve qu’à partir du 19e siècle, dans plusieurs domaines scientifiques, ce sont souvent des femmes qui ont fait ce travail. En astronomie, par exemple, à l’Observatoire de Paris, les calculs étaient faits par des femmes qu’on appelait « les dames de la carte du ciel ». De manière un peu moins imagée l’astronome anglais Pickering avait ce qu’on appelait un harem qui calculait pour lui. Et puis, il y a l’exemple plus récent de ces afro-américaines, super fortes en maths, que la Nasa a embauchées après guerre pour faire des opérations calcul largement invisible mais complètement essentielles. Ça a donné un film, Les Figures de l’ombre.

Plusieurs voix off : Nous avons envoyé un homme dans l’espace.
Si on le ramène trop tôt, il sera carbonisé dans l’atmosphère.
J’ai besoin de calculs qui n’existent pas encore, trouvez-moi un mathématicien avant que les Russes plantent leur drapeau en plein milieu de la lune.
Il faut une calculatrice pour l’aérospatiale.
Catherine fera ça très bien, tout ce qui est chiffre, elle en fait son affaire.
Il n’y a jamais eu de gens de couleur ici, ne me faites pas rompre.
Le système de traitement de données IBM, nous devons apprendre à le programmer.
Bravo chéri. Lui c’est John Glen.
Et vous faites quoi à la Nasa ?
Nous calculons vos trajectoires.
Sans les calculs, on n’irait pas bien loin !
La Nasa n’engage pas de femmes en ingénierie.
Chaque fois que nous avons l’occasion d’avancer.
Je demande à assister à la réunion.
Il n’y a pas de protocole d’admission pour les femmes.
Il faut reculer la ligne d’arrivée.
Vous devriez déjà me remercier de vous éviter le chômage !
Je ne sais même pas si je pourrai suivre !
Catherine, tu es plus forte en maths que le plus fort d’entre eux.
Nous gravirons la montagne ensemble ou pas du tout.
Plus de 50 millions de personnes vont regarder le lancement.
???[24 min 29] IBM se trompe ?
Faisons vérifier les calculs par les filles.
Mes filles sont prêtes. On y arrivera.
Colonel Glen !
Je suis content que la Nasa n’ait pas tiré un trait sur l’intelligence.
Un chipset semble avoir subi une défaillance.
Il y a une vraie boule de feu. Il fait un peu chaud d’ailleurs !
C’est le combat d’une vie mes amis.

Xavier de La Porte : Il est fort possible que le travail des annotatrices de la Cour de cassation soit un peu moins romanesque, encore que ! Du coup, c’est ça que j’ai envie savoir, j’ai envie de connaître, le plus concrètement possible, leurs conditions de travail : où ces femmes travaillent-elles ? Comment travaillent ces femmes ?

Camille Girard-Chanudet : L’équipe d’annotation est dans le Palais de justice sur l’île de la Cité, dans les mêmes locaux dans lesquels travaillent les data scientists, les ingénieurs, les magistrats du pôle open data. Elles sont dans des bureaux partagés dans lesquels elles sont quatre/cinq. Elles travaillent sur ordinateur. Toute la journée, elles ont des décisions de justice qui s’affichent sur leur écran, sur une interface dédiée. Elles font défiler le texte des décisions de justice et elles regardent où il y a ce qu’elles appellent « des termes identifiants », donc elles vont surligner : là, c’est une adresse, je surligne et j’attribue le label adresse à ce que j’ai surligné. Elles font ça continuellement. Elles développent tout un tas de stratégies. Elles me disent, par exemple, qu’elles ne lisent pas vraiment la décision mot pour mot, leur œil a appris à reconnaître, comme ça, à faire ressortir les éléments identifiants des décisions, elles savent reconnaître spontanément, par exemple, des chiffres. Elles passent donc la décision de haut en bas, puis de bas en haut, pour vérifier qu’elles n’ont rien oublié. Elles travaillent, comme ça, sur plusieurs dizaines de décisions par jour.

Xavier de La Porte : La première réaction que j’ai en écoutant Camille, c’est de me dire « ce travail doit être répétitif, donc nécessiter une intention assez fatigante ».

Camille Girard-Chanudet : Oui. Le travail d’annotation en général est très fastidieux, donc, elles sont extrêmement vigilantes à maintenir une attention constante sur ce qu’elles font parce qu’il ne faut pas laisser passer quelque chose. Elles ont tout un tas de stratégies entre elles, elles font de temps en temps des pauses, elles regardent par la fenêtre toutes les 20 minutes, elles regardent parfois des podcasts, elles écoutent parfois de la musique, elles font des étirements aussi, parce que, finalement, on a l’impression que c’est un travail facile physiquement, mais ce n’est pas du tout le cas. Il faut rester assis, il faut cliquer très régulièrement, elles peuvent avoir des problèmes de canal carpien, par exemple. Elles ont des kinés qui leur recommandent des exercices, elles se les conseillent entre elles. En tout cas, elles mettent en place tout un tas de stratégies pour rester alertes dans leur travail, parce que c’est un travail qui est fondamental, qu’elles ont conscience de devoir exécuter d’une façon exemplaire.

Xavier de La Porte : Là, en écoutant Camille, je retrouve des choses qui ont été décrites, depuis quelque temps déjà, notamment dans les travaux que le sociologue Antonio Casilli a consacrés à ce qu’il appelle « les travailleurs du clic » – dont il notait déjà que ce sont souvent des travailleuses, au passage – qui sont payés à la tâche pour entraîner des IA. Il y a toutes sortes de jobs du clic qui servent à entraîner toutes sortes de programmes – reconnaissance du langage, des images, des visages, etc. Casilli montrait que ce travail était le plus souvent effectué à distance, sous la forme de séquences pas très longues et peu rémunérées, par des gens précaires, souvent dans des pays pauvres ou des régions en crise de pays riches. Une sorte de sous-prolétariat l’intelligence artificielle qu’on a d’ailleurs vu réapparaître quand des enquêtes journalistiques ont montré que OpenAI, l’entreprise qui a créé ChatGPT, faisait superviser son modèle par des travailleurs kényans sous-payés et complètement exploités.
Là, à la Cour de cassation, le modèle de travail est différent : ces dames sont des fonctionnaires, elles bossent dans un cadre législatif qui est bien défini, sur le même lieu que les ingénieurs et les magistrats, et puis, surtout, leur tâche est précise et elle est circonscrite, c’est l’anonymisation.
Camille disait que ces dames ressentaient la nécessité de rester constamment très attentives. Pourquoi ça ?

Camille Girard-Chanudet : C’est presque systématique que, dans une décision, il y ait un élément dont elles ne sachent pas quoi faire. On donne aux annotatrices ce qui s’appelle un guide d’annotation dans lequel sont indiquées toutes les catégories de choses qu’elles doivent reconnaître. Il peut y avoir plusieurs types de problèmes dans ce travail-là : soit on trouve un élément qui ne correspond à aucune catégorie, mais l’annotatrice dit « ça, c’est quelque chose qui est quand même vraiment identifiant », par exemple un nom de cheval de course. Avec le nom d’un cheval de course, c’est très facile de remonter à son propriétaire. Donc, si on laisse un nom de cheval de course, on saura très vite de qui traite la décision, donc, dans ce cas-là, l’annotatrice n’a aucune catégorie à laquelle associer ce nom-là, mais va devoir négocier pour faire entrer quand même cet élément-là dans une catégorie, comme si c’était un nom de personne, c’est un des cas. Sinon, elle peut avoir des cas de choses qui correspondraient à plusieurs catégories et elles ne savent pas dans quelle catégorie les faire rentrer, par exemple un nom d’entreprise, mais qui serait, en même temps, un nom de lieu. Par exemple « Boulangerie des Champs-Élysées », ça pose tout un tas de problèmes : est-ce qu’on le met dans « nom d’entreprise » ou dans « nom de lieu ». En fait, les annotatrices n’ont pas du tout un travail monotone et automatique, elles passent leur temps à faire tout un tas de micro-enquêtes pour savoir comment associer tous les éléments rigides du cadre catégoriel qui leur est donné avec la réalité qui est mouvante et toujours imprévisible, en fait ce qu’elles trouvent dans les décisions au fur et à mesure qu’elles les lisent.

Xavier de La Porte : Plusieurs choses très intéressantes là-dedans. D’abord, la difficulté qu’il y a à tout faire entrer dans des catégories préétablies, duquel le réel déborde toujours un peu. C’est très important le réel qui déborde. Ça fait deux fois que Camille parle de ce réel mouvant et imprévisible, il va vraiment falloir qu’on y revienne. Ensuite, il y a ces micro-enquêtes dont parle Camille. Je serais curieux de savoir comment ces dames les mènent.

Xavier de La Porte : Le code a changé – Xavier sur France Inter.

Camille Girard-Chanudet : Elles peuvent faire des recherches en utilisant Google, par exemple, pour voir ce que c’est, si elles ne savent pas trop ce qu’est un mot qu’elles rencontrent. J’ai le souvenir d’une annotatrice qui était tombée sur le mot « Assurances Paques », elle ne savait pas ce que c’était, elle m’a dit « peut-être que c’est le nom d’une compagnie d’assurances, donc il faudrait l’anonymiser ». Elle va sur Google et là elle me dit « ah non ! Là je vois que c’est police d’assurances constructions, c’est juste un type d’assurances, donc il ne faut pas l’annoter ». Elle se tourne vers sa collègue et lui dit « on est d’accord, il faut pas annoter Paques ? ». Sa collègue lui dit « non, il ne faut pas le faire ». Ça fait partie aussi du travail d’enquête, les échanges avec les collègues pour essayer aussi d’harmoniser les pratiques, parce que, comme on n’est jamais vraiment sûr de comment faire, les échanges entre collègues c’est extrêmement important, l’expérience personnelle aussi de choses qu’elles savent être identifiant parce qu’elles l’ont rencontré dans leur vie personnelle. Une annotatrice me disait qu’elle venait de faire renouveler sa carte vitale, donc, elle savait très bien qu’un numéro de sécurité sociale c’est super identifiant, donc elle va l’annoter spontanément, puis, en fin de compte, en référer à ses supérieurs si vraiment ça ne marche pas.

Xavier de La Porte : Voilà. Comme le réel n’entre pas toujours dans les catégories, il y a des doutes, il y a une marge de manœuvre, il y a de la place pour de la subjectivité. Et là, ça pose une question : est-ce que cette place laissée à la subjectivité va jusqu’à des interprétations qui diffèrent selon les annotatrices qui auraient des conceptions plus ou moins radicales de ce qui est identifiant, ou pas, dans une décision de justice ?

Camille Girard-Chanudet : Complètement. C’est quelque chose qui est assez intéressant et qui est un enjeu dans le cadre d’un algorithme d’apprentissage automatique. Quand on annote de façon différenciée, le modèle va avoir du mal à savoir à quel type d’annotation se référer. Certaines annotatrices me disaient, par exemple, qu’elles annotaient les noms de prison comme si c’était des domiciles, parce qu’elles se disaient que la personne, en fait, habite dans cet endroit, donc, finalement, c’est comme si c’était son domicile. Elles me disaient « peut-être que je sur-anonymise, mais c’est important, pour moi, de protéger la vie privée des personnes », ce qui n’est pas forcément le cas de toutes les annotatrices. On touche là un point qui est super important, qui est la façon des annotatrices de faire sens de leur travail, c’est-à-dire qu’elles accordent une importance énorme aux conséquences que ça va avoir sur les personnes derrière. Elles ont toujours en tête les effets que va avoir leur travail d’anonymisation.

32’ 58

Xavier de La Porte : C’est très beau ce que ça raconte. Dans ce travail apparemment répétitif de labellisation se joue non seulement quelque chose de personnel, des conceptions différentes de l’anonymat en l’occurrence, quelque chose de très humain, de pas aussi automatique qu’on pense, mais aussi il y a la conscience qu’au final ce sont des humains qui sont concernés. Peut-être le fait que les annotatrices soient des femmes joue un rôle d’ailleurs. Peut-être que leur genre les porte à se mettre à la place des autres avec un peu plus de facilité, pas pour des raisons biologiques, mais parce que c’est encore comme ça que les femmes sont élevées. C’est une hypothèse qui n’est pas complètement à exclure, d’ailleurs Camille l’a fait dans son travail. Bref ! L’humain est partout. Mais, je me demande si les annotatrices ont cette conscience des conséquences de leur travail parce qu’elles savent comment fonctionne le programme qu’elles entraînent.

Camille Girard-Chanudet : Les annotatrices n’ont pas forcément conscience, sur le coup, que leur travail sert à entraîner un algorithme. Quand elles sont recrutées, par exemple sur la fiche de poste que j’ai pu consulter, ce n’est pas indiqué, donc elles découvrent petit à petit qu’il y a un modèle d’apprentissage automatique, que leur travail sert à entraîner un modèle. Elles s’en rendent compte aussi parce qu’elles corrigent, la plupart du temps, les choses qui sont faites par le modèle. C’est un point super intéressant parce que les machines d’apprentissage automatique ont besoin d’être surveillées, ont besoin d’être corrigées, donc les annotatrices, la plupart du temps, se retrouvent avec des décisions qui ont été pré-annotées par l’intelligence artificielle et qui contiennent plein d’erreurs, parce que les modèles font plein d’erreurs, soit ils annotent des mots qui ne sont pas du tout des mots identifiants, soit ils n’annotent pas des choses qu’il faudrait annoter, du coup elles se retrouvent à corriger, à annoter les erreurs, donc, elles se rendent bien compte qu’il y a un algorithme, quelque part, qui fait le même travail qu’elles mais différemment.

Xavier de La Porte : Ça me fait penser au moment où j’ai compris que les captchas qu’on me faisait remplir sur des sites pour être certains que je n’étais pas un robot servaient aussi à former des logiciels à la reconnaissance de l’écriture manuscrite. J’étais partagé entre trouver beau de participer à l’éducation de programmes, surtout que la reconnaissance d’écriture manuscrite ça peut servir à des choses qui sont assez nobles et, en même temps, je trouvais assez naze qu’on ne me l’explique pas vraiment. En fait, je ne comprends pas bien pourquoi ce n’est pas explicite, à part que c’est du travail gratuit, évidemment. Mais pourquoi ne pas écrire explicitement sur les fiches de poste des annotatrices qu’elles travaillent à l’entraînement d’un algorithme ? Je trouve ça assez étonnant.
Une autre chose m’intéresse dans ce que dit Camille. Manifestement, il y a la phase d’entraînement pendant laquelle les annotatrices travaillent sur des décisions qui sont vierges, qu’elles annotent donc entièrement, mais, une fois que les modèles tournent, elles corrigent les résultats produits en travaillant sur des décisions qui sont pré-annotées. J’aimerais savoir si c’est dans cette phase-là qu’elles prennent vraiment conscience de ce qu’elles font.

Camille Girard-Chanudet : C’est clairement à ce moment-là qu’elles comprennent ce qu’elles font, parce qu’elles voient les résultats qui sont produits par le modèle, donc, ça devient un peu comme un collègue désincarné qu’on ne verrait pas, mais, finalement, avec lequel on est très familier puisqu’on voit tout le temps tout ce qu’il fait. Finalement elles sont les seules. Les data scientists, eux, font bouger les paramètres des modèles, ils font varier un peu tous ces critères-là, mais ils n’ont pas une vision d’ensemble sur les résultats qui sont produits par leurs algorithmes contrairement aux annotatrices qui, elles, voient constamment le résultat du travail des modèles algorithmiques, du coup elles ont une relation presque intime avec les modèles ; elles me disent « aujourd’hui, il était fatigué, il a oublié tous les noms de famille » ou « là il a oublié d’annoter des trucs, je pense que c’était pour voir si l’annotatrice était fatiguée, il s’est dit je ne vais pas le faire et on verra ce qui se passe ». Du coup, elles ont un peu ce rapport personnifié à l’algorithme parce qu’elles interagissent avec lui en permanence, finalement.

Xavier de La Porte : Donc, ce sont les annotatrices qui ont le lien le plus immédiat à la machine. Non seulement elles la forment au quotidien, mais elles sont les seules à voir tout ce que produit la machine. C’est assez dingue quand on y pense et, d’ailleurs, ça explique la manière dont elles la personnifient qui, sinon, pourrait paraître un peu bizarre. Mais est-ce que cette relation intime au programme va jusqu’à, parfois, admirer ses capacités d’apprentissage ? Ou alors, au contraire, est-ce qu’elles sont agacées par les erreurs qu’il continue de faire ?

Camille Girard-Chanudet : Je dirais que ce n’est ni l’un ni l’autre, c’est plus comme un enfant à qui on apprendrait des choses et avec lequel on est bienveillant, d’une certaine façon, parce qu’il ne sait pas encore tout très bien faire, mais il saura de mieux en mieux. D’ailleurs, elles s’en rendent compte au fur et à mesure puisque l’algo est ré-entraîné : au début, il fallait tout le temps qu’elles corrigent certaines choses et là, maintenant, ça va mieux donc elles me le disent « maintenant, il est il est plus efficace sur ces choses-là » et elles ont une certaine satisfaction par rapport à ça parce que, finalement, les annotatrices se placent un peu en formatrices de l’algorithme donc elles ont aussi cette satisfaction de voir que l’algorithme fonctionne de mieux en mieux sur certaines choses.

Xavier de La Porte : C’est sans doute une autre supériorité de ces annotatrices de la Cour de cassation par rapport à beaucoup d’autres travailleurs et travailleuses du clic : elles peuvent constater les effets de leur travail et en tirer, éventuellement, une satisfaction, celle de voir le programme progresser. Ce n’est évidemment pas le cas pour tous les gens qui sont payés une misère pour identifier des images, sans savoir pour qu’ils travaillent, sans jamais voir le résultat de leur travail. Elles, elles participent, évidemment avec d’autres – les techniciens, les data scientists, etc. –, à une sorte d’éducation dont elles voient les conséquences.
À propos d’éducation, Camille utilise cette image de l’enfant qui apprend. Ça me rappelle un épisode où le philosophe des sciences Milad Doueihi était venu parler de la bêtise des machines en contrepoint à leur intelligence. Milad trouvait le terme d’intelligence inadéquat et il défendait la bêtise de ces programmes. À un moment, en guise de justification, il en est revenu au fondement, à la manière dont Alan Turing, le grand mathématicien, envisageait, à la fin des années 40, ce qu’il appelait une thinking machine.

Milad Doueihi, voix off : À mon avis, Turing était partagé entre deux modèles qui ont cohabité, qui existent toujours aujourd’hui : un qui est complètement formaliste où il s’agit de trouver des méthodes formelles, qui va utiliser les jeux, les échecs, tout ce qu’on connaît par cœur, si tu veux, du côté formaliste et, en même temps, il va dire peut-être le plus intéressant et, à la longue, le plus pertinent, c’est de comparer la machine pensante à l’enfant. Ce que Turing veut, c’est que l’informatique ait une enfance sans fin, c’est-à-dire qu’elle n’arriverait jamais à l’âge adulte.

Xavier de La Porte : Je sais que cette analogie IA = enfance est contestée. Elle me semble quand même assez bien fonctionner, surtout quand Turing ajoute que c’est une enfance sans fin, parce que ça dit bien que ces machines qui apprennent ne devront jamais cesser d’apprendre. Je pense que là, Turing avait vu un truc. Encore une fois, il faudra que je pose la question à Camille. En attendant, une chose m’intrigue. Camille dit que les annotatrices ont une conscience forte de l’importance de ce qu’elles font, du poids des décisions qu’elles prennent, et que cette conscience leur est venue progressivement, dans le temps. J’en déduis donc qu’on ne leur a jamais vraiment expliqué et ça m’étonne.

Camille Girard-Chanudet : Les plus anciennes ont eu l’occasion d’échanger avec les data scientists, elles ont donc une conscience plus grande du fonctionnement de l’algo, qui n’est pas forcément hyper positive. Je me souviens d’une année t’attriste qui me disait « on m’a raconté que l’algo allait imiter tout ce que je faisais, je pense pas que ce ne soit une très bonne idée parce que ça veut dire qu’il va travailler aussi mal que moi. Si l’algo se met à répéter à grande échelle toutes les erreurs que je fais, ça va être super problématique ». Ça met à la fois une tension supplémentaire sur leur travail, parce que, en effet, il faut être vigilant à ne pas faire d’erreurs, et, en même temps, un défi positif particulier puisque ce n’est pas seulement la décision qu’elles sont en train d’adopter maintenant qui est importante, mais ça aura des conséquences sur les centaines, les milliers de décisions qui vont être annotées par la suite par l’algorithme.

Xavier de La Porte : Là encore plusieurs choses m’intéressent dans ce que dit Camille. D’abord, c’est frappant que les annotatrices aient l’impression, assez juste, qu’elles sont imitées par la machine et que, d’ailleurs, ça crée chez elles une forme de stress, parce que ce stress n’a pas grand-chose à voir avec celui de l’utilisateur chez qui l’imitation peut donner l’impression qu’il ne servira plus à rien, que la machine fait mieux que lui des choses qu’il pensait, jusqu’ici, être le seul à savoir faire. Le stress des annotatrices provient d’un tout autre sentiment, celui que la machine pourrait reproduire leurs erreurs, c’est un stress presque inverse. Ensuite, ce stress provient de ce qu’il y a de vertigineux dans ce travail d’annotation, parce que le petit geste, la petite décision que prend chacune, va être généralisée, en tout cas intégrée dans un processus de généralisation, et elle va s’appliquer à des millions de décisions de justice qui concernent, de fait, encore plus de gens. Ça donne une énorme responsabilité, un peu la même, d’ailleurs, que celle des modérateurs qui doivent décider si un contenu doit être tagué ou pas et qui savent que la décision qu’ils prennent sur un contenu sera ensuite appliquée à des milliers, des centaines de milliers d’autres contenus. Enfin, je suis étonné parce que Camille a l’air de dire qu’il y a peu de contacts entre les annotatrices et les data scientists. Vraiment ils se parlent si peu ?

Camille Girard-Chanudet : Très rarement. La Cour de cassation a recruté, à un moment, une équipe pour concevoir une interface d’annotation spécifique qui permette de faciliter le travail des annotatrices, de mieux le connecter avec le travail des data scientists. À ce moment-là, un lien assez particulier s’est mis en place entre l’équipe de data science et les annotatrices, en particulier par l’intermédiaire du designer qui s’est occupé de construire l’interface. C’était assez intéressant parce que le designer était le seul à avoir un contact régulier avec les deux côtés de l’équation. Sinon les data scientists et les annotatrices sont à deux/trois bureaux d’écart mais échangent très peu, finalement.

Xavier de La Porte : C’est fou comme on retrouve à l’œuvre, dans cette nouvelle industrie de l’IA et de la donnée en général, des phénomènes de cloisonnement des métiers, de division des tâches qui n’ont pas grand-chose à voir avec ceux des autres industries. Celle qui est en contact régulier avec les data scientists, c’est seulement la cheffe d’équipe des annotatrices qui dépend du service de greffe. Du coup, que se passe-t-il du côté des data scientists ? Comment bossent-ils ?

Camille Girard-Chanudet : Eux travaillent avec les jeux de données qui sont déjà annotés. Parfois ils font un double check : quand les data scientists font des phases de ré-entraînement du modèle, ils s’improvisent, eux aussi, annotateurs et repassent sur les décisions pour vérifier qu’elles ont été correctement annotées. Quand ils ont des besoins ponctuels, s’ils se rendent compte que certaines choses ne sont pas du tout bien reconnues par le modèle, par exemple les plaques d’immatriculation ça ne marche pas, ils vont aussi vérifier ça et faire passer leur demande par l’intermédiaire de la cheffe d’équipe pour qu’on ré-annote quelques décisions qui contiennent des numéros de plaques d’immatriculation, mais le contact n’est jamais direct entre les deux et, à mon sens, annotatrices et data scientists ont une appréhension très différente de ce qu’est le modèle, comment il fonctionne, comment l’évaluer, par exemple.

Xavier de La Porte : Là, j’interromps Camille parce que l’évaluation est une question essentielle : comment évaluer que le modèle fait bien son travail ? Camille vient de parler d’appréciations différentes entre les annotatrices et les data scientists. J’aimerais qu’elle précise.

Camille Girard-Chanudet : Les data scientists estiment que les annotatrices ont bien fait leur travail et que, quand des erreurs sont produites, ce sont des erreurs du modèle, donc, il va falloir qu’ils adaptent les paramètres de leur modèle. À l’inverse, sur exactement la même erreur, la cheffe de l’équipe d’annotation va considérer que ce sont potentiellement les annotatrices qui ont mal travaillé alors que le modèle était pertinent. Si on n’a pas une vérification supérieure pour regarder si l’annotation était pertinente, on ne saura jamais distinguer entre annotatrices et modèles qui a fait l’erreur, puisque, finalement, annotatrices et modèles sont un peu les deux facettes d’une même pièce, ils font la même activité qui aboutit au même résultat et ça devient très difficile de distinguer, à l’intérieur du dispositif global, laquelle des deux parties a fait l’action.

Xavier de La Porte : C’est très étonnant et je trouve ça assez beau, d’ailleurs j’en fais la remarque à Camille : quand le modèle se plante, il est difficile de savoir si c’est l’humain ou la machine qui a failli. J’aimerais bien savoir comment Camille interprète ça.

Camille Girard-Chanudet : Finalement, c’est une sorte de solidarité technique entre la machine et les travailleurs qui sont derrière la machine. Ce n’est pas forcément nouveau parce que ce sont des choses qu’on observe aussi dans le travail à la chaîne, dans l’industrie, où on a ces espèces d’hybridation et de travail conjoint entre le travailleur, la machine, le travailleur qui a une connaissance très particulière de la machine. Ce que je trouve aussi assez beau dans le travail d’annotation, c’est de dire qu’on est sur des principes qui ont l’air d’être à la pointe du progrès, extrêmement novateurs, mais ce sont des dynamiques qu’on connaît aussi dans plein d’autres domaines, des négociations humain/machine, d’articulation, d’ajustement, qui, là, apparaissent super clairement dans le rapport des annotatrices à l’algorithme.

Xavier de La Porte : En effet, on reconnaît des processus de solidarité technique, comme dit Camille, qu’on a vus à l’œuvre avec d’autres machines dans l’histoire. OK ! Mais il me semble qu’il se passe quand même quelque chose de nouveau avec ces machines que sont les algorithmes auto apprenants par rapport à un robot industriel, par exemple, même très sophistiqué. Néanmoins, je n’arrive pas bien à mettre de mots sur cette différence. Alors, je demande à Camille de le faire pour moi.

Camille Girard-Chanudet : Pour moi, clairement, le travail de l’intelligence artificielle est un travail d’automatisation qu’on a vu, par exemple, dans l’industrie automobile où on automatise des processus depuis très longtemps. Ce qu’il y a de particulier dans l’intelligence artificielle, c’est qu’on automatise des processus intellectuels, des processus cognitifs, et les annotatrices, ici, sont des travailleuses très peu qualifiées, mais qui contribuent conceptuellement, fondamentalement, à l’automatisation de processus qui sont des processus intellectuels. Là-dessus, je pense que ça génère quelque chose d’assez intéressant en termes d’organisation du travail, qui est aussi de dire que ces travailleurs, qui sont souvent déconsidérés, vont en fait contribuer à façonner les résultats qui vont être produits par l’algorithme en bout de course.

Xavier de La Porte : Là, je comprends et c’est assez passionnant. Les travailleurs peu qualifiés de l’intelligence artificielle participent donc activement à une sorte d’élaboration qui n’est plus seulement matérielle, comme dans l’industrie, mais conceptuelle. De la même manière que les travailleurs kényans, qui corrigent ChatGPT, participent en faire ce qu’il est, c’est-à-dire un outil assez dialectique, relativement ouvert politiquement, qui prend soin d’être le moins raciste possible, le moins sexiste possible, eh bien les annotatrices de la Cour de cassation participent à l’élaboration du concept d’anonymat qui sera, au final, celui produit par l’IA, alors qu’elles sont des fonctionnaires catégorie C, je le rappelle, c’est-à-dire recrutés au niveau brevet, CAP ou BEP. Je ne dis du tout ça pour dire « c’est horrible, l’IA est éduquée par des nuls ». Je veux juste dire qu’en matière d’IA, ce sont les gens qui annotent qui, à coup de petites décisions, fabriquent de la norme, fabriquent du concept, je sais pas bien comment dire. Encore une fois, Camille reformule ma proposition un peu plus clairement.

48’ 15

Camille Girard-Chanudet : On donne des données