Les travailleurs invisibilisés de l’Intelligence Artificielle - Antonio Casilli
Titre : Les travailleurs invisibilisés de l’Intelligence Artificielle - Antonio Casilli
Intervenants : Antonio Casilli - Gérald Holubowicz
Lieu : En ligne - Podcast Imaginaires
Durée : 1 h 02 min 16
Date : 11 septembre 2023
Licence de la transcription : Verbatim
Illustration : À prévoir
NB : transcription réalisée par nos soins, fidèle aux propos des intervenant·e·s mais rendant le discours fluide.
Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas nécessairement celles de l'April, qui ne sera en aucun cas tenue responsable de leurs propos.
Transcription
Gérald Holubowicz : Bienvenue. Je suis Gérald Holubowicz et vous écoutez Imaginaires.
Un petit mot avant de commencer. Merci à vous, qui prenez le temps de cette écoute, à vous qui tentez l'expérience et donnez une chance à ce podcast.
Imaginaires part à la rencontre de chercheuses et de chercheurs, de journalistes et d'intellectuels qui observent l'effet de l'intelligence artificielle sur nos vies et son influence sur nos imaginaires.
Avant d'aller plus loin, je vous recommande de vous inscrire à Synth, la newsletter qui accompagne ce podcast, en vous rendant directement sur journalism.design, un site de ressources et de réflexions sur l'avenir de l'information et du journalisme.
Dans cet épisode, nous allons parler de travail et pas n'importe lequel, celui des petites mains du numérique, des petites mains qui aident chaque jour à collecter, trier, classer ou sélectionner les informations vitales pour les modèles d'intelligence artificielle qui nous accompagnent au quotidien. Arthur C. Clarke, l'auteur de 2001, l'Odyssée de l'espace, qui met en scène une des plus célèbres intelligences artificielles du cinéma américain, le fameux HAL 9000, écrivait que toute technologie suffisamment avancée ne peut être distinguée de la magie. Dans le cas des IA génératives, le tour de magie n'est pas là où on croit. Le truc des entreprises leaders en matière d'intelligence artificielle, c'est de faire disparaître de la conscience collective plusieurs millions de travailleurs.
Alors comprenez-moi bien. Quand je parle de disparition je ne fais pas allusion aux prévisions du cabinet McKinsey qui annonce que, d'ici à 2030, entre 400 et 800 millions d'emplois seraient amenés à disparaître ou très affectés par l'essor des IA génératives. Ces prévisions catastrophistes que la presse relaie depuis quelques mois et qui alimentent les peurs à propos des systèmes d'intelligence artificielle semblent être la conséquence inévitable de l'innovation. Or, si elles devaient se concrétiser, ces prophéties ne seraient le résultat que d'une chose : la volonté de certains entrepreneurs de profiter des gains de productivité offerts par les systèmes d'intelligence artificielle pour remplacer des emplois par des dispositifs automatisés plus rentables.
Il s'agit avant tout d'un choix économique, un choix de management, une décision opportune en somme, mais pas du tout une conséquence imposée par la nature même de la technologie.
L'idée que pour faire une bonne omelette numérique il faut casser des emplois a réussi à s'imposer dans l'imaginaire collectif, au point qu'aujourd'hui et l'invisibilité presque totalement la question des travailleurs précaires du numérique, ce qu'on connaît mieux sous le nom de travailleurs du clic.
Antonio Casilli est professeur de sociologie à Télécom Paris grande école composante de l'institut Polytechnique Paris. II a écrit un livre, en 2019, intitulé En attendant les robots. Enquête sur le travail du clic et, justement, son travail l'a récemment conduit, avec quelques-uns de ses étudiants, à Madagascar sur les traces des travailleurs de l'intelligence artificielle auxquels font appel certaines entreprises françaises.
Cette étude publiée sur The Conversation fait écho à l'enquête de Time Magazine, publiée un peu plus tôt, qui révèle qu’OpenAI, le créateur de ChatGPT, emploie des travailleurs kényans pour deux dollars par jour pour effectuer les tâches ingrates et difficiles dont personne ne veut en Occident. Ces travailleurs qu'on retrouve au Venezuela, au Brésil et parfois même en France, dont on peut bien se demander ce qui les distingue parfois de travailleurs plus classiques.
Antonio Casilli : Les premiers travailleurs du clic ce sont les usagers comme toi et moi. N'importe qui est un entraîneur de données, une personne qui participe, finalement, à une infrastructure technologique, qui a besoin de travail humain et de contribution humaine pour pouvoir fonctionner.
Les données ont besoin d'être annotées et améliorées, les algorithmes ont besoin d'être entraînés, donc, à la limite les premiers entraîneurs et les premiers qui mettent en doute ou remettent en question la structure métro-boulot-dodo ce sont les utilisateurs, comme toi et moi, qui se réveillent le matin, se servent de leur smartphone pour faire un tour sur les sites des médias sociaux, ou alors se servent de Siri ou Google tout de suite, qui, donc, sont déjà en train de produire de la data, de produire de la valeur, alors que, littéralement, ils viennent de sortir de la phase REM de leur sommeil. C'est une idée que d'autres ont déjà développée, moi-même dans le passé, l'idée qu’on ne vit plus dans le 3 X 8 mais dans le 8/8/8 finalement, dans une situation dans laquelle on est constamment en train de produire.
Après, la question, le débat et même, à la limite, je dirais la controverse qui m'a accompagnée tout au long de la deuxième partie des années 2010, dans ma carrière universitaire, était que, dans le contexte français, c'est vachement difficile de faire comprendre que la production, même bénévole, de données non encadrées par un contrat de travail constitue quand même du travail. Dans d'autres traditions politiques dans l’Europe du Sud et même aux États-Unis, c'est beaucoup plus simple de faire comprendre que la formalité du marché du travail est telle qu’on se passe souvent d'un contrat de travail et c'est exactement ce que ce qui se passe lorsque l’on va à la rencontre de ceux qui sont, par contre, reconnus comme les travailleurs du clic à proprement parler. Les travailleurs du clic à proprement parler ce sont des nouvelles professionnalités en tant que telles, il faut le reconnaître, mais qui, en même temps, sont constamment dévaluées et considérées comme des professionnalités à faible contribution en termes de valeur ajoutée, à faible spécialisation et à faibles compétences. Pourquoi ? Parce que ces travailleurs du clic sont des personnes qui sont recrutées, souvent de manière informelle, pour annoter des données, trier des données, retranscrire des extraits audio, regarder des vidéos pour laisser des tags ou pour identifier des objets dans ces vidéos et tout cela est nécessaire aujourd'hui pour entraîner les grands modèles linguistiques, mais aussi les grands modèles d’autre nature, par exemple des modèles qui produisent des images, des vidéos ou de la musique. On a besoin de travail humain pour entraîner ces modèles et pour faire davantage, parfois c'est même pour vérifier que l'intelligence artificielle fonctionne comme elle promet de fonctionner.
Ces personnes existent, sont encadrées d'un point de vue contractuel de manières très variées et souvent très floues. Certaines d'entre elles ont des contrats plus ou moins instables, ça peut être à la semaine, au mois ; d'autres ont des non-contrats, c'est-à-dire qu’elles sont plutôt recrutées comme des usagers lambda de plateformes, ça peut être une plateforme comme Amazon Mechanical Turk, ça peut être une plateforme un peu plus structurée comme une entreprise comme Apple qui est une énorme plateforme australienne. Ces personnes, grosso modo, n'ont qu'à s'inscrire sur ces plateformes, créer un profil et, après, ces plateformes agissent comme des marchés du travail, comme des marketplaces du travail.
Les travailleurs du clic peuvent donc chercher des tâches à réaliser, on les appelle des micro-tâches, qui durent très peu, normalement c'est quelques minutes, et qui sont très faiblement payées, normalement c'est quelques centimes, voire moins, selon les pays. Une première caractéristique, c’est le fait que c'est un retour du travail à la tâche, du travail à la pièce.
La deuxième question est que c'est un marché du travail à la pièce dans lequel la compétition est globale. Dans ce marché, les personnes qui travaillent depuis l’Europe ou le Nord du monde, le monde minoritaire comme on aime dire, sont en compétition avec le monde majoritaire, c'est-à-dire les pays dans lesquels se trouve la majorité de la population humaine et la majorité de la population mondiale se trouve dans des pays à moyens et faibles revenus. Dans ces pays, l'encadrement du travail est, disons, moins protecteur que chez nous, les salaires sont plus faibles et l'accès au marché du travail formel est beaucoup plus difficile pour tout un tas de catégories de personnes. Ces personnes sont déjà, le plus souvent, les plus marginalisées ou les plus fragilisées et se retrouvent à accepter de réaliser ce travail à la tâche qui est quand même un marché mondial qui implique plusieurs millions de personnes et, selon certaines estimations, dépasserait largement les 100 millions de personnes au niveau mondial.
Après, c'est clair que sur une population de huit milliards de personnes, ce n'est qu'une partie, voire une petite partie du marché mondial des effectifs du marché mondial du travail, mais c'est un phénomène qui semble être très répandu et que mon équipe de recherche et moi-même trouvons pratiquement dans plusieurs pays. On a déjà fait 19 enquêtes dans 19 pays différents et, dans tous ces pays, on re trouve des travailleurs du clic qui réalisent ce travail de préparation et de production de l'intelligence artificielle à force de produire à la main des données.
Gérald Holubowicz : Tu travailles sur cette population qui est, comme tu dis, relativement restreinte, mais qui recouvre quand même une réalité économique relativement importante. Au début on disait « nous faisons tous partie de ces travailleurs-là, d'une certaine manière ». Au niveau de la tech, au niveau des acteurs principaux de la tech, qu'est-ce que ça représente d'avoir cette masse de travailleurs pour ceux qui ont une activité, qui sont, on va dire, rémunérés ? Qu'est-ce que ça représente comme valeur ajoutée ? On a l'impression que la tech se développe sur des algorithmes, sur des choses un peu éthérées. Est-ce que tu peux nous décrire un peu ce paysage des grands acteurs tech qui utilisent cette manne de gens qui existent dehors.
Antonio Casilli : Je pourrais passer par un exemple qui est sous les yeux de tout le monde, qui est ChatGPT, parce que c'est effectivement le phénomène culturel des derniers mois. Dans ce cas-là, en effet, on a un double discours : un discours officiel et un discours de back-office.
Le discours officiel c’est celui des ingénieurs, celui qui parle aux investisseurs, qui parle au grand public, qui parle aux décideurs politiques et qui dit : « ChatGPT est basé sur une intelligence artificielle qui s'appelle GPT-3 et après 4, qui est basée sur des centaines de milliards de paramètres, qui est un truc énorme ». Des centaines de milliards de paramètres, lors de la dernière mise à jour de ChatGPT-4, même si OpenAI n'a pas communiqué exactement sur cela, les estimations disent qu’on a affaire à un modèle qui a un trillion de paramètres, le trillion est même une unité de grandeur qui n'existe pas en français, c'est un truc genre Oncle Picsou, c'est lui qui aurait pu parler d'un trillion de dollars, etc. C'est donc quelque chose de vraiment faramineux, mais ce n'est qu'une partie de l'histoire. Ce sont évidemment des modèles hypertrophiques, énormes, par contre, ces modèles hypertrophiques ont besoin d'être entraînés. Et le nom même GPT, donc l'acronyme, le « P » de GPT signifie Pre-trained, donc pré-entraîné. Pré-entraîné signifie que des personnes, des êtres humains, ont entraîné ces données et ces modèles d'intelligence artificielle pour, par exemple sélectionner les textes qui devaient être prises en compte, ou normaliser les textes, ou traduire les textes, ou les annoter pour dire que tel texte est une entrée de Wikipédia et parle de géologie, plutôt que ce texte est un commentaire de blog ou de Reddit et c’est un truc qui parle de sport.
Ces annotations sont faites à la main par des personnes qui sont micro-payées, sous-payés en général, à partir de masses de données énormes sur lesquelles, par contre, ChatGPT et OpenAI communiquent beaucoup moins. C'est donc grâce au fait que d'autres personnes ont étudié cela qu'on sait que ChatGPT est entraîné à partir de données qui ont été collectées sur Internet à partir de 2012. Donc avant la création même de OpenAI, ils avaient déjà commencé à collecter des térabytes de données via une plateforme qui s'appelle Common Crawl et, si l'on veut, ces données-là étaient des « données brutes » ; il faut mettre cela entre beaucoup de guillemets : les données brutes, en tant que telles, n'existent pas, les données sont toujours produites d'un certain point de vue, il n'y a pas de données à l'état pur, mais ces données ont besoin d'être retravaillées encore par des personnes qui sont recrutées pour faire ce travail de filtrage.
Comme ChatGPT et OpenAI ne communiquent pas sur l’existence même de ces personnes-là, ce sont d'abord des journalistes et, après, des chercheurs qui ont fait l'effort d'aller les chercher. Quelques mois après la mise en ligne de ChatGPT le magazine Times avait publié une enquête dans laquelle il dévoilait que plusieurs centaines de personnes se trouvaient au Kenya, à Nairobi, en train d’annoter des données de ChatGPT.
16’ 20§
Gérald Holubowicz : Donc toi,