Le travail humain invisible de l'automatisation dans l'IA
Titre : Le travail humain invisible de l'automatisation dans l'IA
Intervenant·es : Paola Tubaro - Grégoire Barbey
Lieu : Podcast IA qu'à m'expliquer - Le Temps
Date : 16 décembre 2024
Durée : 28 min 11
Licence de la transcription : Verbatim
Illustration : À prévoir
NB : Transcription réalisée par nos soins, fidèle aux propos des intervenant·es mais rendant le discours fluide.
Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas nécessairement celles de l'April, qui ne sera en aucun cas tenue responsable de leurs propos.
Description
Les logiciels d'intelligence artificielles sont souvent présentés comme étant autonomes. Les machines seraient ainsi capables d'apprendre toutes seules, par exemple. Il s'agit pourtant d'une vision très idéalisée, ou simplificatrice, du fonctionnement de l'intelligence artificielle. Car derrière cette technologie, il y a de nombreux êtres humains qui s'avèrent indispensables au fonctionnement de nos machines.
Transcription
Grégoire Barbey : Mesdames et Messieurs, bonjour et bienvenue dans IA qu’à m’expliquer le podcast du Temps qui démystifie les intelligences artificielles.
Vous avez sûrement entendu dire que les machines sont désormais capables d’apprendre toute seule. En vérité, c’est beaucoup plus compliqué que ça. Prenons l’exemple de la vision par ordinateur, un domaine dans lequel les réseaux de neurones artificiels ont permis de grandes avancées ces dernières années. Pour pouvoir apprendre à reconnaître un objet, le programme doit s’entraîner sur un vaste corpus de données. Celles-ci sont annotées par des êtres humains. Les paramètres architecturaux des réseaux de neurones sont sélectionnés par des spécialistes. Bref, sans êtres humains, la machine n’est pour l’instant pas capable d’apprendre toute seule.
C’est pour aborder ce sujet que j’ai invité la chercheuse française Paola Tubaro pour ce nouvel épisode. Elle s’est intéressée de près au travail invisible de l’automatisation. Occasion de souligner à quel point le discours sur l’autonomie de l’intelligence artificielle relève encore de la fiction.
Du côté de l’actu, nous reviendrons sur des déclarations de Sam Altman, le patron d’OpenAI, concernant l’intelligence artificielle générale.
J’ai aussi posé trois questions à Philippe Stoll, délégué à la diplomatie technologique au sein du Comité International de la Croix-Rouge. L’organisation humanitaire vient de se doter d’une politique en matière d’intelligence artificielle.
Bienvenue pour ce dernier épisode de l’année 2024. Nous serons de retour le 13 janvier pour une deuxième saison, toujours dans le but de déchiffrer ensemble des enjeux derrière l’essor de l’intelligence artificielle.
Merci d’avoir été si nombreuses et nombreux à nous suivre tout au long de l’année.
Je suis Grégoire Barbey, journaliste au Temps, et vous écoutez le 16e épisode de IA qu’à m’expliquer.
Bonjour, Paola Tubaro.
Paola Tubaro : Bonjour.
Grégoire Barbey : Vous êtes directrice de recherche au Centre national de la recherche scientifique en France et vous êtes spécialisée dans la sociologie économique et la science des données. Vos travaux récents portent notamment sur le rôle du travail humain dans l’automatisation. De quoi s’agit-il exactement ?
Paola Tubaro : Les modèles actuels d’automatisation s’appuient surtout ceux des méthodes dites d’apprentissage automatique ou machine learning, qui, en fait, laissent des algorithmes découvrir des motifs récurrents dans de grandes quantités de données en général, et ces données servent d’exemple.
Ensuite, une fois qu’ils ont retrouvé ces ??? [2 min 10], ils les utilisent pour effectuer des prévisions sur des nouveaux cas. En fait, on dit que ces modèles sont entraînés plus que programmés, au sens strict du terme. Donc, comme ils ont besoin de données, quelqu’un doit préparer ces données, doit les générer, les enrichir, si besoin, même les corriger.
Je peux prendre l’exemple de GPT 3, un modèle de langage qui était la première version qui a été popularisée de l’agent conversationnel ChatGPT. Ce modèle a été entraîné en l’exposant à des masses de données textuelles, puisque c’est du texte. À la base, ces données étaient extraites d’Internet, donc potentiellement problématiques, puisque rien ne pouvait exclure, à priori, la présence de mots ou d’expressions violentes, racistes, sexistes, etc. Donc, l’enjeu était d’éviter que chaque ChatGPT sorte des réponses de ce type à des requêtes d’utilisateurs. C’est là qu’on a eu besoin d’opérateurs humains pour, justement, prendre des textes, étiqueter ceux qui étaient inappropriés pour une raison ou pour une autre et permettre, de cette manière-là, l’entraînement d’un modèle, donc capable de filtrer les contenus, de dire ce qui va et ce qui va pas, donc plus capable de limiter les risques.
Là, je n’ai donné que quelques exemples, mais je pense que c’est clair pour voir que ce sont des tâches de très bas niveau, qui sont répétitives, qui sont routinières, très peu payées par ailleurs, mais quand même indispensables.
En fait, ce domaine que j’étudie, n’est pas celui des grands spécialistes d’ingénierie ou d’informatique qui conçoivent ces modèles, mais c’est plutôt celui des ???, contributeurs et contributrices, peu visibles et peu payés, disons, derrière les rideaux.
Grégoire Barbey : Ce sont un peu les ouvriers de l’IA. Dans quelles conditions ces gens travaillent-ils ?
Paola Tubaro : Les conditions de travail sont assez problématiques en général. Pourquoi ? Ce sont des tâches de bas niveau et, pour cette raison, les grandes entreprises de technologie n’ont pas forcément intérêt à les garder à l’intérieur, elles vont plutôt les externaliser à des sous-traitants, des prestataires.
Par ailleurs, comme ce sont des tâches qui peuvent se faire à distance, comme étiqueter du texte, c’est l’exemple que j’ai pris tout à l’heure, ou des images ou d’autres choses selon le produit en question, c’est quelque chose qui peut se faire à distance. Pour cette raison, ça va non seulement être externalisé, mais aussi délocalisé. On trouve donc du travail de ce type qui est fait à l’extérieur des entreprises des technologies, soit par des gens à la maison qui font cela pour arrondir leurs fins de mois, soit par des petites entreprises, parfois informelles, souvent dans des pays moins riches, on va dire, et dans des conditions généralement précaires, parce qu’elles dépendent de la demande, qui est très variable, qui est très instable. Donc, en général, il s’agit de travail qui est précaire dans la plupart des cas et qui est très peu payé. Une tâche peut être payée quelques centimes, à la limite quelques euros, mais, en général, il s’agit de pas grand-chose, avec des taux horaires, là où ils ont pu être calculés, généralement bien inférieurs au salaire minimum des différents pays dans lesquels ces informations sont disponibles.
Grégoire Barbey : Quel est un peu le profil type de ces travailleurs invisibles ?
Paola Tubaro : Il y a plusieurs typologies. Dans des pays riches comme la France ou les États-Unis par ailleurs, où il s’agit surtout d’une activité qui est faite à la maison par l’intermédiation des plateformes numériques : on se connecte, on trouve une tâche, on l’exécute et on est payé à la pièce, ce sont principalement des gens qui ont, en général, un autre emploi mais qui, en général, est un emploi à temps partiel ou temporaire, un peu précaire, etc. Du coup, les tâches en ligne, les micro-tâches comme on les appelle, constituent une source de revenu complémentaire qui peut être bien utile. Par exemple, dans ce groupe-là, on trouve beaucoup de femmes, des femmes qui sont surtout des mères de jeunes enfants qui, en fait, arrivent à faire ces tâches dans des pauses pendant qu’elles s’occupent des enfants, qu’elles sont à la maison. Parfois, elles ont aussi un emploi à l’extérieur, mais qui n’est pas suffisant. De cette manière-là, elles arrivent un peu à arrondir leurs fins de mois.
Dans des pays moins riches, en Amérique latine, le Venezuela, par exemple, sur lesquels j’ai beaucoup travaillé ces dernières années, plus récemment l’Argentine, en Afrique Madagascar et d’autres, c’est plutôt une activité qui est attractive et économiquement. Pourquoi ? Parce qu’elle est payée en dollars. Donc, dans des pays où l’économie locale n’est pas forcément très développée, voire en forte crise, comme c’est le cas au Venezuela et en Argentine, réaliser ces tâches peut devenir la source principale de revenu d’un ménage. Du coup, ce ne sont pas du tout les mêmes gens qu’on trouve à faire ces activités. On y trouve plus souvent des hommes, jeunes, avec des formations en sciences, en informatique, en ingénierie, en fait des formations adaptées à comprendre le numérique et même à comprendre à quoi ça sert et quelle est la contribution de ces activités à l’intelligence artificielle.
On voit donc des populations différentes selon les contextes, mais, en fait, elles ont en commun des difficultés d’insertion dans des marchés du travail plus habituels, on va dire, que ce soit pour des raisons contextuelles, donc un pays en crise, ou pour des raisons de segmentation, d’inégalités sur le marché du travail dans les pays plus riches.
Grégoire Barbey : Il y a une chose qu’on fait, souvent, tous, quand on va parfois sur certains sites web : on doit trouver une image, par exemple, plusieurs fois une borne incendie, plusieurs fois une voiture, et ça, c’est aussi un travail qui contribue à améliorer les modèles de l’intelligence artificielle. N’est-on pas tous, quelque part aujourd’hui, pas dans les mêmes conditions bien sûr, mais un peu des travailleurs invisibles de ces grands modèles ?
Paola Tubaro : Oui, effectivement. D’ailleurs, l’exemple que vous venez de faire, des captchas ou de toutes les variantes qui auraient été développées depuis, ont une double fonction.
La première est de nous authentifier en tant qu’être humain, parce que, justement, c’est une tâche difficile, pour un outil automatisé, à résoudre tout seul et c’est pour cela que, en la faisant, on garantit « je suis un être humain », donc le site va me donner accès à la messagerie ou au service, quel qu’il soit.
La deuxième fonction, c’est de récupérer des données, d’avoir quelqu’un qui nous dise, dans une série de six images, où sont les voitures, où sont les vélos, peu importe. C’est une fonction qui, en fait, a été très clairement reconnue. D’ailleurs, c’est Google qui avait emprunté ??? [10 min 06] le principe à la base, qui a très ouvertement admis qu’il y avait cette double fonction, d’authentifier les utilisateurs, mais aussi de récupérer des données par du travail gratuit des usagers. Il y a même eu une histoire légale aux États-Unis lancée par quelqu’un qui disait qu’on doit être reconnus en tant que travailleurs de Google dans le sens où on contribue tous.
Après, il y a toute une gamme de niveaux d’activité sur cette même tâche. La solution des captchas, captchas et variantes, constitue aussi un sous-marché de la micro-tâche pour lequel il y a des plateformes spécialisées. Les plus connues ont leur siège en Russie mais opèrent au niveau international. Elles recrutent des personnes un peu partout dans le monde pour résoudre des captchas à longueur de journée pour des taux de rémunération qui sont, juste pour donner une idée, entre 50 centimes et 1,5 dollar pour 1000 captchas, ce qui est vraiment très faible, puisque certains captchas sont quand même compliqués. Parfois les images ne sont pas très claires, pas très nettes, parfois c’est assez complexe. Bien sûr, étant aussi peu payé, il y a très peu de pays où ça vaut le coup de s’y mettre, les Vénézuéliens en particulier, étaient connus pour être l’un des groupes assez rares qui trouvaient encore convenable pour faire ce type de tâche, à un taux aussi faible, en raison de problèmes monétaires et de l’inflation dans leur pays.
Grégoire Barbey : Il y a aussi toutes ces personnes qui sont amenées à étiqueter des données. Parfois, elles le font, par exemple, pour la modération sur les réseaux sociaux. Elles peuvent être exposées à des images qui sont violentes, à des propos qui peuvent être violents. On sait qu’il y a eu des histoires, notamment avec Meta, au niveau de la modération : ce sont des personnes qui peuvent finir traumatisées. Y a-t-il des garanties, y a-t-il des protections, des choses qui sont imposées aux entreprises aujourd’hui pour que ces personnes travaillent dans des conditions qui respectent quand même un minimum de critères ?
Paola Tubaro : Oui, effectivement, vous avez raison. Si la précarité, la faible rémunération sont assez généralisées, les personnes qui s’occupent en particulier de la modération de contenus sont, en plus, exposées à des risques assez fort en termes de santé mentale. Comme, dans la plupart des cas, elles ne dépendent pas directement de l’entreprise de technologie utilisatrice du résultat de leur travail – vous avez mentionné Meta, par exemple –, mais qu’elles dépendent des sous-traitants, cela rend plus difficile l’accès à des services, notamment à des consultations avec des professionnels en santé. Des concessions ont été faites, notamment chez Meta après un litige avec les modérateurs de contenu il y a quelques années. Aujourd’hui, c’est que c’est assez limité à des pays et des entreprises et pas généralisé partout et les personnes qui restent en particulier les plus exposées sont les sous-traitants délocalisés dans des pays étrangers, en particulier en Afrique et en Asie, qui sont effectivement plus exposées.
Grégoire Barbey : Il y a des plateformes comme celle d’Amazon, qui s’appelle Amazon Mechanical Turk, qui proposent d’engager des personnes à la pelle pour faire ce genre de tâche. Est-ce que ce sont des plateformes qui proposent des conditions de travail un peu plus décentes, avec des rémunérations un peu plus de décentes ou pas du tout ?
Paola Tubaro : Pas tellement. C’est là la réponse rapide ! C’est-à-dire qu’on retrouve dans ces plateformes à peu près les mêmes types de problèmes qu’on voit avec ce qu’on appelle l’ubérisation. C’est à peu près la même chose, sauf que ce sont des tâches exécutées à la demande, dans des lieux physiques précis, par exemple le transport ou la livraison. Les livreurs et les chauffeurs se sont mobilisés dans plusieurs pays et plusieurs villes et ils ont pu obtenir des améliorations. Ça a été beaucoup moins le cas dans le contexte du travail de la donnée pour l’intelligence artificielle parce que, comme c’est un travail qui se fait très largement à la maison, les gens se rencontrent pas, donc ont moins de chances de s’organiser effectivement. Le gros enjeu du travail des plateformes, c’est que c’est du travail indépendant, non seulement dans le sens légal du terme, dans le sens de dire c’est une personne qui n’est pas l’employé, le salarié de quelqu’un d’autre, mais un prestataire autonome. En fait, ces personnes sont indépendantes aussi dans le sens où elles travaillent seules et elles ont très peu de contacts, non seulement avec leurs pairs, mais même avec les clients finaux, parce que tout passe par la plateforme et cela constitue un obstacle assez formidable, même, tout simplement, pour faire remonter des problèmes. Les questions liées à l’organisation des travailleurs sont évidemment encore assez loin.
Il faut quand même dire que certaines plateformes ont commencé à se doter d’un code éthique, d’un code de conduite qui pourrait amener à des améliorations. On connaît très mal les résultats jusqu’ici, c’est-à-dire qu’on n’est pas encore en mesure d’évaluer l’efficacité réelle de ces instruments-là.
Grégoire Barbey : Paola Tubaro, le temps passe vite. Je vais vous poser encore deux questions.
Une de vos spécialités, c’est aussi l’éthique des données. Je me demandais dans quelle mesure le fait d’avoir ces travailleurs qui sont mal payés, qui sont peut-être amenés à faire un grand nombre de tâches très rapidement parce qu’ils sont mal payés, est-ce que ça n’a pas une conséquence aussi sur la qualité des données, sur la façon dont elles sont étiquetées ?
Paola Tubaro : Oui, effectivement, ça a été montré. Il y a eu une étude, il y a quelques années, très claire à ce sujet : le fait que les travailleurs soient maintenus à une forte distance par rapport aux donneurs d’ordre, sans possibilité de communiquer, empêche une relation de collaboration qui pourrait apporter des améliorations. Par exemple, si un travailleur ou une travailleuse note un défaut, une erreur dans les consignes ou une incomplétude, rarement il ou elle a la possibilité de faire remonter le problème, donc d’aider à la recherche d’une solution. Souvent, en fait, la découverte du problème arrive trop tard. En partie, la cause de cela ce sont ces mauvaises conditions. D’ailleurs, il est assez intéressant que certaines plateformes commencent à se poser le problème en ces termes, à comprendre que, peut-être, des améliorations pourraient apporter de meilleurs résultats. On n’en est pas encore là, mais on commence à voir quelques premiers signes qui vont dans le bon sens.
Grégoire Barbey : L’IA est partout dans tous les médias, on en parle tous les jours. Comment expliquez-vous que le sujet des travailleurs de la donnée soit finalement assez marginal ? On en parle, mais par rapport à l’éclat qu’a l’intelligence artificielle dans les médias, aujourd’hui, c’est vraiment très marginal. Comment expliquez-vous cela ?
Paola Tubaro : En fait, il n’est pas vraiment dans l’intérêt des entreprises d’intelligence artificielle ou, d’ailleurs, des centres de recherche qui font de l’intelligence artificielle, de dévoiler qu’il y a pas mal de travail manuel mal payé derrière que certaines solutions, supposément automatiques, sont faites à la main. C’est un élément qui est indispensable à la production d’intelligence artificielle, mais qui nuirait à la rhétorique, au discours d’omnipuissance, aux attentes qui sont en train d’être créées pour activer les investissements, pour faire avancer ce secteur. Cela crée un problème, parce que c’est aux dépens d’une partie des personnes qui contribuent à cette technologie et je trouve que c’est aussi un peu problématique par rapport au grand public et aux entreprises elles-mêmes, qui n’ont pas forcément les idées claires sur ce qui se passe vraiment.
Grégoire Barbey : Merci beaucoup, Paola Tubaro d’avoir participé à ce podcast. Je vous pose une dernière question. C’est la question rituelle ici : si des gens qui vous écoutent ont envie de vous suivre, sur quelle plateforme peuvent-ils vous retrouver ?
Paola Tubaro : Sur Linkedin, ou alors j’ai un blog qui s’appelle databigandsmall.com.
Grégoire Barbey : Super. Merci beaucoup.
Paola Tubaro : Merci à vous.
18’ 40
Grégoire Barbey : C’est maintenant l’heure