Les biais de l'intelligence artificielle

De April MediaWiki
Aller à la navigationAller à la recherche


Titre : Les biais de l'intelligence artificielle

Intervenants : Stéphane, Quentin et Baptiste

Lieu : Emission " La voix est libre" de Picasoft, le chaton de l'UTC de Compiègne

Date : 3 novembre 2021

Durée : 57 min 58

Vidéo

Licence de la transcription : Verbatim

Illustration : Logo de Picasoft ? = https://podcast.picasoft.net/media/podcasts/la_voix_est_libre/cover_medium.webp

NB : transcription réalisée par nos soins, fidèle aux propos des intervenant·e·s mais rendant le discours fluide.
Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas nécessairement celles de l'April, qui ne sera en aucun cas tenue responsable de leurs propos.

Structure et sources sur l'interview (cf. vidéo)

Plan :

Des exemples d'algorithmes biaisés

C'est quoi un biais ?

Et pourquoi on ne résout pas le problème ?

Comment marche un algorithme d'apprentissage ?

Comment peut-on avoir un algorithme biaisé ?

  • Les biais sur les données d'entrée
  • Les biais dans la structure du programme
  • Les biais sur les objectifs

Quelles solutions ?

  • Problème de la populace des développeurs
  • Problème du fait que le monde est de droite
  • Problème de l'existence du comportement de référence
  • Problème du solutionnisme technologique

Transcription

Quentin Duchemin : Sale temps pour les philosophes et, en même temps, je ne peux pas m’empêcher de me dire qu’ils l’ont un peu cherché. Ça fait plus de deux millénaires qu’on se coltine des discussions interminables sur la morale et l’éthique et que personne ne semble vouloir se mettre d’accord. Utilitarisme, relativisme, impératif catégorique, ataraxie, autant de concepts indétricotables et obsolètes à l’ère du progrès technique. Véhicule autonome, drone, transhumanisme, reconnaissance faciale ; le futur est déjà là et pourtant, il demeure freiné par les ringards des comités d’éthique. Mais heureusement, il est temps de faire table rase et de remiser au placard ces rats de bibliothèque et les fans de moustache à la Nietzsche, car, Mesdames et Messieurs, laissez-moi vous présenter Delphi, l’intelligence artificielle qui produit des jugements moraux. Fini les engueulades ennuyeuses et les dilemmes à vous empêcher de dormir. Désormais, vous allez pouvoir savoir si ce que vous comptez faire est bien ou mal.

Alors c’est parti, on va faire un petit peu l’expérience, on va regarder ce que Delphi a à nous dire et vous aussi, si vous savez écrire en anglais, vous pouvez jouer et faire l’expérience en vous rendant sur le site delphi.allenai.org[1].

Alors, c’est parti en quelques exemples.

Le capitalisme de surveillance ? Eh bien, c’est mal, ça fait longtemps qu’on le dit, c’est confirmé. Les logiciels libres ? C’est bien. Jusque-là on est pas mal. Picasoft ? C’est OK, bon, très bien. Préparer une émission de radio la nuit avant son enregistrement ? C’est normal, effectivement. Utiliser les serveurs de Picasoft pour miner du bitcoin ? C’est OK. C’est bien, on cherchait d’autres sources de financement, donc c’est pas mal. Les gilets jaunes ? Ah, ça, c’est mal. Arrêter de payer mes salariés s’ils ne travaillent pas assez ? C’est OK. Insulter les gens, mais s’ils sont stupides, ça aussi c’est OK. Alors travailler sur les intelligences artificielles, même si elles nécessitent une énorme quantité de ressources non renouvelables ? C’est bien. Vendre des armes à des dictateurs, ça c’est mal. Par contre, vendre des armes honnêtement à des dictateurs s’ils ont demandé gentiment, eh bien c’est OK. Enfin, c’était OK, mais depuis quelques jours, c’est mal.

Bonjour à toutes et à tous. Vous écoutez La Voix Est Libre, l’émission remarquablement hebdomadaire de l’association Picasoft[2], une association qui s’est donnée pour mission de sensibiliser les citoyens et les citoyennes aux enjeux du numérique, qui héberge des services web respectueux de la vie privée, qui promeut une approche libre, éthique, inclusive et locale du numérique. Vous pouvez retrouver cette émission en podcast sur radio.picasoft.net[3].

Vous l’avez peut-être compris, aujourd’hui nous allons parler des biais des algorithmes d’intelligence artificielle et, pour ce faire, j’ai eu le plaisir d’être avec Baptiste et Stéphane. Bonjour à vous deux.

Baptiste : Bonjour, Quentin.

Stéphane Crozat : Bonjour et re-bienvenue parmi nous.

Quentin Duchemin : On vient de voir quelques exemples où Delphi, l’intelligence artificielle qui produit des jugements moraux, montre ses limites. Une petite précision : c’est bien un projet de recherche qui, en tout cas aujourd’hui, sur son site, est présenté comme une IA qui permet de deviner les jugements moraux d’un Américain moyen, et pas comme une IA ayant enfin résolu la morale. Effectivement, choisir entre bien et mal sur des questions sociales ou politiques complexes, ça a souvent peu de sens. On a vu aussi que c’était facile de manipuler Delphi en ajoutant des mots comme «~gentiment~» ou «~honnêtement~», pour rendre quelque chose de moins répréhensible. À sa sortie, Delphi produisait pas mal de jugements moraux qui étaient sexistes et racistes et depuis, ses créateurs ont tenté de les corriger. C’est ce type de jugements qui rentre dans ce qu’on appelle les biais des IA.

Baptiste, qu’est-ce que c’est, finalement, un biais ? Est-ce que tu as des exemples, aujourd’hui, d’algorithmes qui sont biaisés ?

Baptiste : On s’en rend pas forcément bien compte, mais les biais sont quelque chose qui est assez présent un peu partout dans les algorithmes. En fait, un biais, de manière assez vague, c’est quand un algorithme ne répond pas bien à la tâche qui lui est demandée, soit parce qu’il favorise des personnes qui sont en situation dominante, donc les hommes par rapport aux femmes, etc., et qui va choisir des résultats non pas en fonction de données objectives, mais il va favoriser les hommes par rapport aux femmes, des gens de gauche par rapport à ceux de droite ou inversement, des personnes blanches, cisgenres, hétérosexuelles, etc. Bref, vous connaissez la rengaine.

Par exemple, un exemple assez simple qui est assez vieux, puisqu’il a déjà une semaine. On s’est rendu compte que l’algorithme de Twitter favorisait les contenus qui sont de droite. On s’est rendu compte que, de manière générale, si un contenu pouvait plutôt être attribué à un parti politique traditionnel, conservateur, il avait plus de chance d’être relayé par l'algorithme, il avait plus de chance de parvenir à tous les autres d’utilisateurs. En fait, plus généralement, à chaque fois qu’on pourrait remplacer un algorithme par un être humain qui répond à des questions un peu compliquées auxquelles on n’a pas forcément la réponse, on peut raisonnablement s’imaginer que la réponse va être biaisée, parce que la réponse initiale n’existe pas et qu’il n’y a pas une réponse simple, facile.

Par exemple, si je pose une question comme : quelle vidéo pourrait me plaire ? Quelle vidéo devrais-je regarder après celle que je suis en train de regarder ? Le résultat n’est pas forcément évident. Quels résultats afficher quand je tape dans mon moteur de recherche « ministre, compte et Suisse » ? Quels résultats je veux avoir ? Quel journal faudrait-il citer ? Quels articles ? De quoi ça parle ? De manière générale, des algorithmes de ce genre-là il y en a partout : Facebook, Twitter ; des algorithmes de recrutement, des algorithmes de profilage, des algorithmes de suggestion, des algorithmes de solvabilité bancaire... Toutes ces décisions pourraient être prises par des humains, mais on les fait prendre par des ordinateurs. D'habitude les humains ont aussi des biais, ce n’est pas le problème. Le problème, c’est que là on a quelque chose d’automatique, d’insondable, qui va se tromper et on ne pourra même pas lui faire remarquer qu’il s’est trompé.

Quentin Duchemin : On voit bien tous les problèmes que ça peut poser d’avoir des algorithmes qui vont favoriser certaines catégories de la population. Alors pourquoi, tout simplement, est-ce qu’on ne résout pas le problème, Baptiste ?

Baptiste : Figurez-vous que la réponse est simple : ce n’est pas facile.

Quentin Duchemin : Et merde !

Baptiste : Oui, c’est dommage. Comment résout-on le problème qu’a Twitter ? On détermine automatiquement si un contenu est de gauche et, après, on essaie de rééquilibrer. Ça suppose de connaître tout un tas de données possibles, de les corriger, etc., c’est très compliqué. Je pense que pour vraiment comprendre pourquoi c’est compliqué, il faut peut-être déjà essayer de comprendre ce qu’est un algorithme.

Quentin Duchemin : Eh bien, Baptiste, qu’est ce que c’est, enfin, un algorithme ?

Baptiste : Merci, Quentin, pour cette excellente question, je ne m’y attendais pas.
Algorithme, c’est un mot qu’on entend partout et, en fait, souvent, les gens ne prennent pas trop la peine d’expliquer ce que c’est, comment ça fonctionne, etc. La raison est simple : il y a plein de types d’algorithmes et ils ne fonctionnent pas du tout de la même manière, donc on est assez vite perdu quand on en parle. Là, je vais juste parler des deux principaux algorithmes qui permettent de remplacer des humains dans des prises de décision : on va parler des systèmes experts et des systèmes qui sont basés sur de l’apprentissage.

Un système expert. C’est comme ça qu’on fait à peu près depuis les années 50/60. On prend un ensemble de règles et on raisonne par syllogisme. Je prends un ensemble de règles, par exemple que tous les libristes sont barbus et mal coiffés. Je prends un élément de mon ensemble de départ, Quentin, je sais qu’il est libriste, je peux donc en déduire facilement qu’il est barbu et mal coiffé.

Quentin Duchemin : Il est très fort !

Baptiste : Je me suis bien entraîné !
Pour que ça marche, on voit bien qu’il faut une bonne connaissance du monde. Déjà, il faut que la règle qu’on a mise dans la base de données soit bonne, il faut que « libriste » implique « barbu et mal coiffé », ça marche bien. Par contre, si je prends Stéphane, il est un peu moins barbu et un peu mieux coiffé, donc on voit bien qu’il y a eu un problème au niveau de ma base de données.

L’exemple classique, c’est un système expert qui vous dit de quoi vous êtes malade. Il commence par vous demander si vous toussez. Si vous répondez que vous toussez, eh bien il va se dire que ce n’est pas toutes les maladies où on ne tousse pas. Il va continuer comme ça, de la même manière, avec un ensemble de règles. Il va vous demander si vous avez de la fièvre ; si non, il va retirer tout ce qui contient de la fièvre, etc. Mais, pour que ça marche, il faut qu’un informaticien rentre à la main toutes les maladies existantes, leurs symptômes, dire lesquelles donnent de la fièvre, lesquelles donnent de la toux, etc.

Quentin Duchemin : C’est comme ça que ça marche sur Twitter ? On regarde un petit peu ce que les gens aiment et on leur propose du contenu par rapport à un ensemble de règles ?

Baptiste : Non, justement. Il n’y a pas un système expert qui va déterminer comment ça marche, etc. On va essayer d’utiliser un algorithme qui, sur base de bons exemples, va s’entraîner, donc on va utiliser une autre catégorie d’algorithmes qui s’appellent les algorithmes d’apprentissage. Pour expliquer comment marche un algorithme d’apprentissage, je vais essayer de schématiser, mais restez concentré, ça n’est quand même pas facile.

Je vais prendre un exemple. On ne va pas dire que c’est logique de faire ça avec des êtres humains, mais imaginons que vous ayez un ensemble de 200 personnes et vous voulez reconnaître, en cinq minutes, un livre. Vous avez des textes de 100 pages et, en sortie, vous voulez connaître le titre du livre que vous avez. Donc vous faites un protocole très simple : vous mettez vos personnes en trois rangées. Dans la première rangée, vous prenez des gens qui lisent les livres et qui comptent des mots : la première personne de la première rangée va compter le mot «~baguette~» ; la deuxième, le mot «~cheval~» , la troisième le mot «~arbre~», «~tapis~» etc. ; on compte un ensemble de mots. Dès qu’elle a compté dix fois le mot «~baguette~», la personne qui compte le mot «~baguette~» va afficher un drapeau rouge pour dire : j’ai compté dix fois le mot «~baguette~». Sinon, elle affiche un drapeau jaune pour dire : je n’ai pas compté dix fois le mot «~baguette~».

La personne suivante, dans la rangée suivante, va regarder un ensemble de personnes précédentes et va dire «~elle a dit plus de dix fois le mot «~magie~», plus de dix fois tel autre mot. Donc j’en déduis qu’il doit y avoir de la magie dans mon monde~». Je vais donner au suivant la tâche de trouver le thème médiéval en regardant, pareil, les précédents, et puis le suivant, je vais lui donner, etc. À la suite de tous ces gens, par rapport aux thématiques, je vais prendre une autre personne qui va compter le nombre de thématiques liées à Harry Potter, par exemple. Et puis, si elle en compte plus que cinq, elle va afficher son drapeau rouge et on sera content, on aura réussi à détecter que c’est Harry Potter.

Avec des humains, ça ne marche pas du tout. On comprend bien que c’est compliqué. On peut juste demander aux êtres humains de faire appel à leur mémoire, etc.. Mais, en informatique, chaque être humain est un neurone qui est un peu bête, qui fait une tâche très simple et, à la fin, on arrive plutôt bien à s’en servir.

On arrive plutôt bien à s’en servir si on a entraîné son algorithme. Si, de base, je prends des gens et que je leur dis~: «~Compte au pif et, quand tu penses que c’est le bon nombre, tu t’arrêtes, tu mets ton drapeau rouge, mais je ne sais pas ce que tu comptes, etc.~», on a un réseau de neurones qui n’est pas entraîné, qui ne sait rien faire spontanément et il est très peu probable que mon ensemble de gens se mettent à détecter Harry Potter.

Pour ça, je vais passer à une phase d’entraînement. Je vais prendre un ensemble de livres, on va dire 2000, et un ensemble de passages de livres, et puis je vais regarder le résultat de mon algorithme. S’il est bon, on va dire, pour faire simple, que je ne change rien et, s’il n’est pas bon, je vais apprendre à mon algorithme à ne plus se tromper. Comment vais-je faire pour lui apprendre à ne plus se tromper~? Mettons que ce soit la personne chargée de détecter Le Seigneur des anneaux qui soit sorti, je vais faire en sorte que, dans toute la chaîne des personnes qui ont amené au résultat du Seigneur des anneaux, c’est la personne qui a détecté qu’il y avait des chevaux, puis la personne qui a détecté qu’il y avait du médiéval, eh bien je vais augmenter le seuil de détection de la personne. Avant, elle mettait son drapeau quand elle avait 15 chevaux, pour dire «~j’ai compté le bon nombre de chevaux~»; maintenant, elle va le faire au bout de 20 fois, etc.
À chaque fois que l’algorithme se trompe, je vais modifier les paramètres. On va faire symétriquement l’inverse~: je vais baisser le seuil de tous ceux qui auraient dû donner comme résultat Harry Potter de manière à ce qu’on détecte plus facilement Harry Potter.

On comprend assez rapidement que tous ces paramètres que je vais mettre dans mon réseau de neurones sont assez importants et l’endroit où je place les personnes à qui je demande de regarder est important.
L’autre chose assez importante, qu’on comprend aussi, c’est que, pour que notre algorithme fonctionne bien, il faut itérer un certain nombre de fois, parce que je vais l’entraîner à détecter Harry Potter, je vais faire des modifications et ça aura tout changé. Comme ça aura tout changé, il faudra que je l'entraîne à nouveau, parce qu’il va se mettre à trop détecter Harry Potter et plus assez Le Seigneur des anneaux, etc. Il y a donc toute une tambouille d’informaticiens à faire, qui est un peu compliquée.

On voit ici qu'une fois qu’Harry Potter a été choisi comme titre, c’est hyper-dur de comprendre pourquoi la décision a été prise. J’ai pris un exemple simple, avec des catégories simples, des mots qu’on arrive à catégoriser. Dans les faits, les catégories utilisées sont des catégories complètement imbitables par des êtres humains, déjà c’est compliqué et, même dans notre exemple, ça n’est pas facile. La décision a été prise parce que A comptait 14 fois l’occurrence de baguette et que B comptait 18 fois l’occurrence de sorcellerie. Du coup, il s’est dit qu’il avait deux occurrences de drapeau rouge, donc il a compté une occurrence du thème Harry Potter et paf~!, ça veut dire que c’est Harry Potter. Ça nous fait une belle jambe de déterminer ça. On n’a rien compris en regardant le résultat de l’algorithme. Eh bien c’est exactement la même chose quand vous regardez un réseau de neurones : vous voyez des neurones qui se sont activés, mais vous ne savez pas pourquoi ni comment et, finalement, vous n’avez pas une décision qui est facilement compréhensible.

Voilà, j’espère que c’était simple et compréhensible.

Quentin Duchemin : Donc si je comprends bien, Baptiste, on a deux grands systèmes d’intelligence artificielle. Un premier, les systèmes experts où on va écrire à l’avance les règles qui permettent de savoir si quelqu’un est malade, ou si un livre parle de Harry Potter, etc. Et le second, qui est très utilisé aujourd’hui sur Internet pour les algorithmes de recommandation pour Twitter, etc., où on a une espèce de boîte noire assez opaque, on a besoin d’un gros jeu de données pour l’entraîner et que l’entraînement va venir changer les paramètres qui sont à l’intérieur de la boîte noire, mais ils n’ont pas vraiment de sens, on ne va pas nous-mêmes assigner les chemins qui vont permettre de deviner qu’il y a tel ou tel livre. Donc, finalement, on ne sait pas vraiment expliquer pourquoi il y a eu tel résultat, puisque ça a fait l’objet d’un apprentissage que nous n'avons pas maîtrisé nous-mêmes. C’est ça ?

Baptiste : Exactement. On sait juste entraîner des algorithmes à reconnaître de manière efficace, mais, une fois qu’ils reconnaissent, on n’est pas capable d’expliquer. Ce qui veut dire que, dans un cas, on a des algorithmes où on a besoin d’une grande quantité de données pour être capable de fournir des résultats qui fonctionnent et, dans l’autre cas, on a besoin d’un certain nombre de connaissances structurelles sur le monde, on doit savoir un ensemble de règles, etc. Donc, les connaissances qu’on doit avoir du monde ne sont pas les mêmes non plus.

Quentin Duchemin : OK. On commence à percevoir pourquoi le problème des biais, dans des algorithmes qu’on utilise aujourd’hui pour l’intelligence artificielle, est un problème compliqué. Stéphane ?

Stéphane Crozat : Je voulais juste ajouter. Tu dis que c’est effectivement un problème compliqué, mais en même temps, à vous écouter, quand les humains prennent des décisions, ça n’est pas compréhensible non plus. On n’est pas non plus capable de rentrer à l’intérieur de la boîte noire ou de la chaîne de causalité qui fait qu’une personne a pris une décision. Je ne sais pas trop où nous emmène cette remarque mais je voulais la faire. Juste pour qu’on voit qu’il y a effectivement une part de complexité dans ce qu'on va aborder aujourd’hui, qui est liée au travail technique que l’on mène avec les algorithmes en tant que tels - là vous avez exposé, par exemple, deux façons de réaliser des algorithmes ; c’est un sujet. Et puis on a entamé l’émission avec la question de la morale et, du coup, là on a des questions qui vont dépasser la couche technique algorithmique, qui sont des problèmes, à la base, qui ne sont pas réductibles à du raisonnement. C’est tout.

Quentin Duchemin : Complètement. C’est intéressant de voir que, finalement, on demande à des algorithmes de faire des trucs que les humains eux-mêmes ont du mal à faire, en se disant que les algos vont résoudre le problème pour nous !

Baptiste : En fait, le problème c’est la confiance qu’on a dans l’algorithme pour être neutre, issu de la science donc rationnel, capable de prendre des décisions parfaites, etc. Mais effectivement, le problème initial, selon moi, n’est pas soluble.

Quentin Duchemin : Je vous propose de faire une première petite pause musicale. POur cette première pause nous allons écouter le titre From the Ground Up de Wildlight, qui est sorti sur l’album The Tide Remixes ; c’est un remix de John Spider, sorti en 2016. C’est en Creative Commons BY ND ; vous pourrez retrouver le lien sur radio.picasoft.net. Bonne écoute.

Pause musicale : From the Ground Up de Wildlight.

23'50

Quentin Duchemin : De retour dans La Voix Est Libre. En première partie de l’émission, nous avons présenté succinctement ce qu’était un algorithme d’intelligence artificielle, et rappelé qu’ils sont utilisés partout, sur YouTube, sur Twitter, pour choisir le contenu présenté aux utilisateurs, mais aussi pour assister des décisions politiques, juridiques, etc. On a vu que, globalement, ce sont des boîtes noires, que c’est très difficile de comprendre la chaîne de calcul qui produit un résultat, pourquoi ce résultat a-t-il été produit ? Et finalement, intrinsèquement, ces algorithmes ne peuvent pas trouver la vérité de manière un peu magique ; ils ont nécessairement des biais. On a vu qu’il y a des biais sexistes, des biais racistes, etc.

La question qu’on peut se poser, c’est : pourquoi ces algorithmes ont-ils des biais ? Comment cela se fait-il ?

Baptiste : Eh bien, il y a plein de réponses. Il y a des biais de tous types, mais il y a principalement trois grandes catégories de biais :

  • les biais liés à la structure du programme, qui sont ajoutés par les développeurs, donc des biais qui viennent de leur contexte de fabrication ;
  • les biais liés aux données qu’on va donner en entrée au programme ;
  • la troisième catégorie de problèmes sont les objectifs qu’on va donner à notre algorithme. On ne se rend pas compte, en fait, que le problème initial impose déjà de créer des biais, de faire des arbitrages moraux, etc. Et on fait ressurgir une dimension morale avec, simplement, les objectifs de notre algorithme.

La première catégorie, les biais sur les données d’entrée. Notre dataset, comme on va l’appeler, c’est-à-dire mon ensemble de livres déjà bien annotés, avec le texte et la couverture, eh bien ces données d’entrée de notre algorithme doivent être bonnes, bien annotées, qu’il n’y ait pas un petit malin qui se soit amusé à inverser la couverture du Seigneur des Anneaux avec celle d’Harry Potter, pour reprendre mon exemple. Il faut avoir de la qualité. Un proverbe de data scientist, garbage in, garbage out, veut dire que si on a des saletés en entrée, on a des saletés en sortie.

Un exemple hyper-éloquent, il y a quelques années déjà, ça fait cinq ans, c’est Tay[4], mis en ligne par Google, et qui devait donner son avis sur l’actualité, qui devait twitter, qui utilisait des tweets qu’on lui envoyait et qu’on lui taguait. Le problème c’est qu’Internet c'est le royaume des trolls, donc plein de gens se sont amusés à lui envoyer n’importe quoi, à lui faire apprendre des bêtises. Ce qui fait que, 24 heures après sa mise en ligne, elle disait des choses assez fleuries, comme : « Je déteste par-dessus tout les féministes, elles devraient toutes mourir et brûler en enfer », ce qui n’est quand même pas très sympa, ou encore : « Hitler avait raison, je déteste les Juifs ». On commence quand même à entrevoir le problème.

C’est l’exemple facile. On voit facilement que l’ensemble de données est biaisée et on dit que c’est un problème d’étiquetage. C’est-à-dire qu’on a une donnée, par exemple « faire l’apologie d’Hitler », et un petit rigolo a mis « c’est une super idée de faire ça ». Il y a donc vraiment un problème d’étiquetage : des gens proposent des données qui sont considérées comme moralement bonnes alors, qu’en fait, ça ne va pas du tout.

Un problème un peu plus compliqué sur les données d’entrée. Admettons que je sois informaticien, je veux aider un docteur à détecter des tumeurs — c’est quand même chouette, un algo qui permet de détecter les tumeurs —, je veux détecter les tumeurs dans les poumons. Pour ça, je vais demander à l’administration toutes les images de gens qui ont fait une IRM en France ces dernières années et où le diagnostic est mis : c’était une tumeur ou ce n'était pas une tumeur. Je vais éventuellement corroborer tout ça par les interventions médicales qui ont été pratiquées après et qui ont effectivement vérifié que c’était une tumeur ; ou alors le fait qu’on a dit à la personne que ce n’était pas une tumeur, mais elle est revenue dans le système médical et après, on a détecté une tumeur, donc je vais essayer d’avoir un algorithme qui fonctionne bien. Je compile tout ça, je le donne à manger à mon algo, je refais l’exercice d’entraînement dont je vous parlais tout à l’heure. Chouette, il marche ! Donc là la question, Stéphane, où est-ce que je me suis planté ?

Stéphane Crozat : Eh bien je n’en sais rien du tout ! Si ton algo marche et que tu as détecté une tumeur, c’est que tout va bien. Du coup, la personne a une tumeur et tu vas la guérir.

Baptiste : C’est ce qu’on pourrait se dire. C’est quand même plutôt pas mal, ça marche à peu près aussi bien qu’un praticien, etc. Problème : si on regarde son efficacité un peu plus dans les détails, on se rend compte qu’il est beaucoup plus efficace chez les hommes que chez les femmes. Pourquoi ? C’est un problème d’accès aux soins. On a un problème initial qui est que les femmes ont tendance à être plus timides, on leur conseille moins de se rendre chez le médecin, elles se sentent souvent moins légitimes à y aller. Quand elles vont chez le médecin, elles sont moins prises au sérieux que les hommes, le praticien les envoie moins souvent faire des scanners, donc elles rentrent moins facilement dans le système de santé, avec éventuellement des problèmes plus graves. Tout ça va être des histoires de quelques pourcents, mais ça va finalement avoir un impact sur la forme de la base de données générales : on va avoir plus de données de tumeurs d’hommes, avec éventuellement des données plus légères, des tumeurs beaucoup plus petites, en état de moindre avancement. Donc fatalement, si on a donné à manger à l’algorithme la base de données brutes, il ne va pas être capable de détecter aussi bien les tumeurs de femme que les tumeurs d’homme.

Stéphane Crozat : Ce que je comprends, l’un des premiers biais en quelque sorte, c’est ce qu’on donne à manger à l’algorithme en entrée. Par exemple, pour reconnaître des livres, si on ne prend que des exemples de grands blockbusters et qu’on écarte les petits auteurs qui font des petites choses dans leur coin, moins connus, comme tu le fais depuis le début de l’émission, on ne détectera facilement, in fine, que des grands blockbusters, que des livres très connus. Mon exemple fonctionne ?

Baptiste : Exactement. Si j’oublie de mettre Traces de Stéphane Crozat [5], eh bien il sera incapable de détecter Traces de Stéphane Crozat.

Là, on pourrait se dire, pour résoudre le problème de biais entre les hommes et les femmes, que je pourrais rajouter dans mon algorithme une entrée qui dit : « Cette personne-là est une femme, donc change un peu tes curseurs, etc. ». Le problème, c’est qu’en faisant ça, on réduit la taille de la base de données, donc l'algorithme est moins performant. On peut éventuellement faire encore pire : la base de données contient des informations qui concernent les hommes, qui sont aussi utiles pour les femmes que les hommes — la forme de la tumeur, la couleur, etc. On voit bien que le simple ajout de l’information « c’est un homme, c’est une femme » ne résout pas le problème du biais de l’algorithme.

Je prends l’exemple des tumeurs, mais, en fait, c’est de ce genre de problème dont on a parlé avant. Est-ce que je devrais partager un algorithme ? C’est vraiment partout, dans les algorithmes d’aide au recrutement, on va avoir ce genre de biais. On voit que ces algorithmes prennent des déformations du monde et les amplifient, c’est-à-dire qu’on a un problème assez ténu — je ne sais pas exactement dans quelles proportions —, d’accès aux soins différent selon le genre, eh bien, il va être amplifié par les algorithmes qui, en plus, vont être moins efficaces, donc les femmes vont avoir moins envie d’y aller parce que le système va plus se tromper à leur égard, etc. Donc on amplifie des dynamiques qui sont déjà présentes dans le monde.

Quentin Duchemin : En fait, ce qui est intéressant d’observer, c’est que les algorithmes d’intelligence artificielle, aujourd’hui, ne traduisent pas ce qu’on voudrait que le monde soit, mais simplement ce que le monde est. De l’extérieur, on a l’impression que ces algos réfléchissent, qu’ils vont nous aider à trouver des solutions à des problèmes, tandis que, finalement, ils ne font que révéler, montrer la moyenne morale qui existe dans la population, avec les données qu’on a.

Baptiste : Exactement. Tout le problème, c’est quand on se met à considérer qu’ils sont objectifs, quand on se met à considérer que la décision qu’ils ont prise est impartiale, qu’elle répond à la rationalité, à un problème scientifique précis, etc.

Quentin Duchemin : On a vu le problème que posait le fait de se baser sur des données qui sont soit mal étiquetées, soit simplement des données qui représentent le monde réel et pas ce qu’on voudrait qu’il soit. Est-ce qu’il y a d’autres soucis avec les algorithmes d’IA, aujourd’hui ?

Baptiste : J’adore te raconter une blague extraordinairement drôle. Pendant mes années d’études en ??? [31 min 27], j’étais tranquillement en TD et je demande au prof de l'aide pour un bug. Ça fait deux heures que je suis en train de galérer. Il arrive, en trois secondes il trouve mon problème — c’était un point virgule qui manquait, je ne sais plus exactement — et il me dit : « De toute façon, le problème est toujours à chercher entre le clavier et la chaise ». C’est une blague pas drôle, tout le monde la connaît et, en plus, ce jour-là, j’avais vraiment envie de jeter mon café sur la gueule du prof, mais c’est un autre problème. Il dit quand même un truc qui est vrai, c’est qu’un algorithme est fait par des êtres humains ; forcément on peut faire entrer des biais, on peut faire rentrer ses projections personnelles sur le monde, etc. Donc, quand on demande à un être humain de donner un ensemble de règles, par exemple pour juger un CV, il va automatiquement insérer des règles issues de ses préjugés, il va oublier de prendre en compte tout un tas de cas particuliers, etc.

Un exemple est assez bête : je veux juger automatiquement un CV. Amazon faisait ça jusqu’en 2018, et puis ils se sont rendus compte que ce n’était vraiment pas une bonne idée. Je vais compter le nombre d’années d’activité d’une personne, en me disant que c’est un bon indicateur de son expérience, de son professionnalisme, etc., en regardant les missions auxquelles il ou elle a été confronté. Problème : les congés maternité ou les personnes qui vont mettre en pause leur carrière pour élever des enfants. J’ai donc créé un algorithme qui, encore une fois, est discriminant envers les femmes. J’avais des bonnes intentions ! Je voulais simplement faire un algorithme qui juge automatiquement des CV.

Un exemple un peu plus touchy. Votre objectif, c’est que les gens votent. Vous diffusez des incitations à aller voter, mais vous avez un budget assez limité, donc vous allez demander à votre algorithme de maximiser le nombre de votants et vous allez choisir des populations-cibles, des populations qui votent peu, qui ont un certain profil sociologique, une histoire, etc., donc vous allez influencer le résultat des élections. À ce niveau-là, c’est quand même un gros problème ! Cet exemple est un peu plus touchy parce qu’il cumule avec un autre biais qu’on va voir juste après, le biais des objectifs. C’est-à-dire que l’objectif que je vais donner va être en conflit avec l’objectif principal ou avec des problèmes moraux.

Quentin Duchemin : Qu’est-ce que c’est le biais des objectifs, Baptiste ?

Baptiste : Merci, Quentin, excellente question une fois de plus.
Les biais sur les objectifs sont un dernier problème majeur dans les biais des algorithmes. De manière très abstraite, c’est quand on n’a pas réalisé que la tâche qu’on souhaite résoudre ou que les critères qu’on a choisis vont nous mener à une discrimination.

Un exemple assez simple, toujours l’algorithme de recrutement d’Amazon jusqu’en 2019. Amazon, il me semble, a deux ou trois procédés pour optimiser, pour faire de la bonne grosse thune. Parmi ses algorithmes, il y en avait un qui pré-sélectionnait les CV, dont je vous ai parlé juste avant. Amazon, entre autres, cherche à réduire les coûts des procédures de recrutement, à faire en sorte que quand on fait un recrutement, il ne soit pas cher et, à la fin, on a quelqu’un qui reste. Si on cherche à optimiser cela, on va, encore une fois, faire quelque chose de sexiste. Pourquoi ? Parce que l’algorithme va regarder tous les critères qui augmentent le coût, il va se rendre compte qu’un des critères qui augmente le coût c’est le genre de la personne. De manière générale, le recrutement des femmes est un peu plus cher que celui des hommes, donc il se met à favoriser les hommes. Ce n’est pas un problème des données d’entrée, c’est vraiment un problème de l’objectif qu’on s’est fixé. Si je veux mécaniquement réduire la totalité des coûts, eh bien je recrute moins de femmes. Je vais leur attribuer des notes moins bonnes alors qu’elles ne sont pas moins compétentes, pas moins efficaces à la tâche, etc. ! J’avais simplement un objectif qui était de faire la thune sur mon recrutement et j’ai introduit un biais dans mon algorithme.

Ensuite, et c’est là qu’on va se rendre compte que la chaîne éditoriale de Picasoft est extrêmement développée, on va boucler avec la semaine dernière [6], on va comprendre. Je suis, par exemple, Facebook, j’ai un point commun avec Amazon assez facile à détecter, je cherche aussi à faire un maximum de thunes. J’ai des procédés qui sont très tournés autour de la production massive de thunes, donc je vais favoriser des contenus qui génèrent de l’émotion, de l’engagement, de la réaction, donc des publications qui vont être controversées ou extrémistes. Je ne veux pas personnellement véhiculer des idées extrémistes — d’ailleurs Mark Zuckerberg n’était pas très content que son réseau ait mené à l’élection de Donald Trump —, mais je diffuse des contenus extrémistes parce que c’est comme ça que mon algorithme fonctionne.

Quentin Duchemin : OK. Du coup, on a finalement trois trucs qui peuvent mener à avoir des algos, on dit souvent sexistes, racistes, mais tout un tas d’autres biais. Le problème des données d’entrée qui sont mal étiquetées et qui reflètent un monde lui-même sexiste et raciste ; le fait qu’il y a des humains derrière la conception de l’algorithme, donc, nécessairement, il va pouvoir se transmettre des biais ; puis, enfin, parfois les objectifs qu’on s’est donnés, comme sur Facebook — maximiser le temps passé sur la plateforme, etc. —, vont produire des résultats auxquels on ne s’attendait pas forcément.

Est-ce qu’on se fait une deuxième petite pause musicale ou est-ce que quelqu’un veut réagir ?

Stéphane Crozat : J’ai l’impression que je vais faire la même réaction que tout à l’heure, en fin de première partie, tu la couperas éventuellement au montage si c’est le cas. Prenons l’exemple des données d’entrée. Encore une fois, j’ai un peu l’impression que, finalement, on n’est pas très différents d’un contexte humain normal, sans même parler du biais qui fait que c’est produit par des humains qui introduisent, en quelque sorte, leurs propres limites. Même si on enlève cet aspect-là, dans les données d’entrée, quand je prends une décision, même si j’ai envie de prendre la décision la plus objective, de toutes façons je vais toujours avoir un biais contextuel, culturel, lié à mes données d’entrée, ce que je connais, ce que j’ai eu comme informations,etc. S’il y a des choses dont je n’ai jamais entendu parler, de fait, je ne peux pas les intégrer dans mon raisonnement.

Quand tu parles du biais des objectifs, c’est la même chose. Même si je cherche à prendre une décision la plus rationnelle, juste, en cohérence avec mes valeurs, à un moment mon objectif va toujours avoir une influence là-dessus. Donc je me demande — c’est une question ouverte — si le problème n’est pas tant le biais, la façon dont on parle de biais depuis tout à l’heure ; est-ce que c’est vraiment le biais ? En fait, on pourrait probablement considérer que toute décision, tout jugement moral est biaisé par un contexte, un objectif, des contraintes, etc. ; que ce soit produit par un humain ou par un algorithme, finalement, ça ne change rien. Mais, comme tu l’as dit à un moment Baptiste, peut-être que le vrai risque est moins dans le biais que dans le fait que, puisque c’est produit par un algorithme, puisque c'est produit par une machine, alors il y a un risque d’objectivisation de ce biais ou d’effacement de ce biais et je terminerai là-dessus. En quelque sorte, si Quentin me dit un truc, je sais que c’est un être humain, donc je me dis que c’est forcément un peu biaisé — comme tu le dis — j’ai un certain nombre d’éléments qui vont me permettre de savoir d’où il parle, donc je vais tenir compte un petit peu de ça dans la discussion qu’on va avoir. Alors qu’il y a le risque que si ça vient d’une machine on pense que c’est indiscutable et, du coup, peut-être qu’un des points essentiels est là. C’est peut-être moins de reprocher aux algorithmes d’être biaisés que de nous reprocher d’avoir oublié qu’en fait toute décision, tout jugement, l’est, en tant que tel.

Baptiste : Je suis complètement d’accord. On voit bien qu’il y a tout un discours politique autour du fait que les algorithmes sont objectifs. On en discutera un petit peu en dernière partie de l’émission.

On va faire donc une dernière pause musicale. On va écouter La Clameur par Les Coureurs de Rempart, sur l’album En Cendres sorti il y a quelques mois, en 2021, et c’est en licence Creative Commons BY NC. Bonne écoute.

Pause musicale : La Clameur par Les Coureurs de Rempart.

43:27

Quentin Duchemin : De retour dans La Voix est Libre pour cette dernière partie d’émission.

Stéphane: Creuzat : Ils sont pas mal tes sons, Quentin ! On a changé de source ou c’est juste que tu sais mieux chercher les choses que nous ?

Quentin Duchemin : Effectivement. Maintenant, on va piquer quasiment tous les sons sur le site Ziklibrenbib[7] C’est un site où les personnes qui bossent dans les médiathèques et les bibliothèques référencent des albums sous licence libre avec un avis et c’est hyper-sympa. Un super travail est fait là-dessus. Merci à Angie, de Framasoft[8] de nous avoir fait découvrir ce super site.

Pour cette dernière partie d’émission, on va se demander s’il est possible de trouver des solutions pour que les IA soient moins biaisées. Qu’est ce que ça voudrait dire que les IA soient moins biaisées ? Est-ce qu’il n’y a quand même pas une partie un peu d’arnaque de se dire qu’on va réussir à faire des IA qui ne sont pas biaisés ? Finalement, qu’est-ce qu’on veut pour les IA ? Baptiste, tu as 18 questions auxquelles je te laisse le soin de répondre.

Baptiste : En fait, ce qui est trop cool, c’est déjà qu’une fois qu’on aura réglé le problème des biais des IA, c’est bon, on aura réglé le problème de la morale. Le problème qu’on avait jusqu’à maintenant, dont tu parlais en intro, c’est que notre IA, qui faisait de la morale, c’est dommage, elle était un peu biaisée. Donc la vraie bonne nouvelle, c’est qu’une fois qu’on a résolu les problèmes de biais, c’est bon ! On a enfin résolu objectivement toutes les questions un peu chiantes, etc.

Stéphane: Creuzat : Il faudra d'ailleurs qu’on pense à envoyer un mail à Kant, quant ça sera fait !

Quentin Duchemin : Kant, si tu nous entends, fais gaffe à toi !

Stéphane: Creuzat : On l’embrasse.

Baptiste : Ce qu’on peut commencer à lister, c’est un ensemble de pansements pour faire en sorte que les IA soient un peu moins sexistes, un peu moins racistes, un peu moins discriminatoires, un peu moins transphobes, etc. Mais ça va être plutôt de l’ordre du pansement, on va quand même vite se rendre compte qu’il y a un problème de fond.

On l’a dit, un des problèmes ce sont les personnes qui développent les algorithmes et qui ont leur propre conception du monde, qui sont biaisées, etc. On reconnaît la subjectivité de ces personnes, on sait qu’elles sont subjectives, qu'elles vont mettre dans un algorithme leur subjectivité, puis, à partir de là, ça va être de l’objectivité, parce qu’on a une idée générale du fait qu’un algorithme est objectif. On voit que c’est un problème de représentativité : ce serait un peu comme dans un pays où on aurait une assemblée nationale avec des cadres supérieurs qui prennent des décisions qui n’intéressent que les cadres supérieurs. Le problème, c’est bien les gens qui font les algorithmes, les gens qui mettent leur représentation dans quelque chose qui va prendre des décisions.

Donc, a minima, ces personnes doivent être sensibilisées et formées à toutes ces questions de discrimination.

Quentin Duchemin : Est-ce que ça suffit pour faire un super algo ?

Baptiste : Pas forcément. Déjà ça ne résoudra pas forcément les problèmes de structure. Et ensuite, le problème des données d’entrée est un vrai problème. Le problème de l’algorithme de Twitter, qui relaie plus majoritairement des tweets de droite, c’est qu’on est dans un monde qui, généralement, est de droite. On est dans un monde où Trump a été élu, où Bolsonaro est au pouvoir ; je passe la liste générale de tous les éléments de droite du monde parce que c’est assez déprimant, mais les algorithmes amplifient des discours de nos sociétés qui sont bien présents. C’est plutôt à nos auditeurs de changer.

Quentin Duchemin : S’il y a des auditeurs de droite parmi nous, arrêtez d’être de droite, s’il vous plaît.

Baptiste : Donc là, on a proposé un ensemble de pansements, mais le problème fondamental, la question à se poser, c’est : qu’est-ce que serait un algorithme qui ne serait pas biaisé ? Quel est le comportement normal d’un algorithme qui sélectionne des contenus à votre place ? Si la réponse est un peu compliquée à trouver, l’algorithme est probablement très biaisé. Prenons l’exemple de l’algorithme de YouTube, on le questionne souvent, il y a toujours des gens qui disent que l’algorithme de YouTube fait n’importe quoi. Quel serait le bon comportement de l’algorithme de YouTube ? Que devrait-il faire pour être un bon algorithme ? Est-ce qu’il devrait donner des contenus plus challengeants, plus longs, plus courts, plus compliqués, plus simples, plus tout public ? Devrait-il s’adapter à chacun ? Posez-vous la question : qu’est-ce que, fondamentalement, l’algorithme de YouTube devrait faire ? Eh bien personnellement, moi, je n’ai pas la réponse. Je ne sais absolument pas ce qu’il devrait faire. Le problème, c’est qu’il se substitue à une fonction qui est un peu sociale. Moi, quand j’ai envie de regarder un contenu, je vais en parler à des potes, ils vont me dire « tiens, il y a tel truc, il est sympa, etc. » Et il y a un biais, il y a plein de biais, mais on en a conscience. Quand c’est l’algorithme qui prend la décision, eh bien on ne sait pas.

Pareil pour l’algo Twitter, pour y revenir. On s’est rendu compte que, mécaniquement, il favorise les tweets de droite. Quel serait le bon comportement ? Qu’est-ce qu’on attend de l’algorithme de Twitter ? Une solution souvent proposée dans des papiers qui traitent d’éthique des algorithmes, c’est d’auditer les algorithmes. Une fois qu’on a développé notre algorithme, on le soumet à une batterie de tests. Dans notre cas on vérifie qu’il relaie les tweets équitablement. On a des des données qui sont étiquetées de gauche, de droite, etc., et on va essayer d’équilibrer leur diffusion selon l’opinion politique, l’âge, le genre, l’ethnie de la personne qui l’émet, etc. Mais ça pose un autre problème : du coup, il faut collecter toutes ces données-là pour équilibrer, il faut savoir si la personne est de droite, de gauche, etc. Est-ce qu’on lui demande ? Est-ce qu’on a confiance en la manière dont on lui demande ? Est-ce qu’on collecte ces données-là à son insu ?, parce qu’on imagine que ce sera plus objectif ; ça pose de vrais problèmes.

Quentin Duchemin : Je ne sais pas à quel point c’est quelque chose qui pourrait contribuer à résoudre le problème, mais je sais qu’il y a pas mal de travaux autour de la morale de l’IA qui essayent justement d’entraîner les intelligences artificielles sur ce que les gens voudraient qu’elles produisent. On n’aura jamais une solution objective, mais, au moins, on serait dans quelque chose de plus démocratique, où, quelque part, les gens choisiraient collectivement ce qu’ils veulent que les IA produisent.

Baptiste : C’est toujours pareil. Le problème, dans ce cas-là, c'est qu'on a déporté plein de subjectivité dans nos objets techniques et on s’imagine que c’est bon, qu'on a créé quelque chose de merveilleux. En fait, c’est toujours le même problème : on a toujours l'idée d'une technologie idéale, merveilleuse, qui fait tout mieux que l’être humain, qui serait capable de le remplacer en mieux et en tout point. En réalité, c’est un truc qui ne marche pas, qui parfois se trompe, qu’il faut surveiller et contrôler et faire marcher. On se rend compte, encore une fois, de la merveille de la chaîne éditoriale de Picasoft, on en parlait dans le cadre des datacenters : les machines passent leur temps à ne pas marcher, passent leur temps à se tromper, donc essayer de dire : « C’est la partie technique de l’algorithme qui ne marche pas », non ! En fait, il y a un ensemble de subjectivités et on en a déporté une partie sur le système technique, mais le système technique est tout aussi subjectif que nous.

La bonne nouvelle, c’est que Facebook commence un peu à comprendre la leçon du fait que ses algorithmes, même selon ses objectifs, ont quand même un impact politique, sont quand même porteurs d’agentivité morale [9] depuis l’élection de Trump en 2016, contre sa volonté, contre la volonté de Mark Zuckerberg, on rappelle qu’il a essayé d’agir plutôt en faveur d’Hillary Clinton, en tout cas, on a tout un faisceau d’indices qui nous amènent à le penser. Maintenant ils sont rentrés dans l’ère de la censure, ils censurent un certain nombre de contenus externes. Bon !, vous me direz que ce n’est pas mieux d’entrer dans l’ère de la censure, mais, au moins, ils se sont rendu compte qu’ils avaient un impact et que leur algorithme était porteur d’une subjectivité, porteur de quelque chose qui ne serait pas fondamentalement l’objectivité, la science, la liberté, etc., des fondamentaux qu'ils ont pas mal.

Stéphane Crozat: Pour continuer là-dessus et revenir sur ce que tu disais, Quentin, sur la démocratisation, en quelque sorte, des algos, et, pour reprendre un tropisme picasoftien : si on veut de la démocratie, de la diversité, de la possibilité du débat, etc., l’enjeu n’est pas de réparer les algos de Facebook ou Twitter pour qu’ils fassent plus ceci ou plus cela. On peut le faire un petit peu par ailleurs, bien sûr, comme tu l’as évoqué, Baptiste, mais l’enjeu, c’est surtout d’avoir aussi de la diversité à ce niveau-là. Donc on en revient à la question qu’on pose un peu depuis le début : qui maîtrise ces algos ? Évidemment, si tout le monde utilise deux réseaux sociaux, les algos de ces réseaux sociaux ont, en quelque sorte, un pouvoir démesuré, il y a des enjeux démesurés associés à ces algos. Donc, on en revient un peu toujours à la maîtrise des territoires numériques. Si on a de la diversité, donc si on a plein de réseaux sociaux, si on a plein d’instances, par exemple comme sur le réseau décentralisé et fédéré comme Mastodon [10], si on a plusieurs instances, chacun peut avoir des algos différents, qui intègrent des règles différentes, que ce soit même plus ou moins volontaire ou involontaire, peu importe. La diversité fait que, d’une certaine façon, on aura la possibilité de débattre de tout ça.

Baptiste: Le problème est qu’il ne faut pas faire confiance à un système technique pour être totalement impartial. Il y avait un exemple que j’aimais beaucoup. Je suis pas mal la chaîne Thinkerview sur YouTube. Ils ont interviewé Guillaume Meurice, un humoriste qui aime bien troller un petit peu. Il dit qu’il ne croit pas qu’on peut être objectif, je pense que ce n’est pas possible — un avis que je partage par ailleurs. Et l’intervieweur est totalement scandalisé parce qu’il dit qu’il laisse tout le monde choisir les intervenants, donc, il y a une sorte d’objectivité qui émane de l’ensemble. Et en fait, non, il se trompe : il a juste la synthèse d’une subjectivité collective, mais il n’a pas créé de l’objectivité, il n’a pas la bonne réponse, on n’a pas le bon intervenant parfait, etc. On a juste synthétisé les avis de plein de gens.

Quentin Duchemin : Je ne suis pas super fan des algos d’IA, mais je me dis que dans certains cas, quand même... Comment dire ? Par exemple sur YouTube, il y a une masse de vidéos absolument considérable. On peut imaginer qu’à un moment donné, même sur PeerTube [11], il y ait un réseau d’instances fédérées où il y aurait vraiment une très forte masse de vidéos et qu’on voudrait quand même avoir quelque chose qui fait une sélection, parce qu’on ne peut pas toujours classer par date. On voit bien que sur les sites où les contenus sont juste classés par date on n’y arrive pas et choisir comment choisir techniquement ses critères, c'est un peu compliqué.

J'avais vu des travaux de recherche de la personne qui est derrière la chaîne YouTube, ??? [54:20], un mathématicien qui parle pas mal d’IA et qui a monté une plateforme accessible sur tournesol.app. L’idée c’est d’essayer de créer une intelligence artificielle qui soit robustement bénéfique, c’est-à-dire qui va être moins sujette aux biais des données d’entrée ; c’est un peu technique, je n’ai pas tout compris. Un des points, c’est d’essayer de se dire que l'objectif de base de l’algorithme de YouTube n'est pas bon, puisque c’est maximiser les vues et le temps passé sur la plateforme. Alors que sur tournesol.app tout le monde peut participer. En demandant aux gens de noter les vidéos en fonction de si ils ou elles pensent que c’est d’utilité publique, que le contenu est de qualité, etc., on peut au moins créer un jeu de données qui va aller vers un objectif, semblerait-il, plus bénéfique pour l’humanité — mais ça reste encore à définir — que tout ce qu’implique le fait de juste vouloir maximiser le nombre de vues. Je suis désolé, je ne suis pas clair, mais voilà.

Quentin Duchemin : On en revient au fait que, de manière générale, les données sont collectées avec un but ; on n’a pas des données qui se baladent dans la nature. On a créé un dispositif qui permet de collecter, de traiter automatiquement des données avec un objectif qui est de faire plein de thunes. Du coup, oui, forcément, c’est un biais sur la manière dont bossent les algorithmes. Si on s’abstrait de ça, on diminue effectivement la place de ce biais-là, mais on aura toujours une émanation d’une forme de subjectivité, ce qui est, par ailleurs, plus positif qu’avoir un énorme biais du but de l’algorithme.

Baptiste : Oui, complètement.

Stéphane Crozat: Il va falloir conclure si on ne veut pas avoir beaucoup de montage à faire.

Quentin Duchemin : Je propose qu’on s’arrête là. Est-ce que vous avez quelque chose à rajouter ?

baptiste : Juste pour terminer. Quand on utilise une plateforme comme Mastodon qui n’a pas d’algorithme, qui vous laisse choisir vos critères, très vite va se poser la question de comment choisir les critères, qui va choisir les critères, etc. Avec Mastodon, la grande différence c’est que c’est vous qui choisissez vos critères, ce n’est pas une multinationale qui, de temps en temps, a oublié de payer ses impôts en France, qui ordonnance à votre place avec ses biais à elle, pour vous. C’est vous, avec vos biais — contre lesquels vous avez le choix de lutter, ou non, ça vous regarde, c’est votre problème — qui allez ordonnancer les contenus.

Le problème dont on a vraiment parlé dans cette troisième partie de l’émission, c’est vraiment d’accepter que les IA n’ont pas la réponse aux questions morales, la solution idéale de l’ordonnancement des vidéos, etc., et que c’est bien un problème complexe.

Stéphane Crozat: Donc quitte à avoir des IA, choisir une sorte d’archipel d’IA décentralisées, fédérées ou un truc comme ça.

Baptiste : Exactement. Et auto-hébergées.

Quentin Duchmin: Merci beaucoup, Stéphane, Baptiste, d’avoir été présents pour l’émission. Pour rappel, vous pouvez retrouver cette émission en podcast sur radio.picasoft.net. On vous dit à la semaine prochaine, on parlera des GAFAM et des légumes. Bonne semaine. Ciao.