« Hugging Face : Open Source, la secret sauce éthique de l'IA - Giada Pistilli » : différence entre les versions

De April MediaWiki
Aller à la navigationAller à la recherche
Aucun résumé des modifications
 
(2 versions intermédiaires par le même utilisateur non affichées)
Ligne 81 : Ligne 81 :
<b>Cyrille Chaudoit : </b>C’est parfait. Alors, c’est parti pour notre grand entretien. Vous êtes bien dans <em>Trench Tech</em> et c’est maintenant que ça commence.
<b>Cyrille Chaudoit : </b>C’est parfait. Alors, c’est parti pour notre grand entretien. Vous êtes bien dans <em>Trench Tech</em> et c’est maintenant que ça commence.


<b<Voix off : </b><em>Trench Tech</em>, Esprits critiques pour Tech Éthique.
<b>Voix off : </b><em>Trench Tech</em>, Esprits critiques pour Tech Éthique.


==De l’IA en <em>open source</em> ?==
==De l’IA en <em>open source</em> ?==
Ligne 186 : Ligne 186 :
La question, finalement, est toujours un peu la même : pour qui développe-t-on ces systèmes d’IA et comment on le fait ? En fait, c’est là qu’on retombe sur la dernière catégorie qui est l’IA <em>for good</em> : est-ce qu’on le fait pour les objectifs de développement durable ? Est-ce qu’on le fait pour le bien commun ? Est-ce qu’on le fait avec éthique, et aussi en respectant les droits de l’homme et le droit international ?
La question, finalement, est toujours un peu la même : pour qui développe-t-on ces systèmes d’IA et comment on le fait ? En fait, c’est là qu’on retombe sur la dernière catégorie qui est l’IA <em>for good</em> : est-ce qu’on le fait pour les objectifs de développement durable ? Est-ce qu’on le fait pour le bien commun ? Est-ce qu’on le fait avec éthique, et aussi en respectant les droits de l’homme et le droit international ?


<b<Voix off : </b><em>Trench Tech</em>, Esprits critiques pour Tech Éthique.
<b>Voix off : </b><em>Trench Tech</em>, Esprits critiques pour Tech Éthique.


==Une morale sous contrainte 24’ 47==
==Une morale sous contrainte 24’ 47==
Ligne 299 : Ligne 299 :
<b>Louis de Diesbach : </b>Parce que ça montre, en tout cas dans l’esprit des gens, qu’il n’y aurait pas une éthique mondiale, une sorte d’idée platonicienne de la morale, que donc les concepteurs de la tech devront naturellement prendre en compte la culture et les origines de chacune et de chacun. Mais ça veut aussi dire que c’est par la discussion et l’échange qu’on pourra poser des normes éthiques, trouver un consensus et ça, c’est justement l’apanage des humains.
<b>Louis de Diesbach : </b>Parce que ça montre, en tout cas dans l’esprit des gens, qu’il n’y aurait pas une éthique mondiale, une sorte d’idée platonicienne de la morale, que donc les concepteurs de la tech devront naturellement prendre en compte la culture et les origines de chacune et de chacun. Mais ça veut aussi dire que c’est par la discussion et l’échange qu’on pourra poser des normes éthiques, trouver un consensus et ça, c’est justement l’apanage des humains.


<b<Voix off : </b><em>Trench Tech</em>, Esprits critiques pour Tech Éthique.
<b>Voix off : </b><em>Trench Tech</em>, Esprits critiques pour Tech Éthique.


==L’IA, notre nouvelle caverne 45’14==
==L’IA, notre nouvelle caverne 45’14==


<b>Cyrille Chaudoit : </b>Merci Louis pour cette belle chronique.<br/>
<b>Thibaut le Masne : </b>Merci Louis pour cette belle chronique.<br/>
Alors, l’IA en général, nous offre une vision du monde basée sur les données collectées. L’IA générative, en particulier, a, dans ses fonctions premières, de générer de la donnée plus que de donner une vérité. Nous pouvons également ajouter dans cet univers les fameuses données synthétiques, des données qui ne sont pas issues donc de cette réalité, ça c’est pour les concepts. Avec l’engouement autour de ChatGPT, nous avons une tendance qui devient presque systématique à nous tourner vers des IA génératives lorsqu’un problème nous fait face ; je ne dis pas ça pour toi, Cyrille, qui demandes à ChatGPT de faire tes introductions.
 
<b>Cyrille Chaudoit : </b>Mais l’ordure !
 
<b>Mick Levy : </b>C’est gratos ! Il ne l’a pas vu venir.
 
<b>Thibaut le Masne : </b>Ça, c’est pour nos pratiques. Giada, a-t-on raison de penser que lorsque nous utilisons des IA génératives comme Cyrille cela peut, au fur et à mesure, influencer notre vision du monde ?
 
<b>Mick Levy : </b>Question sérieuse malgré les rires qui vont autour parce que Cyrille ne se remet pas de l’attaque !
 
<b>Giada Pistilli : </b>Complètement. D’ailleurs, c’est bien justement ce que disait aussi à Louis, parce que c’est vrai qu’on a tendance à créer ce genre d’outil, ce genre de produit, et de les appliquer, de les utiliser de manière universelle, quant à la vision du monde mais aussi le type de langage utilisé. Là, on a parlé de ChatGPT, donc, évidemment, on s’exprime en langage naturel, mais même n’importe quel autre modèle, par exemple de génération d’images, de génération de vidéos, pareil, on est quand même obligé de donner un input en langage naturel, il y a donc une espèce de chose qui se fait par défaut qui est de le déployer partout dans le monde. De toute façon, on connaît la question des biais des données depuis très longtemps, elle n’est pas du tout résolue aujourd’hui. Donc, on va perpétuer une image du monde qui appartient à une catégorie spécifique, qui est celle, justement, sur laquelle ces données ont été entraînées. D’ailleurs, j’ai envie d’ajouter que ce n’est pas juste une question de données aujourd’hui, parce qu’on sait qu’on utilise des nouvelles techniques type apprentissage par renforcement. Par feed-back, bref ! Ça, et aussi, d’ailleurs, par intelligence artificielle. Ça veut dire en gros, pour le faire très simple, que les humains ou les IA sont obligées de choisir entre réponse A et réponse B, parfois, d’ailleurs, même ChatGPT le fait. Si jamais on vous propose « est-ce que c’est mieux la réponse 1 ou la réponse 2 », vous êtes aussi en train d’aider l’apprentissage, à ce moment-là, c’est justement aussi ça qui va influencer la vision du monde que la machine va reproduire.
 
<b>Mick Levy : </b>Du coup, est-ce que les créateurs de ces IA, les créateurs de GPT, par exemple, qui est derrière ChatGPT, peuvent influencer la vision du monde qu’ils vont vouloir amener soit par l’apprentissage par renforcement humain, comme on le disait, d’ailleurs par les <em>clicworkers</em> qui sont généralement derrière, soit par les données qui sont choisies par l’entraînement, soit par les poids, les différents paramètres qu’ils entrent dans le fonctionnement de l’IA ?
 
<b>Giada Pistilli : </b>J’imagine que le degré d’influence dépend aussi du degré de confiance que l’utilisateur va octroyer à la machine, mais c’est clair qu’ils ont un pouvoir là-dedans, c’est sûr. D’ailleurs, j’avais rédigé un papier notamment sur cette question, par rapport à GPT 3, qui est un peu le prédécesseur de GPT 3.5, GPT 4 aujourd’hui, les dinosaures par rapport à ce qu’on a aujourd’hui, c’est vraiment la préhistoire par rapport à aujourd’hui. Nous avons été impressionnés en 2020/2021. On avait remarqué, avec mes coauteurs, que si on demandait à GPT 3 de résumer, par exemple, des notions qui étaient propres à une certaine vision du monde dans certains pays, certaines valeurs, il allait y avoir des conflits et ce qu’allait renvoyer à chaque fois GPT 3 c’était vraiment des visions du monde qui avaient l’air, en tout cas d’après nos expériences, d’être plutôt américaines dans l’ensemble.
 
<b>Thibaut le Masne : </b>OK. Du coup, Giada, si ce que nous donne un LLM comme type de réponse et comme vision du monde est un petit peu influencé par ses créateurs ou ceux qui les alimentent, quelle différence, finalement, avec d’autres outils techniques ou même les outils liés à la culture – les livres, le cinéma, la télé et la société du spectacle ? Finalement, c’est toujours la même chose !
 
<b>Giada Pistilli : </b>Je ne suis pas d’accord, parce qu’avec l’IA, il y a une mise à l’échelle qui est incroyable. Je peux développer un seul modèle, le déployer partout, sur tous les ordinateurs, absolument à tout le monde.
 
<b>Thibaut le Masne : </b>Là, tu penses à Microsoft ?
 
<b>Giada Pistilli : </b>Je pense notamment à ChatGPT qui a eu plus de 100 millions d’utilisateurs en un mois, je pense que c’était le record de l’histoire d’Internet, donc pas sûr que ça donne le même effet qu’un livre. Après, on espère que des livres aient le même effet.
 
<b>Thibaut le Masne : </b>Si on compare alors avec l’industrie cinématographique de Hollywood qui, pendant des années, a véhiculé aussi une certaine forme d’idéologie, parfois américano-centrée, je caricature volontairement, parce qu’on peut nous opposer ça quand on nous écoute et qu’on dit « attention, la technologie est porteuse de l’idéologie de ceux qui la font », mais, <em>in fine</em>, est-ce que ça n’a pas toujours été le cas ?
 
<b>Giada Pistilli : </b>Est-ce que le cinéma est une technologie ? Je pense que le cinéma est plutôt un art, n’est-ce pas le septième art ? Je pense que quand on va voir un film, c’est un peu la même chose que lorsqu’on lit un article de journal, en tout cas ça me fait penser un peu à ça. Si on choisit de lire, je ne sais pas, <em>Le Monde</em>, <em>Le Figaro</em> ou plutôt un autre journal, on sait très bien qu’on va y retrouver des visions qui sont un peu politisées, qui représentent une vision du monde, mais on fait aussi le choix. Si on va voir un Steven Spielberg, on sait, évidemment, qu’il va y avoir des choses qui appartiennent vraiment au milieu américain. Alors que si on nous donne un outil, un, il y a une interaction alors qu’au cinéma, c’est assez frontal. Je peux râler sur Allociné, mais ça reste entre moi et moi-même ou alors je vais rencontrer le réalisateur, je ne sais pas !<br/>
Un, il y a l’interaction, donc, déjà, je peux avoir l’illusion de pouvoir interagir avec machine alors que la machine ne va pas changer pour moi et, deux, il y a le côté universalisable, que la machine est vendue comme étant universelle alors qu’elle ne l’est pas vraiment.<br/>
Quand on fait le choix de lire le livre d’un auteur, Dostoïevski, on sait très bien qu’on va y trouver des éléments russes ; si on va lire quelque chose de la littérature ??? [51 min 41]
 
<b>Mick Levy : </b>En plus, j’adore Dostoïevski ; <em>L’idiot</em>.
 
<b>Thibaut le Masne : </b>Je suis une sorte de double de Dostoïevski.<br/>
En revanche, Giada, je suis plus partagé parce que, à part, peut-être, un courant très mainstream du grand public qui ne sait pas quand tu prends telle technologie, elle est plutôt américano-centrée plutôt que le bloc asiatique. Je crois que aujourd’hui, quand même, tout le monde a à peu près conscience que si on utilise un outil d’un des Big Tech américains il y a quand même une idéologie qui est derrière.
 
<b>Mick Levy : </b>Tout le monde !
 
<b>Thibaut le Masne : </b>En grande partie.
 
<b>Mick Levy : </b>Je peux te dire que Tata Lucette n’a conscience de rien du tout ! Et Tata Lucette est légion !
 
<b>Thibaut le Masne : </b>J’ai l’impression de plus en plus. C’est effectivement un vrai sujet de débat. Je retiens surtout cette idée que la grosse différence avec le septième art qu’est le cinéma, c’est la notion d’interaction qui peut être trompeuse : j’ai l’impression d’avoir une certaine maîtrise sur l’outil que je suis en train d’utiliser et, finalement, pas du tout parce que l’idéologie qu’il porte est très importante.
 
<b>Mick Levy : </b>Giada, on a une petite tradition, on aime bien faire poser à notre précédent invité une question à notre invité du jour. C’est William Eldin qui est fondateur de XXII [prononcé <em>twenty-two</em>, NdT], la start-up qui travaille sur tout ce qui est autour du <em>computer vivant</em>, qui a une question pointue pour toi. On parle là de pro de l’IA à pro de l’IA.
 
<b>William Eldin, voix off : </b>Est-ce que tu penses qu’on va réussir à connaître ou à décrypter les <em>datasets</em> des réseaux qui ont déjà appris et qu’on met sur le marché ?, parce qu’un des gros enjeux aujourd’hui c’est cette bouillie mathématique impossible à décrypter. Quels sont les axes et les stratégies que tu imagines pour pouvoir développer, finalement, l’information de cette boîte noire ?
 
<b>Mick Levy : </b>La question porte donc sur la transparence des IA et, finalement, sur l’<em>opensourcification</em>, je ne sais pas si ça peut se dire, des données qui ont servi à l’entraînement et de tous les autres paramètres. On revient à ce sujet qu’on touche un peu depuis tout à l’heure.
 
<b>Giada Pistilli : </b>D’ailleurs, j’ai parlé de ça toute la semaine, c’est marrant que ça revienne en boucle.
 
<b>Mick Levy : </b>On l’a senti, on l’a entendu un petit peu ! On sentait bien que ça te chiffonnait.
 
<b>Giada Pistilli : </b>Je pense que le discours autour de la boîte noire est un peu une excuse pour dire des choses qui ne veulent pas être dites, qui ne veulent pas être partagées. Aujourd’hui, OK, il reste évidemment des choses comme toutes les dimensions qui existent lorsqu’il y a des vecteurs, il y la machine qui doit choisir quel type de contenu elle va générer pour nous. Nous, nous vivons dans d’autres dimensions, peut-être que des choses restent un peu « difficiles à concevoir », entre guillemets, mais quand il s’agit des données, pour le coup on revient sur le mot intention, les mauvaises intentions de ne pas vouloir, en effet, partager le contenu des données. La question est : est-ce qu’on peut déchiffrer ça à posteriori. Il y a des outils, il y a des recherches qui se font dans ce sens, qui essayent, notamment, de faire des outils d’exploration. J’en suis très fan, d’ailleurs j’ai un projet de recherche qui est en cours, ce serait un peu trop large de tout expliquer. En tout cas, la partie intéressante, qui est peut-être intéressante pour répondre à la question, c’est que j’ai voulu, pour ce projet, aider à créer un outil d’exploration des données, parce que, aujourd’hui, on ne sait pas trop faire. Quand on parle de jeux de données, il faut imaginer que ce sont vraiment des données massives, ce sont vraiment des quantités gigantesques, donc, c’est très difficile à explorer. Là où il y a de la recherche qui se fait de plus en plus, heureusement, c’est dans l’exploration de ces données, donc, ils commencent à y avoir des outils. Par exemple, je ne sais pas si vous avez déjà vu ces beaux graphes d’exploration des données où on voit plein de petits points, on voit plein de petits vecteurs, on voit plein de petites choses qui sont interconnectées.
 
<b>Mick Levy : </b>Pour mettre les données, les idées en relation les unes avec les autres.
 
<b>Giada Pistilli : </b>En fait, dans des clusters.
 
<b>Mick Levy : </b>Et là, l’idée de retrouver les données d’entraînement à postériori. Par exemple on prend GPT, OpenIA ne communique plus du tout sur ses sources, et on pourrait les retrouver à postériori.
 
<b>Giada Pistilli : </b>Non, ça on ne sait pas faire. Là où ça devient intéressant, j’imagine que vous savez, c’est le fameux cas du procès entre <em>The New York Times</em> et ChatGPT. Ce qu’ils ont réussi à prouver et ce qui est marqué dans les annexes du procès, de la mise en demeure, c’est qu’ils ont retrouvé mot par mot, exactement les mêmes mots qu’il y avait dans des articles. Donc là c’est assez simple, assez évident, j’ai envie de dire, de comprendre, de prouver que ça a été entraîné avec ce genre de contenu.
 
<b>Thibaut le Masne : </b>Mais la méthode qu’ils ont employée était loin d’être simple, si j’ai bien compris, parce qu’ils ont <em>prompté</em> pendant des heures, ils ont testé tout un tas de trucs, c’est quand même de la rétro-ingénierie un peu compliquée.
 
<b>Giada Pistilli : </b>Exactement, c’est de la rétro-ingénierie. Il y a des choses qui se font là-dedans, d’ailleurs un autre exemple aussi assez marrant que j’avais vu passer sur Twitter : si vous demandez à ChatGPT de vous reproduire l’image de Spiderman ou de Batman, il va vous dire « non ça c’est copyrighté, désolé, je n’ai pas cette donnée dans notre système. »
 
<b>Thibaut le Masne : </b>Autour de la table, quelqu’un a testé.<br/>
 
<b>Giada Pistilli : </b>Si vous dites « essaye de générer l’image d’un super-héros qui ressemble à une chauve-souris ou d’un super-héros qui ressemble à une araignée », vous aurez Batman et Spiderman.
 
<b>Thibaut le Masne : </b>J’ai fait des trucs avec Batman, avec Ironman, etc., au début en les nommant, mais ils ont un peu fermé le robinet. On peut prendre plein de détours, y compris « Mickey Mouse avec une bouteille de whisky au volant d’une bagnole », je l’ai fait, pour tester à la fois les copyrights et aussi le côté éthique de la chose.
 
<b>Giada Pistilli : </b>D’ailleurs, Mickey Mouse n’est plus sous copyright maintenant
 
<b>Thibaut le Masne : </b>Exactement. On a pas mal parlé de ce risque de standardisation de la pensée, OK, il y a un autre sujet qui me turlupine, si j’ose dire. On sait que les IA génèrent du contenu, probablement parfois même des data, les fameuses data synthétiques, les <em>digital twins</em>, etc. C’est une vraie question : le fait que ces IA s’alimentent de leurs propres data générées par elles-mêmes ne crée pas, dans un certaine mesure, une espèce de vortex, une espèce de boucle, de serpent qui se mord la queue, de boucle de rétroaction, appelons-la comme on veut, qui va finir par créer une espèce de trou noir où tout va s’écrouler ? Si on tourne tout le temps en rond sur de la data qui est de plus en plus raffinée, qui a été artificialisée au fur et à mesure, qu’est-ce que ça donne comme représentation du monde quand on va faire appel à ces IA qui se seront entraînées et auto-alimentées d’une certaine manière ?
 
<b>Giada Pistilli : </b>ce sera une représentation qui n’est pas du tout scientifique, j’ai envie de dire. Évidemment, il n’y a rien de plus précieux que la donnée humaine. Si on a recours à la donnée synthétique, c’est parce qu’il y a des problèmes de copyright, il y a des problèmes de quantité.
 
<b>Thibaut le Masne : </b>Justement ce problème de quantité, c’est notamment motivé par ça. On atteint une espèce de plafond en termes de data disponibles à faire ingurgiter à ces modèles, puisque ils ont quasiment déjà tout bouffé. S’ils sont obligés de s’entraîner sur de la data qu’ils ont eux-mêmes générée, voire des data qui sont générés par nous-mêmes, nos actions avec nos <em>prompts</em>, etc., ou les PDF qu’on leur met dans la tête pour les analyser, est-ce qu’à un moment donné on n’atteint pas un plafond où, de toute façon, les IA seront obligées de s’appuyer uniquement sur de la data synthétique, auquel cas, c’est ça vient fragiliser tout l’édifice ?
 
<b>Giada Pistilli : </b>Je ne sais pas si ça va fragiliser l’édifice, ce qui est sûr c’est que, peut-être, ça va vraiment être aplati. D’ailleurs, on sait très bien que si, par exemple, on veut créer complètement un jeu de données textuelles complètement synthétiques, il va falloir bien les nettoyer parce qu’on va retrouver tout le temps les mêmes mots, on va retrouver tout le temps les mêmes phrases, donc ce sera de beaucoup moins bonne qualité.<br/>
Un gros pas a été fait cette année sur les données synthétiques, il y a pas mal d’expériences, on en fait aussi dans notre équipe scientifique au sein d’Hugging Face. Donc, je dirais que la meilleure combinaison aujourd’hui serait peut-être un peu un mélange des deux. Là où ça devient intéressant de creuser un petit peu, c’est en effet de se demander pourquoi ils essayent et, surtout, pourquoi les développeurs, sont un peu obligés d’aller chercher des données synthétiques. On commence à voir qu’il y a vraiment des modèles qui ne font que générer des données synthétiques pour entraîner de nouveaux modèles. J’ai envie de dire qu’on peut se poser la même question sur l’apprentissage par renforcement d’IA. D’ailleurs, un des modèles les plus performants qui existent aujourd’hui, basé sur ça, c’est Claude d’Anthropic. Je ne sais pas si vous l’avez testé, mais c’est assez bluffant et même chose. En fait, pour le dire de façon très terre-à-terre, ce sont des machines qui ont discuté avec des machines pendant très longtemps et ça marche très bien.
 
<b>Thibaut le Masne : </b>Elles prennent aussi un café, de temps en temps ?
 
<b>Giada Pistilli : </b>Je ne sais pas si c’est important, en tout cas, c’est assez incroyable. Il y a plein de petits détails à pas mal de moments différents du pipe-line de l’entraînement, avec des périodes de réitérations qui se font après, qui peuvent être intéressants à un moment. Là où les données synthétiques, en effet, peuvent causer un souci, pour répondre à la question, je pense que c’est vraiment l’aplatissement de tout parce que, évidemment, il ne va pas nous générer du Shakespeare.
 
<b>Thibaut le Masne : </b>S’il nous génère du Claude !
 
<b>Mick Levy : </b>Ou du Shakespeare.<br/>
Giada, toi qui es, finalement, un peu aux avants postes de l’IA chez Hugging Face, comment crois-tu que ça va évoluer ? Sors ta boule de cristal un tout petit peu. Projetons-nous, faisons des paris, ça sera retenu contre toi, ressorti dans les années qui viennent, bien sûr ! On est en 2024, si on se projette, disons à l’horizon 2030, dans les cinq ans qui viennent, ça me semble assez raisonnable, que peut-on s’attendre à voir arriver en IA ?
 
<b>Giada Pistilli : </b>Mon pari qui était d’ailleurs complètement en décalage il y a très longtemps et que je n’ai jamais arrêté de le penser une seconde, mais qui commence à être peut-être un peu vrai aujourd’hui, c’est qu’on va avoir des modèles de plus en plus petits, qui vont tourner vraiment même sur nos ordis, ce qui serait génial, et pas avoir ces trucs gigantesques. Je sais pas si vous avez vu un quand Twitter, X, a sorti Groggs qui a fait plus de 300 milliards de paramètres, tout le monde était là disant « qu’est-ce que je suis censé faire avec ça ? Où est-ce que je le fais tourner ? Je n’ai pas j’ai pas Jean Zay à la maison, donc c’est compliqué ». Je pense qu’on va avoir des modèles beaucoup plus petits, beaucoup plus contextualisés, beaucoup plus calés sur un type de cas d’utilisation très spécifiques, pour qu’ils soient aussi plus contrôlables, d’ailleurs c’était un des gros axes de ma recherche pour ma thèse, c’est de faire le pari là-dessus. E tout cas, je dois dire que côté Californie, il y a énormément de startups qui se créent là-dedans en faisant le pari d’accompagner les entreprises pour qu’elles aient des modèles. Après je ne dis pas créés <em>from scratch</em>, même juste prendre des gros modèles qui existent aujourd’hui, les <em>fine-tuner</em> et juste les contextualiser le plus possible pour qu’on essaye, encore une fois pas de résoudre tous les problèmes, tous les enjeux qu’il peut y avoir, en tout cas de mieux les contrôler : IA, visions du monde, langages, biais, etc. On a un cas d’utilisation, on a un <em>target</em> d’utilisateurs, on a un langage défini, on a des garde-fous qui sont bien établis, là, pour le coup, ça devient aussi un peu plus simple de gérer la chose.
 
<b>Mick Levy : </b>C’est bien ! Ça fait moins peur. J’avais peur que tu nous dises qu’en 2030 on allait avoir des modèles encore plus dingues, que l’autonomie des IA allait encore être plus développée, qu’on allait tous mourir en 2035.
 
<b>Giada Pistilli : </b>On atteint un plafond.
 
<b>Mick Levy : </b>Giada est très spécialisée.
 
<b>Thibaut le Masne : </b>Ton point de vue est assez intéressant. J’ai entendu Cédric O, qu’on a déjà reçu, qui partage un petit peu ce point de vue, qui disait qu’il y avait, en fait, de deux de philosophies.
 
<b>Mick Levy : </b>Il travaille chez Mistral AI.
 
<b>Thibaut le Masne : </b>Il est actionnaire. Il disait qu’il y avait deux grandes tendances : Sam Altman a une philosophie complètement à l’inverse de ce que tu dis, il dit qu’on va aller vers des IA beaucoup plus grosses, beaucoup plus intéressantes, alors qu’on a une vision plutôt francophone, probablement portée aussi par toutes ces initiatives que l’on a en France, où on se dit qu’on va être plus frugales, on va être plus petits. Tu dis que du côté californien il y a aussi cette tendance à la frugalité, cette tendance d’aller vers du plus petit ?
 
<b>Giada Pistilli : </b>Il y a vraiment deux camps. Il y a ceux qui veulent, en effet, recréer une intelligence artificielle générale, qui existe, qui n’existe pas, je ne sais pas, je ne pense pas.
 
<b>Thibaut le Masne : </b>Qui fait marrer tout le monde !
 
<b>Giada Pistilli : </b>C’est rassurant que ça nous fasse marrer parce que ce n’est pas trop le cas de l’autre côté de la Manche, ça ne fait pas trop rigoler. En tout cas, ce que je vois, ce sont de nouvelles startups. Je le sais par ce que ce que je vois de mon humble expérience, c’est de faire quatre/cinq ans d’expérience en startup et, ensuite, tu crées ta propre startup. En tout cas, tout ce que j’ai vu passer au fil des années, ce sont des nouvelles startups qui sont en train de se fonder, sur ces questions-là. Je me dis soit on a partagé les mêmes idées, soit on pense la même chose.<br/>
Après, je ne dois pas dire que c’est la grosse tendance aujourd’hui, je pense vraiment qu’il y a ces deux camps. Avec d’un côté la crise énergétique et, de l’autre côté, les enjeux environnementaux, je pense qu’à un moment, on n’aura pas trop le choix. On verra bien !
 
<b>Cyrille Chaudoit : </b>Merci beaucoup pour cet échange, Giada, très riche une fois de plus, très nourri. On aurait aimé continuer, comme d’habitude, mais il faut rendre l’antenne, comme on disait au 20<sup><em>e</em></sup> siècle.<br/>
On rappelle ton site web, giadapistilli.com, sur lequel on peut retrouver un certain nombre de tes papiers et puis, évidemment, on peut te suivre sur Linkedin. On mettra tous les liens dans l’épisode qui sera publié sur votre plateforme de podcast favori.<br/>
Mais vous qui nous écoutez restez avec nous pour les cinq dernières minutes de cet épisode c’est l’heure du <em>debreif</em>.
 
<b>Mick Levy : </b>À bientôt Giada.
 
<b>Thibaut le Masne : </b>À bientôt, merci
 
<b>Giada Pistilli : </b>À bientôt, au revoir.
 
<b>Voix off : </b><em>Trench Tech</em>, Esprits critiques pour Tech Éthique.
 
==Le <em>debreif</em> 1 h 5 min 23==
 
<b>Mick Levy : </b>Oh ! Encore un bel épisode de Trench Tech. J’adore atomiser les oreilles. Si jamais vous avez dormi pendant l’épisode, vous arrivez au <em>debreif</em>, pan ! Vous êtes réveillé.
 
<b>Thibaut le Masne : </b>Si vous avez une plainte à faire, vous envoyez un mail cyrille@trench-tech.fr.
 
<b>Mick Levy : </b>Justement, Cyrille Chaudoit, qu’est-ce que c’est que cette idée saugrenue d’autorisation de mise sur le marché des IA. Tu te rends compte ? Ça voudrait dire qu’on saurait déterminer très précisément des critères pour dire oui, ça c’est une bonne idée, ce n’est pas une bonne idée.
 
<b>Cyrille Chaudoit : </b>Et alors ? Tu fais comment pour les médicaments ?
 
<b>Mick Levy : </b>Un médicament a une finalité, il doit te faire repousser les cheveux par exemple ; on peut vérifier si cette finalité est atteinte ou pas.
 
<b>Cyrille Chaudoit : </b>Il y a peut-être des médicaments qui soignent aussi le sens de l’humour !
 
<b>Thibaut le Masne : </b>C’est comme quand tu mets un nouveau nounours pour les enfants sur le marché, tu vérifies s’il respecte les normes. Il y a un contrôle en amont.
 
<b>Mick Levy : </b>Qu’on définisse des normes, c’est une chose, des règles c’est une autre chose, que je valide aussi : une autorisation de mise sur le marché c’est quand même quelqu’un qui vient valider, selon des critères hyper particuliers, que ça respecte tout un cahier des charges, en l’occurrence en vue d’une finalité.
 
<b>Thibaut le Masne : </b>Par exemple, justement, pour éviter l’effet l’effet boîte noire qu’on évoquait encore tout à l’heure. Giada nous dit « attention à l’effet boîte noire, parfois on se planque un peu derrière ». Il n’empêche que quand on utilise des outils technologiques qui ont potentiellement une répercussion sur ta santé, là on n’est pas tout à fait dans le domaine de l’IA, mais on a largement commenté que les réseaux sociaux ont clairement des impacts sanitaires sur la psychologie de nos enfants, entre autres, mais aussi parfois uniquement sur l’obésité, etc. Évidemment, ce n’est pas de l’ordre du médicament, et évidemment que la question est un peu provoc, mais pourquoi n’y aurait-il pas une espèce d’autorité de régulation qui décide si oui ou non on peut mettre le produit sur le marché.
 
<b>Mick Levy : </b>En tout cas, il faudra pouvoir faire vérifier les règles de l’<em>AI Act</em> et autres. Il faut qu’on revienne à nos petites histoires, Thibault, quand même. On s’égare avec nos débats internes.
 
<b>Cyrille Chaudoit : </b>Dis-nous Thibault, c’est quoi les petites histoires ?
 
<b>Thibaut le Masne : </b>Déjà, je retiens deux/trois petites choses.<br/>
Première chose intéressante, on est quand même sur une plateforme d’IA, on est donc sur des choses assez autonomes, le contrôle, l’éthique, elle le fait manuellement, ce qui est assez intéressant. Est-ce qu’il y a une notion de confiance sur la machine, la capacité d’entraîner ? Non, en fait c’est l’humain qui va aller contrôler un petit peu, manuellement, toutes ces choses-là. Je trouve que c’est un angle pris, un prisme pris qui est aussi assez intéressant.<br/>
Deuxième point, pour le coup, que je lance comme ça et sur lequel elle nous a distillé cette information que je n’avais pas, c’est que l’éthique appliquée, globalement dans l’univers de la tech, n’est pas une quelque chose de nouveau, ça date des années 60 pour elle, donc quasiment avec l’arrivée de l’IA et je trouve que c’est hyper intéressant, là encore, de relativiser : ce n’est pas une nouvelle approche, ce n’est pas une nouveauté qu’on s’impose avec les dérives que l’on a, c’est quand même quelque chose qui existe depuis très longtemps et sur lequel il y a un recul hyper important sur ce sujet-là.
 
<b>Mick Levy : </b>Mais qui est renouvelé avec l’IA. D’ailleurs, c’était intéressant quand on est venu l’interroger, finalement, pour savoir si on sait porter une vision française de l’éthique, et puis les anecdotes qu’on a eues sur cette éthique peut-être moins prude que la vision américaine de l’éthique de l’IA, c’était intéressant comme perspective.
 
<b>Thibaut le Masne : </b>Ce qui nous rappelle encore pas mal de chroniques et de sujets qu’on avait évoqués sur les différences culturelles à travers les différentes parties du globe, notamment encore l’acronyme dans cet épisode.<br/>
Ce que je retiens en particulier, c’est qu’il y a vraiment deux écoles sur les perspectives en matière d’évolution de l’IA et de ses différents modèles, entre les tenants d’une intelligence artificielle générale et les tenants d’une IA beaucoup plus spécialisée, frugale, on l’a bien compris, dans le nombre de paramètres, donc aussi dans la consommation énergétique que ça provoque, mais aussi beaucoup plus spécialisée, notamment pour conquérir le marché <em>B to B</em>. Et là, je suis assez ravi d’entendre ce que dit Giada, c’est ce que je répète à tout bout de champ à mes clients : pour moi aussi, à l’avenir, dans les quelques prochaines années, ça va être des IA beaucoup plus spécialisées, qui sont plus utiles aussi parce que plus performante pour les entreprises et moins coûteuses, quand on sait ce que ça coûte de déployer une IA quand bien même elle a été sur étagère et l’entraîner, ensuite, pour la <em>fine tuner</em>avec ses propres data, ce n’est pas donné à tout le monde.
 
<b>Voix off : </b><em>Trench Tech</em>.
 
<b>Cyrille Chaudoit : </b>Et voilà, nous avons passé plus ou moins 60 minutes ensemble pour exercer notre esprit critique sur les enjeux d’intermédiation entre les données avec lesquelles entraîner nos IA et la représentation de notre monde que ces dernières finiront par nous donner à leur tour.<br/>
On espère que cet épisode avec Giada Pistilli vous a plu et, qu’une nouvelle fois, il vous a permis d’exercer votre esprit critique pour une tech éthique. Si c’est le cas, n’oubliez pas de poster un avis cinq étoiles sur Apple Podcasts ou Spotify vous pouvez aussi lever un pouce sur YouTube et partager cet épisode sur vos réseaux sociaux, ça donne du sens à notre engagement et ça vous prend à peu près 30 secondes.<br/>
Et puis tiens, pour nous quitter, j’ai envie de vous laisser avec cette phrase de Marie Darrieussecq : « Toute écriture est politique puisque toute écriture est une vision du monde. ».
 
<b>Voix off : </b><em>Trench Tech</em>, Esprits critiques pour Tech Éthique.

Dernière version du 11 août 2024 à 14:59


Titre : Hugging Face : Open Source, la secret sauce éthique de l'iA

Intervenant·es : Giada Pistilli - Virginie Martins de Nobrega - Louis de Diesbach - Cyrille Chaudoit - Mick Levy - Thibaut le Masne

Lieu : Podcast Trench Tech, Esprits critiques pour Tech Ethique

Date : 16 mai 2024

Durée : 1 h 10 min 45

Podcast

Présentation du podcast

Licence de la transcription : Verbatim

Illustration : À prévoir

NB : Transcription réalisée par nos soins, fidèle aux propos des intervenant·es mais rendant le discours fluide.
Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas nécessairement celles de l'April, qui ne sera en aucun cas tenue responsable de leurs propos.

Description[modifier]

L'open source vs opacité de l'Intelligence Artificielle : une start-up française comme rempart aux IA « boîtes noires x ?

Transcription[modifier]

Diverses voix off : Valérie tu me mets des chips, s’il te plait.
Vous avez vu les chiffres : en février 2024, OpenAI est valorisée 80 milliards de dollars. Super !
La vaste blague OpenAI ! Au départ, les mecs devaient faire de l’IA ouverte pour le service de l’humanité.
Mais la valorisation ! Quand on voit ce que c’est devenu quand même !
C’est possible de faire de l’IA open source ?
Une autre voie doit être possible.
Apparemment, oui, notamment Hugging Face, d’ailleurs on les reçoit.
Excellent

Extrait de Un jour sans fin, Bill Murray : Nous allons voir la marmotte. Quand à votre avis ?
On n’a pas déjà fait ça hier.
Moi, je ne comprends pas là.
Dis-moi quel jour on est.
Le 2 février.
Le jour de la marmotte.
C’est drôle, je crois que c’était hier !

<b<Voix off : Trench Tech, Esprits critiques pour Tech Éthique.

Cyrille Chaudoit : Hello, hello, cher public de plus en plus nombreux à nous suivre, je t’aime public.
Cyrille Chaudoit au micro pour un nouvel épisode de Trench Tech où la technologie rencontre la réflexion et l’éthique côtoie l’innovation. À mes côtés toujours, les très avisés Thibaut le Masne.

Thibaut le Masne : Hello, hello.

Cyrille Chaudoit : Et Mick Levy.

Mick Levy : Salut.

Cyrille Chaudoit : Alors Messieurs, prêts à décortiquer le monde de l’IA avec notre invitée d’exception ?

Mick Levy : Carrément.

Thibaut le Masne : Ça va être trop bien.

Cyrille Chaudoit : Attention, nous accueillons une toute jeune docteure en philosophie, spécialisée en éthique de l’IA, avec un attrait tout particulier pour les IA conversationnelles et le natural language processing.

Mick Levy : Je vais tâcher de surveiller mon langage, ce coup-ci.

Thibaut le Masne : Ne t’inquiète pas, Mick, ce n’est pas Alexa c’est Giada qu’on reçoit aujourd’hui.

Cyrille Chaudoit : Effectivement, c’est Giada Pistilli qui occupe donc le poste d’éthicienne de l’IA chez Hugging Face, cette plateforme franco-américaine, communautaire et open source, dédiée au machine learning. Les amis, voici la grande question de l’épisode : si, comme on peut être tenté de le penser, l’intelligence artificielle redéfinit notre compréhension du monde, alors l'open source peut-il être un rempart à sa déformation ? Nous commencerons donc, logiquement, par interroger le rôle d’une plateforme d’IA open source puis nous plongerons dans le dédale des relations entre éthique, technique et droit : comment ces trois sphères s’entremêlent-elles pour façonner l’avenir de l’IA ? Enfin nous questionnerons la représentation du monde que nous propose l’IA : risquons-nous la standardisation de nos pensées ou nous exposons-nous à une étrange boucle de rétroaction où l’IA apprend d’elle-même, nous enfermant alors dans une sorte de jour sans fin, comme Bill Murray dans l’extrait de ce début d’épisode. Mais ce n’est pas tout ! Cet épisode, qui vous fera donc voyager au pays des machines parlantes, sera aussi ponctué de deux chroniques que vous adorez, si, si, je le sais : « Débats en technocratie » de Virginie Martins de Nobrega – j’adore – et « La Tech Entre les Lignes » de Louis de Diesbach. Et, dans moins d’une heure maintenant, nous débrieferons, juste entre vous et nous, des idées clés partagées avec Giada dans cet épisode, restez donc jusqu’au bout. Il est grand temps d’accueillir Giada. Bonjour Giada.

Giada Pistilli : Bonjour.

Cyrille Chaudoit : On se tutoie Giada ?

Giada Pistilli : Oui, bien sûr.

Cyrille Chaudoit : C’est parfait. Alors, c’est parti pour notre grand entretien. Vous êtes bien dans Trench Tech et c’est maintenant que ça commence.

Voix off : Trench Tech, Esprits critiques pour Tech Éthique.

De l’IA en open source ?[modifier]

Mick Levy : Depuis la sortie de ChatGPT, il y a des dizaines, des centaines, des milliers d’acteurs de l’IA qui ont poussé comme des champignons. Parmi eux, une plateforme utilisant le monde entier prend un positionnement singulier, c’est celle de Hugging Face.
Giada, au juste, c’est quoi une plateforme d’IA et qu’est-ce qui rend finalement Hugging Face si particulier ?

Giada Pistilli : Une plateforme d’IA, ça veut dire qu’on héberge du contenu en machine learning, principalement, c’est-à-dire quand nous sommes un peu les principaux hébergeurs de contenus tels que des modèles d’intelligence artificielle de tout type, qui font n’importe quel type de tâche, ça peut aller de l’IA conversationnelle à la génération de vidéos, de musiques, d’audio-détection, etc. On héberge aussi des datasets, des jeux de données, pareil, de toute nature. Ensuite, on a aussi une troisième verticale, on héberge des applications finies en intelligence artificielle, donc des applications complètes qu’on appelle des ??? [4 in 19], c’est-à-dire que n’importe qui peut développer sa propre application et l’héberger sur notre site.

Mick Levy : Finalement, vous êtes une sorte de plateforme, de grand magasin d’IA qui comprend un peu tout : on peut faire des IA en kit, on pourrait le dire comme ça, c’est-à-dire une marketplace, un endroit où on a directement des algorithmes qui sont prêts à l’usage pour de la reconnaissance d’images, d’objets, pour du langage, etc. ; des endroits où on a directement des données que chaque développeur d’IA peut venir prendre pour entraîner ses propres IA ; et puis, troisième point, un endroit où on a des applications directement prêtes à l’emploi qu’on peut exécuter sur votre plateforme, associées à une infrastructure.

Giada Pistilli : Exactement. En fait, c’est une espèce de marketplace mais gratuite, parce que le but c’est que ça soit collaboratif. Évidemment, la communauté machine learning et d’intelligence artificielle au sens plus large est impliquée, publie et héberge au quotidien énormément de données, de modèles et d’applications. Et puis, surtout, c’est open source, c’est-à-dire qu’en effet c’est gratuit, c’est ouvert, le code est ouvert. Le but, c’est vraiment le partage et surtout de rendre ça le plus accessible possible, aussi au public qui n’est pas forcément technique, donc les gens comme moi qui n’ai pas forcément un profil technique, pour qu’on puisse exploiter ces outils, les comprendre, les utiliser, les étudier.

Mick Levy : Qu’est-ce qui est open source Giada, pour bien comprendre ? C’est la plateforme elle-même ou ce sont tous les contenus qui sont déposés sur la plateforme, donc les applications, les données et les algorithmes, qui sont forcément en open source une fois sur votre plateforme ?

Giada Pistilli : Les deux. Le contenu n’est pas obligé obligatoirement open source, ça dépend évidemment des nuances de la licence d’utilisation : par exemple, si une organisation est en train de travailler sur un projet encore en bêta, il y a, évidemment, la possibilité soit de l’avoir en privé, soit d’avoir une licence beaucoup plus restrictive, mais, de toute façon, on essaye de pousser pour que, à terme, les choses soient le plus ouvertes possible. Il y a évidemment des degrés. J’imagine qu’on aura aussi le temps d’en discuter parce que open source ne veut pas dire forcément tout ouvert ou tout fermé. Il y a des nuances.

Thibaut le Masne : Justement, Giada, qui se charge de contrôler l’ensemble des datasets, l’ensemble des éléments qu’on dépose sur cette plateforme ?

Giada Pistilli : L’idée, c’est déjà que tous les utilisateurs soient responsables de ce qu’ils hébergent et de surtout ce qu’ils déploient et de ce qu’ils utilisent, sachant que, de toute façon, on a évidemment des lignes conductrices, des guidelines et une politique de contenus qui définit et donne quand même un peu aux utilisateurs des garde-fous, en gros, pour leur dire ce qu’ils peuvent déployer, ce qu’ils ne peuvent pas déployer. On a aussi, évidemment, une équipe qui est dédiée au contrôle de tout cela. Je suis chargée, justement, de la politique un peu policée de modération de contenus. Aujourd’hui, ça reste un travail qui est majoritairement humain.

Mick Levy : Ce travail de modération reste profondément humain, c’est de cela dont tu parlais.

Giada Pistilli : Exactement. On a très peu d’automatisation, mais surtout, ce que je tenais à dire, c’est que même si on parle beaucoup de nous, on reste une petite équipe, aujourd’hui nous sommes 190 partout dans le monde, on reste quand même une entreprise assez petite pour l’instant. Ce qui est aussi peut-être important à souligner, c’est qu’on nous compare souvent à GitHub, plateforme vraiment open source d’hébergement de code. La particularité de Hugging Face, c’est qu’on a du contenu machine learning, donc, comme on peut l’imaginer, il y a des défis qui sont propres à ce type d’hébergement, qui ne sont pas les mêmes. Par exemple, quand on a affaire que du code, la plupart des soucis proviennent par exemple du malware, du phishing ou de choses comme ça. On a des problèmes qui sont beaucoup plus larges, j’ai envie de dire, et surtout, comme on est aussi la plateforme de référence pour tout ce qui est l’état de l’art en termes d’IA, en tout cas de ce qui se fait de manière ouverte, ça veut dire aussi qu’on découvre les choses avec nos utilisateurs. Il faut donc avoir cette flexibilité, pouvoir s’adapter au fur à mesure de l’état de l’art de la discipline.

Cyrille Chaudoit : On dit depuis tout à l’heure que la spécificité de Hugging Face, c’est vraiment ce côté ouvert, open source. Quand on pense au open source, on pense à la communauté open source qui est quand même très imprégnée, très engagée aussi, et, en général, on pense aussi autorégulation de la communauté, c’est relativement lié à cette philosophie open source. Est-ce que tu peux nous en dire un petit un peu plus et, surtout, du coup, s’il y a une forme d’autogestion, d’autorégulation de cette communauté, pourquoi une éthicienne, voire un département d’éthique au sein d’Hugging Face si l’autorégulation c’est si bien que ça et si ça fonctionne si bien que ça ?

Giada Pistilli : C’est un peu une des grandes questions. Évidemment, la philosophie open source remonte à bien avant l’intelligence artificielle. On sait très bien que même si, aujourd’hui, nous sommes en capacité de discuter, c’est parce qu’il y a eu de gens qui, un jour, ont décidé de déployer des choses qui tournent de manière ouverte pour qu’on puisse partager, pour qu’ensuite d’autres personnes en fassent des produits autour, etc. Je pense à énormément de choses, par exemple le chiffrement de bout à bout, le fait d’avoir des visioconférences, si je ne me trompe pas, c’est aussi un protocole open source ; même le socle, par exemple le fameux Linux sur lequel la plupart des systèmes opératifs sont construits, c’est aussi un socle open source. En fait, c’est aussi un peu la base de, je dirais, l’histoire de ce qui appartient à Internet. Je pense que là où il y a un degré de différence, c’est, comme je disais un peu tout à l’heure, il y a, avec l’IA, des défis qui sont quand même à une échelle un peu différente, parce qu’il y a des enjeux de société, des enjeux de mise à l’échelle, des enjeux, aussi, qui ne sont pas du même ordre que du « simple », encore une fois entre beaucoup de guillemets, parce qu’évidemment le code peut être complexe et les logiciels peuvent être très complexes, mais les questions se posent, je dirais, à un niveau un peu différent. Donc, l’idée d’embaucher quelqu’un avec un profil comme le mien, c’est d’essayer de guider, pas trop de mettre, justement, des bâtons dans les roues ; je ne suis absolument pas contre l’idée des éthiciens, par exemple dans le milieu de la tech, peu importe quel milieu spécifique. Ce n’est pas vraiment la police de la morale, dans le sens où on ne va pas dire aux gens ce qu’ils peuvent et ne peuvent pas faire, c’est plus essayer de guider, une approche que j’aime beaucoup c’est guider en donnant le bon exemple. Par exemple, à travers mon équipe et à travers la plateforme Hugging Face, on met en avant les bons projets qui ont, par exemple, un impact social assez important et très positif pour inspirer.

Cyrille Chaudoit : D’ailleurs, peux-tu nous donner un exemple ?

Giada Pistilli : Par exemple, il y a eu, il y a quelque temps, le tremblement de terre en Turquie et une énorme communauté open source s’est créée autour de cet événement, sachant que dans l’équipe on a des personnes qui viennent de tout près de cette région-là. Donc, ils se sont servi de tous les outils qu’il y avait sur la plateforme Hugging Face pour aider la police, en tout cas la protection civile turque, à retrouver, justement avec des outils open source de géolocalisation, d’aide à la recherche, de reconnaissance d’images, plein d’outils de machine learning différents, mais déployés de manière, on va dire, interconnectée, pour aider à retrouver, par exemple, des civils qui étaient encore dispersés ou perdus avec tout ce qui c’était passé.
J’ai du mal à expliquer, mais c’est vraiment l’idée. Une vraie association s’est créée autour de ça, ils ont créé une organisation au sein de Hugging Face. Je pense qu’aujourd’hui c’est un des projets les plus inspirants que j’ai pu voir naitre, croître et aider vraiment sur le terrain.

Mick Levy : Giada, quand on parle d'open source, pour un logiciel on voit bien, mais quand on parle d’IA, on sait que le comportement de l’IA est très déterminé, aussi, finalement, par les données. Donc le vrai open source pour l’IA, ça serait ouvrir le code, mais aussi ouvrir les données qui ont servi à l’entraînement de ces IA. Au fond, n’y a-t-il pas un grand malentendu quand on parle d'open source en IA ?

Giada Pistilli : Oui. En effet, tu touches un peu le nerf du sujet.

Mick Levy : Je ne suis pas venu pour rien ! Il y a des fois où j’ai des questions un peu…

Thibaut le Masne : Il ne vient jamais pour rien !

Giada Pistilli : C’est une excellente question. D’ailleurs, il y a des papiers de recherche très intéressants sur le sujet, parce qu’il y a plusieurs positions : il y a ceux qui disent que parler d'open source en IA, peut-être que ça ne fait plus trop sens, comme tu le dis très justement ; open source, c’est le code, mais, en plus, j’ai envie d’aller un peu plus loin, ce n’est pas juste le code, ce n’est pas juste des données, mais c’est aussi le poids d’un modèle qu’il faut ??? [13 min 10], sinon on ne peut pas vraiment reproduire.

Mick Levy : Ne t’inquiète pas, J’avais une autre question là-dessus.

Giada Pistilli : Très bien, j’anticipe. Est-ce qu’il faut aller un peu au-delà de l’idée d'open source ? Est-ce qu’il ne faut pas plutôt parler de complètement autre chose ? D’ailleurs, pas mal de gens préfèrent le terme « science ouverte » plutôt que open source, c’était le cas du projet BigScience, on pourra en parler si on a le temps, auquel j’ai collaboré, où on a justement déployé, en science ouverte, le plus gros modèle multilingue.

Mick Levy : Tu fais référence au modèle Bloom, développé avec l’Inria entre autres.

Giada Pistilli : Exactement, en banlieue parisienne. En effet, ne faudrait-il pas aller au-delà et ce n’est pas juste une question de données, poids et codes, mais aussi quel type de licence open source on va utiliser : est-ce qu’on peut se servir d’une licence Apache 2.0 classique ou de Creative Commons ou des licences qui sont vraiment utilisées très facilement pour le code ? Ou ne faudrait-il pas créer de nouvelles licences ? C’est d’ailleurs une tendance qu’on commence à voir dans l’industrie de l’IA.

Cyrille Chaudoit : Ça va parler à tous les IT.

Mick Levy : Tous ceux qui nous suivent. Il y a des licences, des contrats finalement, qui régissent les différents usages, ce qu’on peut faire des différents logiciels qui sont mis en open source. Tu en as cité quelques-uns assez connues. La question qui se pose, du coup, c’est que ces contrats ont été faits à l’époque de Linux, à l’époque du logiciel on pourrait dire classique. Ne faudrait-il pas réviser ces contrats à l’époque de l’IA ?, c’est finalement ce que tu étais en train de nous dire.

Giada Pistilli : Exactement. Après, je ne suis pas du tout spécialiste côté juridique, mais ce que je vois, en tout cas aussi d’un point de vue un peu plus éthique, c’est qu’on commence à voir de nouvelles licences qui se créent et surtout des licences par exemple commercial/non commercial. On a le code, on a le poids, on a les données, mais par exemple, pour le dire de façon simple, on ne peut pas construire de produits autour de ces nouveaux modèles d’IA parce que la licence ne le permet pas. En fait, il y a plein de nouvelles contraintes, il y a plein de nouveaux risques, il y a plein de nouveaux cas d’utilisation de ce type de licence qui se créent autour de ces nouvelles ??? [15 min 29].

Cyrille Chaudoit : Il y a effectivement des sujets sur le terme, mais il y a également le mode de fonctionnement de l'open source. Souvent on entend « si c’est gratuit c’est toi qui es le produit », que je n’aime pas trop parce que, justement, ça dévalorise un peu toutes ces notions open source qui sont plutôt communautaires. Dans l'open source, le principe c’est que ça reste gratuit, du coup, comment arrivez-vous à vous rémunérer chez Hugging Face ?

Giada Pistilli : C’est la question qu’on nous pose eu premier, c’est aussi une question tout à fait légitime. Souvent, on se dit que dans l'open source il n’y a pas d’argent. J’ai envie de dire que la tendance qu’on est en train de remarquer maintenant, surtout sachant qu’il y a aussi des Big Tech qui commencent à faire le pari de l'open source, notamment Meta qui, jusqu’à il y a un an et demi, deux ans, n’était pas particulièrement fan de cette philosophie, maintenant ils commencent à avoir une approche de plus en plus ouverte. Nous, notamment chez Hugging Face, déjà, on permet aux entreprises d’avoir accès à notre hub, la plateforme Hugging Face qu’on appelle le hub de manière privée. Je vous ai parlé des ??? [16 min 39] que sont ces applications. Une question que vous pouvez potentiellement vous poser c’est : OK, mais pour faire tourner une application d’intelligence artificielle, il faut énormément de puissance de calcul, énormément de GPU.

Mick Levy : Du coup, comment vous la financez ?

Giada Pistilli : Soit vous avez une option de base, en effet gratuite, soit vous payez l’option pro, par exemple, et c’est vraiment juste vous en tant qu’utilisateur : vous payez mensuellement l’accès à des clusters pour que vous puissiez faire un upgrade, on va dire, de vos applications, pour qu’elles aillent plus vite.

Mick Levy : En fait, ça fait penser au modèle freemium : avec le gratuit tu as accès à la base, ça permet de faire connaître la plateforme au plus grand nombre et puis, quand on a besoin, il faut aller sur des modèles payants.

Cyrille Chaudoit : En termes de business modèle, en tout cas position de valeur monétisée, c’est cette partie hébergement, accès, forme de location de puissance GPU que vous mettez à disposition.

Giada Pistilli : Ce n’est pas tout. Ce n’est qu’une des trois verticales. La deuxième, en effet, on a pas mal de « OK, mais nous comment a-t-on accès à cette puissance de calcul ? » Je réponds à la question : on a des partenariats avec des entreprises de hardware, avec qui, justement, on travaille au quotidien. On les aide. On a, par exemple, une équipe dont je suis très fan au sein de Hugging Face, dont on ne parle pas assez, c’est l’équipe Optimisation. Comme le mot l’indique, elle essaie d’optimiser le plus possible des modèles d’IA pour qu’ils consomment de moins en moins d’énergie, pour qu’ils soient le plus optimisés possible sur, par exemple, des GPU ou CPU en particulier. Ce sont justement des travaux qu’on mène avec les entreprises mêmes qui nous fournissent leur matériel, pour que ça puisse bien tourner sur leurs machines, pour que ça soit compatible le plus possible. Je ne vais pas rentrer dans les détails techniques, mais à chaque fois, plus on descend de niveau, plus, évidemment, on a des langages qui appartiennent à ces machines-là, etc., donc il y a une collaboration étroite. Eux nous fournissent du GPU, en gros, et nous les aidons à intégrer un peu mieux des transformers ou d’autres choses.

Cyrille Chaudoit : Ça fait partie de vos partenaires clés. Si on parle de clients, qu’ils soient payants ou non payants, en tout cas les utilisateurs de votre plateforme, que ce soit pour venir chercher des jeux de données ou des modèles en tant que tel, qui sont-ils exactement ? Plutôt des indépendants ? Plutôt des petites boîtes qui cherchent à faire des pokes, etc. ? Ce sont des grosses boîtes, les Big Tech aussi ? Qui est-ce ?

Giada Pistilli : J’en viens à la troisième verticale de notre revenu, qui est peut-être le plus gros de nos revenus : on a des partenariats avec des entreprises qui ont des projets d’IA, qui ont souvent des équipes en interne, mais qui ont besoin d’accompagnement, donc, on les accompagne. On a toute une équipe dédiée, ce sont, en gros, des ingénieurs en machine learning, qui font aussi de l’accompagnement client, pre-sales, sales et post-sales. C’est à ce moment-là, ou en abordant les contrats à long terme, qu’on les aide sur des projets précis. On les aide à développer leur propre outil open source sur je sais quelle utilisation en particulier. En gros, on accompagne les équipes au jour le jour. C’est la partie un peu moins scalable, on va dire, mais c’est celle qui nous fait gagner le plus d’argent aujourd’hui. Ce sont souvent des grands groupes, pas vraiment des petits.

Cyrille Chaudoit : Petite question ultra courte, justement sur ces partenariats que vous signez avec ces entreprises : ne vous influencent-elles sur les orientations à donner ou restez-vous vraiment open et assez libres ?

Giada Pistilli : En fait, ça n’a aucun impact sur notre propre roadmap, j’ai envie de dire, parce qu’on reste une plateforme. Je pense que le gros avantage d’être plateforme, c’est qu’on ne fait pas la même course, par exemple qu’un OpenAI ou une autre entreprise qui développe des produits. Notre produit c’est la plateforme, donc, tant qu’on peut rendre heureux à la fois l’utilisateur de 18 ans qui sort d’école et qui a envie de tester gratuitement son modèle, de faire sa propre application, et un gros client, de toute façon on a les mêmes fins, donc ça ne change absolument rien, au contraire. Peut-être que je ne l’ai pas mentionné, mais nous sommes aussi le maintener, je ne connais pas le mot français pour ça, mais la plus grande librairie open source qui existe, sur laquelle, d’ailleurs, sont entraînés la plupart des modèles aujourd’hui, les transformers, ce qui, en gros, correspond au « T » dans ChatGPT.

Mick Levy : Avec tout ça, c’est l’heure de retrouver Virginie Martins de Nobrega pour un nouveau débat en technocratie.

 « Débats en technocratie » par Virginie Martins de Nobrega 20’ 55[modifier]

Mick Levy : Quand les promoteurs de l’IA, d’ailleurs desquels je suis, rappelons-le, essaient de se racheter une conscience, ils font appel à une débauche de terminologies marketing : IA éthique, IA responsable, IA for good. Au final, est-ce que tout cela ne dit pas un petit peu la même chose ?

Virginie Martins de Nobrega : Ces IA ont des correspondances, elles ont des qualités différentes et elles touchent des utilisateurs différents.
Il ne s’agit pas, à proprement à parler, de catégories jurées, je dirais plutôt que ce sont des ensembles et des sous-ensembles qui ont des approches et des finalités différentes, donc aussi, parfois, des règles juridiques différents.
Un premier ensemble, très générique, regroupe l’ensemble des IA, que ce soit de la recherche et développement, de la recherche fondamentale ou diverses applications.
Une deuxième sous-catégorie, qui est venue assez rapidement, est l’IA éthique ou l’IA éthique et responsable, qui vise des systèmes, des applications qui sont conçues, développées et idéalement déployées avec une réflexion éthique et orientée droit de l’homme. Ces applications touchaient généralement le B to B et le B to C et, de plus en plus, touchent le citoyen, avec la digitalisation des services publics, des gouvernements et aussi des applications impactant la vie citoyenne. S’agissant de ce dernier point, je pense que l’exemple le plus frappant, surtout en 2024 – tu sais que la moitié du monde est appelée à voter, donc à utiliser des interfaces de plus en plus digitales et l’utilisation des IA aussi lors des élections et des campagnes. Il y a des campagnes d’influence de citoyens, avec le microtargeting, en fonction de leurs croyances et de leurs idées politiques, soit pour les renforcer, soit pour les amplifier. Il y a des campagnes de désinformation. Il y a aussi les deepfakes utilisés dans les spots et les campagnes.

Mick Levy : Avec tout ça, que nous reste-t-il pour les IA for good ?

Virginie Martins de Nobrega : Le dernier sous-groupe, qui est plus restrictif, qui est aussi plus intéressant et plus challengeant, parce qu’il a une double finalité je dirais : ce sont des applications qui sont orientés vers un ou plusieurs des 17 objectifs du développement durable et qui ont un process éthique et droits de l’homme by design.
En 2022, on estimait que ça pouvait correspondre à peu près à 134 objectifs du développement durable, mais, pour l’instant, il y a un sous-investissement et on estime qu’ils sont financés à moins de 10 % de l’investissement total au niveau mondial.

Mick Levy : Pas encore ! Bon ! Mais comment fait-on pour être IA for good ? Ça se décrète ? Il suffit de le dire ?

Virginie Martins de Nobrega : Je distinguerais trois choses.
Au niveau opérationnel, d’abord, il y a des principes directeurs qui existent, qui sont là pour accompagner cette démarche tournée vers les ODD, avec une éthique by design, un droit de l’homme by design, que ça soit de l’idéation au déploiement de l’IA ; on peut trouver ça par différents groupes, notamment au niveau des Nations Unies, mais également au niveau de groupes de réflexion.
Au niveau éthique et gouvernance, une question est systématiquement poussée par les différentes agences et organisations internationales soit dans des recommandations et des rapports, notamment par l’envoyé spécial à la technologie et, je trouve que dans son dernier rapport intérimaire, il y a cinq principes qui peuvent être intéressants à retenir, en tout cas qui sont en gestation au niveau international : les IA doivent être conçues de façon inclusive ; pour le bien commun et l’intérêt général, donc là on retrouve la troisième catégorie de l’IA for good ; avec une gouvernance qui doit aussi se mettre en phase avec la gouvernance des données, ce qui est, en fait, au niveau technique un peu une lapalissade, mais qui n’était pas là dans les discussions jusqu’à l’heure actuelle ; et on doit promouvoir également les biens communs de données.
Ensuite, au niveau juridique, le droit international s’applique toujours et encore, qui doit être respecté. Il y a aussi une généralisation du principe humanitaire do not a digital arms qui veut dire ne pas causer de préjudice lorsqu’on développe ou qu’on déploie une application.
Les discussions du moment sont désormais sur le cadre d’analyse des risques. Je dirais que la question qu’on se pose à l’heure actuelle au niveau international et au niveau réglementaire, c’est comment inciter les investissements et comment faire que l’IA et l’innovation soient orientées vers des besoins, notamment les objectifs du développement durable. C’est une question qui reste assez ouverte sur la table des négociations.
La question, finalement, est toujours un peu la même : pour qui développe-t-on ces systèmes d’IA et comment on le fait ? En fait, c’est là qu’on retombe sur la dernière catégorie qui est l’IA for good : est-ce qu’on le fait pour les objectifs de développement durable ? Est-ce qu’on le fait pour le bien commun ? Est-ce qu’on le fait avec éthique, et aussi en respectant les droits de l’homme et le droit international ?

Voix off : Trench Tech, Esprits critiques pour Tech Éthique.

Une morale sous contrainte 24’ 47[modifier]

Cyrille Chaudoit : Eh bien merci Virginie.
Dans de nombreux épisodes nos invités constatent que beaucoup de monde parle d’éthique mais que, tant que la peur du gendarme ne fait pas son œuvre, par exemple avec un cadre réglementaire contraignant, ça reste souvent des paroles en l’air. C’est d’ailleurs aussi notre constat, Mick, Thibaut et moi-même qui conseillons des entreprises depuis de nombreuses années. D’ailleurs, c’est ce qui nous a poussé à créer Trench Tech.
Giada, ton doctorat t’a menée à travailler au sein d’un laboratoire de recherche en sciences, normes démocratie. Nous allons tenter de décrypter l’articulation entre technique, éthique et droit.
Est-il vraiment réaliste, Giada, d’attendre des boîtes privées une démarche éthique, disons volontaire, quand elles veulent mettre sur le marché de nouveaux produits et créer de nouveaux usages le plus rapidement possible, coucou Sam Altman, en novembre 2022.

Giada Pistilli : C’est marrant que tu nommes Sam Altman alors qu’ils ont une équipe de sécurité parmi les plus grandes et les plus importantes qu’on produit. Je pense que la grande question qu’il faut qu’on se pose c’est : est-ce qu’on peut, en effet, répondre à ce genre de questions et avoir, par exemple, un produit qui est 100 % éthique dans le milieu dans lequel la technologie voyage aujourd’hui, sachant qu’il y a la bulle spéculative surtout autour de l’IA, un peu comme il y a eu dans les débuts d’Internet, dans les années 70/80/90. C’est la grande question qu’on se pose. Je n’ai pas de réponse définitive parce que, encore une fois, je pense que ça dépend vraiment du cas par cas. J’ai eu vraiment de la chance, avant de travailler chez Hugging Face, j’ai travaillé pour une entreprise parisienne qui était beaucoup plus petite, qui développait des chatbots. Pareil, j’ai été embauchée aussi en tant que chercheuse en éthique, je travaillais à la recherche et développement et j’avais vraiment mon mot à dire. Pareil chez Hugging Face, et ce n’est pas pour apporter de l’eau à mon moulin, comme on dit en italien, mais je suis vraiment écoutée alors que j’ai aussi des retours d’expérience de collègues qui ont le même profil que moi, qui ont fait les mêmes études, qui travaillent aussi, qui sont intégrés dans des entreprises, qui, au contraire, ne sont pas trop écoutés.

Mick Levy : Aurais-tu un exemple concret, Giada ? Pardon de te couper. On dit bien en français aussi « l’eau au moulin », mais on ne le dit pas avec un accent aussi savoureux ! Est-ce que tu aurais un exemple concret ? Tu dis que tes recommandations éthiques ont été écoutées au sein de Hugging Face. As-tu un exemple concret qui te vient en tête ?

Giada Pistilli : Déjà, je suis en charge de la modération de contenu ! Évidemment, je consulte l’équipe légale, on y viendra, mais une articulation très importante se fait entre équipe et droit, mais c’est moi qui réfléchis à des questions assez complexes du genre qu’est-ce que c’est que du contenu sexuel, quel type de contenu faut-il qu’on héberge sur notre plateforme, pour quelles raisons, quelles sont les valeurs qui guident ça ? C’est une réflexion que j’ai, aujourd’hui on me fait confiance et je suis écoutée.

Mick Levy : Quand tu parles de contenu sexuel, c’est dans les datasets que tu peux retrouver du contenu sexuel ? Ça peut être ça ?

Giada Pistilli : Ça peut aller dans les trois catégories que je vous ai cités, parce qu’on peut faire un modèle qui en génère. Je ne sais pas si c’est mieux ou si c’est pire que d’en avoir juste dans les datasets, pour avoir une application concrète, donc un space qui génère ce type de contenu, qui n’a pas de filtre de contenu, qui n’a pas une sorte de tag qui indique aux utilisateurs qu’ils peuvent avoir ce type de contenu aussi.
Et puis, quand on parle de contenu sexuel, il faut identifier celui qui est demandé, donc explicite dans le sens où c’est l’utilisateur qui le demande, en espérant qu’il soit majeur, sinon il y a des problèmes légaux. Il y a aussi le ???[28 min 30], dans le sens où on essaie de générer du contenu, évidemment le plus visuel ce sont des images, les vidéos, mais ça peut être aussi du contenu sexuel sur du texte, genre un échange très chaud et c’est sans la sollicitation de l’utilisateur. Des cas comme ça peuvent arriver et, à mon sens c’est encore plus grave, parce que c’est une personne qui ne l’a même pas demandé. Donc, on met ce genre de contenu devant les yeux de quelqu’un qui ne s’y attend pas, peut-être un mineur.

Mick Levy : Comment définis-tu ces règles, Giada ? On en parle beaucoup et la Silicon Valley est très souvent attaquée là-dessus : ils définissent finalement leurs propres règles de modération, qui correspondent très souvent une vision un peu americano-centrée, parfois woke pour certains. Du coup comment définissez-vous ces règles – là ?

Cyrille Chaudoit : Sur les questions sexuelles, très prudes, parce que moi plus d’une fois je me suis fait bouler des prompts sur GPT, un refus d’obstacle, et tu ne sais absolument pas ce qui bloque dans le prompt. Il y a aussi cette remarque à l’inverse.

Mick Levy : Comment définis-tu ces règles ? Est-ce que le fait que Hugging Face soit une plateforme française, en tout cas à l’épicentre français, sur laquelle vous portez une attention particulière à l’éthique, donne une autre saveur de règles que celles qu’on peut avoir sur les plateformes américaines.

Giada Pistilli : Je pense que déjà d’avoir mis au ??? [29 min 52] ces questions, on essaie de creuser encore plus. Là où on est arrivé maintenant, c’est que, en fait, on fait tourner tout ça autour de la valeur du consentement. C’est ce que je disais : déjà, est-ce qu’il y a eu consentement ? Par exemple si c’est un deepfake, il n’y a pas eu le consentement pour utiliser l’image d’une femme ou d’un homme, de n’importe quelle personne, qui est utilisée et que c’est du contenu qui devient sexualisé, pour le coup, ce n’est pas OK. Dans le même sens, et je rejoins complètement Cyrille, c’est le même raisonnement que nous avons eu : on n’a pas envie d’être aussi prudes, parce qu’il y a aussi des cas d’utilisation, et je pense que c’est aussi le gros avantage d’être proches de la communauté dans le sens où nous sommes à son service, nous sommes vraiment impliqués dans les conversations qui ont lieu.
Au tout début des modèles de diffusion, rappel ???, ???, [30 min 40] modèles de génération d’images qui sont basés sur l’architecture qui s’appelle de diffusion, on s’en fiche, en tout cas au tout début, quand ils ont commencé à être un peu à la mode et qu’on a créé énormément d’applications autour de ça, on a eu des retours d’utilisateurs qui nous disaient « moi, je suis un artiste, il m’arrive de créer de l’art érotique, je n’ai pas envie d’avoir un modèle qui, à chaque fois qu’il y a un sein ou un bout de jambe, va, d’un coup, tout bloquer. »

Cyrille Chaudoit : C’est le problème de L’origine du monde sur Facebook il y a quelques années.

Mick Levy : C’est là où on est typiquement dans la vision de la Silicon Valley, parfois trop prude.

Giada Pistilli : Exactement. D’ailleurs, j’avais lu un autre exemple de Meta, ça m’avait aussi un peu choquée, après, vous direz que c’est très difficile de faire la part des choses, mais c’est là où on ne peut pas tout automatiser. J’avais lu le cas d’un père dont l’enfant avait eu un problème, une infection sur le sexe. Il avait pris des photos à envoyer à son médecin, à son pédiatre. Il s’est fait bloquer son compte Google, parce que ça avait téléchargé ces photos automatiquement sur Google Drive, il s’est fait bloquer son compte pendant très longtemps, il a même risqué un procès pour pédophilie alors que c’était pour des raisons médicales.

Cyrille Chaudoit : J’en avais entendu parler, ça me rappelle quelque chose.

Mick Levy : Donc, vous avez su mettre en place des règles qui pallient à ça.

Giada Pistilli : On n’a évidemment pas de baguette magique et je n’ai pas envie de dire que nous sommes parfaits, parce qu’on peut toujours s’améliorer. En tout cas, on essaye de réfléchir à ces questions autour de valeurs qui essaient de faire la part des choses, qui essaient de nuancer tout ça. C’est pour cela que je disais qu’on a une approche qui essaie d’analyser, surtout quand on a des cas qui ne sont pas vraiment noirs et blancs ; on essaie vraiment d’apporter un regard plus étendu, on échange entre nous. Notamment, sur le contenu sexuel, à terme on veut aussi contacter des associations qui travaillent sur ce type de sujet, à la fois sur des violences sexuelles, mais on est aussi en contact avec des communautés d’artistes, des gens qui font une utilisation qui n’a rien de mauvais dans le sens un peu philo, morale, du terme dans ce genre d’utilisation, pour un peu contrebalancer. Donc, on cherche toujours à évoluer. Mais, encore une fois, ça peut aussi évoluer dans un sens ou dans l’autre, peut-être qu’on fera des erreurs, il n’y a pas de soucis, je pense que l’important c’est d’être dans le dialogue.

Cyrille Chaudoit : J’en viens deux secondes à la question de départ, puisque le but c’est de faire un peu parallèle dans ce triptyque entre l’éthique, la technique et le droit. Quand tu nous as donné ton exemple, tout à l’heure, de la première boîte dans laquelle tu as bossé, où tu étais écoutée, cette boîte qui faisait des chatbots. Aujourd’hui, tu es écoutée, ce n’est pas forcément le cas dans toutes les entreprises, elles n’ont pas toutes une équipe d’éthiciens et d’éthiciennes, etc. In fine, quel est le sujet c’est plus la technique ou c’est plus le business qui a besoin d’être encadré par une équipe d’éthique ? Parce qu’on a tendance à dire « la technique n’est ni bonne ni mauvaise, c’est l’usage que l’on en fait » et puis on entend aussi l’inverse, c’est-à-dire qu’elle est porteuse d’une idéologie, bien souvent politique, l’idéologie de celles et ceux qui la font. Où est le problème si les chefs d’entreprise, les innovateurs n’ont pas d’intentions malveillantes à la base, quand ils veulent mettre un produit sur le marché ? C’est plutôt le business qui manque d’éthique, entre gros guillemets, « by design » ou c’est la technique en elle-même ?

Giada Pistilli : C’est aussi une grande question. Je pense, comme avant, que ça ferait un beau sujet de dissertation. J’extrais un peu tout de ta question.
C’est vrai, je pense qu’on a compris et je suis sûre que vous en avez déjà discuté auparavant, pas juste avec moi, mais avec d’autres collègues : la technologie, la technique n’est pas neutre, elle est politique. Là où la question est complexe c’est que ça ne dépend pas juste de l’utilisation, mais ça ne dépend pas juste non plus des intentions, parce que si je vous mets devant un dilemme genre le fameux dilemme du trolley et on peut aller même beaucoup plus loin en se demandant si la fin justifie les moyens ; moi j’avais des bonnes intentions. J’ai un exemple sur les réseaux sociaux. J’avais vu, je ne sais pas si vous l’avez vu, un documentaire qui est sorti il y a trois quatre ans, The Social Dilemma, qui est d’ailleurs disponible sur Netflix aussi.

Cyrille Chaudoit : Un petit coucou à Emmanuel qui a fait une chronique sur ce sujet-là.

Giada Pistilli : Super. Coucou Emmanuel.
Un passage m’a beaucoup marquée. Le développeur qui était derrière le petit cœur du like de Facebook disait « mon intention, c’était de partager le bonheur, de partager à l’amour, le fait d’aimer quelque chose », donc ça partait d’une bonne intention d’un point de vue moral, mais derrière, ça a eu des conséquences sur les plateformes. Je ne suis pas sur Facebook, je sais pas comment ça marche, mais, sur Instagram par exemple, ils ont été obligés d’effacer le nombre de « j’aime », parce qu’il y a eu toute une nouvelle génération de très jeunes, des adolescents, notamment des femmes adolescentes, dont l’auto-estime était basée sur le nombre de likes. Donc est-ce qu’on peut juger par les intentions ? Pas trop ! Il y a des limites.

Cyrille Chaudoit : On peut juste ajouter à ton anecdote qui est qui effectivement croustillante, et si vous n’avez pas encore vu ce documentaire, regardez-le, The Social Dilemma, Nos écrans de fumée en français. Après le cœur de Facebook ils ont quand même aussi sur-pondéré le dislike dans leur algorithme.

Mick Levy : Le dislike, c’est la réaction énervée.

Cyrille Chaudoit : La réaction un peu un peu colérique, comme quand je vois Mick qui voit le chrono qui tourne un petit peu trop. Thibaut.

Thibaut le Masne : J’ai toujours une question. Ce qui m’interroge dans ce milieu-là, c’est l’arrivée de l’éthique dans une entreprise. Dans les sujets d’IA, on a l’impression que l’éthique arrive, on va dire presque, naturellement, mais qu’est-ce qui fait que l’éthique arrive au cœur de votre entreprise ? Est-ce que c’est un souci légal, un souci moral, un souci juridique ? Comment arrive-t-on à embaucher, dans une entreprise, des gens sur l’éthique ?

Giada Pistilli : Déjà, je dois dire que l’éthique appliquée, ce n’est pas quelque chose de nouveau, qui est né avec l’IA. Ça existe depuis super longtemps, ça remonte à peu près aux années 60 du 20e siècle aux États-Unis où on a commencé à avoir des réflexions par exemple autour de l’euthanasie, du suicide assisté, de la GPA, l’avortement, etc., on s’est dit « ce sont des questions où une réflexion philosophique serait peut-être pas mal ». D’ailleurs, comme le dit aussi Daniel Andler dans son dernier livre sur l’intelligence artificielle, qui est très bien. Il ne me paye pas pour faire de la pub, mais je l’ai lu, il est très bien.

Cyrille Chaudoit : Vas-y, on adore les bibliographies, on en a besoin. Redonne-nous le titre.

Giada Pistilli : C’est Intelligence artificielle, intelligence humaine : la double énigme.

Cyrille Chaudoit : Daniel Andler, on mettra le lien.

Mick Levy : On a fait des big ups à Emmanuel, à Daniel Andler et à l’équipe Optimisation.

Giada Pistilli : Ça fait beaucoup tout ça ! Moi, j’aime bien rendre hommage.
Quand on parle d’éthique appliquée, surtout quand on parle d’éthique appliquée à l’IA, on a souvent tendance à l’associer, justement, au premier métier de bioéthicien. Aujourd’hui, est-ce qu’on se poserait autant de questions sur les bioéthiciens ? On se dit juste qu’il y a un comité éthique, qu’il faut réfléchir à la question de la modification génétique, notamment, c’est une évidence, il nous faut des éthiciens. Ou alors, je suis étudiant en médecine, je dois faire des tests et des expériences sur des sujets humains ; il nous faut des experts en éthique, c’est une évidence, il nous faut un comité éthique pour nous conseiller sur cela. C’est un peu plus automatique, peut-être parce qu’on a plus l’habitude, et j’imagine, en tout cas j’espère que ce sera la même chose pour des métiers comme le mien dans le futur.
Je reviens un instant à la bibliographie que j’ai citée avant, on ne peut pas comparer la médecine à l’intelligence artificielle, parce que la médecine, intrinsèquement, sert à soigner des gens.

Cyrille Chaudoit : Même si l’IA est très utilisée en médecine, il faut le rappeler, en pharma aussi.

Giada Pistilli : Oui, mais intrinsèquement on ne peut pas dire qu’elle sert à résoudre des problèmes, parfois elle en crée.

Cyrille Chaudoit : Elle peut en créer. Nous ne sommes pas tout à fait techno-solutionnistes, mais il faut quand même dire qu’elle contribue aussi à résoudre quelques-uns de ces sujets. Tu fais bien de parler de santé, de bio. J’avais envie de te questionner sur la pharma. Finalement, si c’est plus là la peur du gendarme qui fait bouger beaucoup d’entreprises parce que, à un moment donné, il y a un cadre réglementaire, une loi, un IA Act entre autres, plutôt qu’une dimension éthique de fait, alors pourquoi est-ce que, dans l’univers de la techno, on ne fonctionne pas comme dans l’industrie de la pharma, par exemple avec des contrôles avant autorisation de mise sur le marché d’une nouvelle techno ?

Giada Pistilli : C’est une bonne question, d’ailleurs il y a pas mal de gens qui y réfléchissent. J’ai envie de dire que là où je l’ai entendu le plus c’est surtout aux États-Unis et, petit Post-it, c’est là où, peut-être, ça me fait un peu plus peur. Je ne sais pas si on a envie d’avoir une organisation soit-elle internationale ou nationale qui nous dit ce qu’il faut qu’on fasse, ce qu’il faut déplace, ce qu’il faut qu’on crée ou pas, donc qui ait vraiment le dernier mot. Là où ce serait peut-être utile et, de toute façon, c’est quelque chose qu’on commence déjà un tout petit peu, timidement j’ai envie de dire, à voir notamment en UE avec l’IA Act, ce sont des petites régulations qui commencent à apparaître petit à petit. Je pense qu’on est encore dans la phase de création, je le vois au quotidien avec mes collègues machine learning et ingénieurs : parfois il y a des choses qui ne marchent pas, qu’ils vont juste tester et quand ça marche, au moment où ça marche, qu’ils vont déployer. C’est là où je me dis que le travail d’un l’épistémologue, donc un philosophe des sciences, qui va aller suivre de près le travail qui se fait en machine learning, c’est compliqué parce qu’on est vraiment dans une histoire, j’imagine que vous l’avez répété longuement, qui est vraiment très intéressante, une histoire du machine learning parce qu’il s’est passé beaucoup de choses pendant une période ; il ne s’est rien passé pendant une longue période, maintenant il s’en passe beaucoup trop, c’est donc aussi compliqué de faire la part des choses.
Il y a aussi des gens qui suggèrent que la démocratie devrait aller plus vite, d’ailleurs je ne sais plus qui, sur Twitter, a retrouvé un passage où on disait à un moment, je sais plus où, « il faut absolument que la démocratie aille plus vite pour faire en sorte qu’elle soit au même pas de vitesse que la technologie ». Désolée, je ne suis pas d’accord. Si la démocratie est lente, c’est parce qu’elle a besoin d’avoir un process qui est lent. En démocratie, on n’est pas tout le temps d’accord, c’est le principe même de la démocratie. Donc l’idée, ce n’est pas à tout le monde, à tout le reste de la société de s’adapter à l’IA.
Je pense, en tout cas mon pronostic de boule de cristal, c’est de dire qu’à un moment on va se calmer, on va juste faire ce qu’on a à faire et on trouvera plein de cas d’applications super intéressants avec ce qu’on a aujourd’hui, mais, pour l’instant, on est encore dans une phase très créative. En tout cas, je vois mal qui aurait vraiment la légitimité de dire « ça tu peux déployer ». D’ailleurs, ça me fait repenser aux normes. Je sais pas si vous avez vu : il y a quelques semaines, le gouvernement avait dit que pour tout nouveau déploiement d’IA il fallait passer par le gouvernement. Cela a créé un scandale incroyable à l’international, ils sont revenus sur ça au bout de quelques semaines, ils l’ont retiré.

Cyrille Chaudoit : Des choses à débattre probablement dans les mois et les années à venir. En tout cas, nous aussi nous allons un peu calmer le jeu. On va faire une petite pause. On va rester dans le domaine de la morale, même des machines morales avec « La Tech Entre les Lignes » de Louis de Diesbach.

La Tech Entre les Lignes – « L’expérience de la machine morale », Louis de Diesbach 42’ 15[modifier]

Cyrille Chaudoit : Salut Louis. Aujourd’hui, on va parler d’une expérimentation à grande échelle.

Louis de Diesbach : Même à très grande échelle. Près de 40 millions de répondants à travers quasiment tous les pays du monde, y compris l’Italie, donc un petit coucou à Giada.
C’est l’exploit qu’ont réalisé quatre chercheurs, notamment du MIT, mais aussi de l’Université de Toulouse, pour leur projet de Moral Machine experiment dont ils feront un article éponyme dans la très prestigieuse revue Nature.

Cyrille Chaudoit : Très bien. Quelle est cette expérience d’une machine morale ?

Louis de Diesbach : Les chercheurs se posent la question des véhicules autonomes : comment leur indiquer l’option à choisir quand ils font face à un accident inévitable, un peu comme le dilemme du tramway dont j’avais déjà parlé, que choisir ? Ils ont donc créé une sorte de petit jeu, d’ailleurs toujours disponible en ligne, dans lequel les utilisateurs doivent choisir entre deux situations pour indiquer ce qu’on pourrait appeler leur préférence morale, en quelque sorte. La machine génère des scénarios d’accident en distinguant neuf facteurs : épargner des humains plutôt que des animaux, des hommes plutôt que des femmes, des jeunes plutôt que des vieux, des personnes en bonne santé plutôt que des obèses, des riches plutôt que des pauvres, les passagers de la voiture plutôt que des piétons et les individus qui traversent quand le feu est vert plutôt que ceux qui enfreignent la loi.

Cyrille Chaudoit : Ce jeu est horrible ! Ce serait comme me demander de choisir entre Mick et Thibault ! Blague à part, ça fait sept, ça ne fait pas neuf, je suis désolé !

Louis de Diesbach : Je vois que tu suis, c’est très bien ! Ils ajoutent à cela deux facteurs : la question du nombre de vies sauvées, un peu comme avec le tramway, et la question de l’action : laisser la voiture aller tout droit plutôt que la faire dévier, toujours comme le tramway. Le moins qu’on puisse dire, c’est que ça donne des résultats hyper intéressants qui donnent aussi envie de s’arracher les cheveux.

Cyrille Chaudoit : Non ! Pas ça ! J’en ai déjà plus beaucoup ! Pourquoi s’arracher les cheveux ?

Louis de Diesbach : Parce que les gens sont pas du tout d’accord. Il y a quand même quelques consensus qui émergent : d’abord épargner plutôt les humains que les animaux, les jeunes plutôt que les vieux, et puis la loi du nombre : plus on sauve, mieux c’est. Mais l’étude montre autre chose que je trouve absolument fascinant : notre culture joue un rôle déterminant dans nos choix. Je m’explique : les répondants peuvent, en gros, être catégorisés en trois grands clusters, trois grandes catégories : le cluster ouest, Amérique du Nord et une grande partie de l’Europe ; le cluster est, les pays bouddhistes, confucianistes et musulmans ; et le cluster sud, les pays d’Amérique latine, la France et les pays qui ont subi l’influence française. Et ces clusters, bien que d’accord avec les grandes lignes, les trois consensus dont j’ai parlé avant, divergent complètement sur le poids donné à chaque critère.

Cyrille Chaudoit : J’écoute. Aurais-tu un exemple ?

Louis de Diesbach : Bien sûr. Par exemple, dans les pays du cluster est, la propension à sauver les plus jeunes par rapport aux plus vieux est bien plus faible que dans les deux autres clusters ; ou encore, dans le cluster sud, la préférence à l’inaction, donc laisser le véhicule suivre sa trajectoire, est bien plus faible que pour l’est et pour l’ouest.

Cyrille Chaudoit : Pourquoi est-ce fascinant ?

Louis de Diesbach : Parce que ça montre, en tout cas dans l’esprit des gens, qu’il n’y aurait pas une éthique mondiale, une sorte d’idée platonicienne de la morale, que donc les concepteurs de la tech devront naturellement prendre en compte la culture et les origines de chacune et de chacun. Mais ça veut aussi dire que c’est par la discussion et l’échange qu’on pourra poser des normes éthiques, trouver un consensus et ça, c’est justement l’apanage des humains.

Voix off : Trench Tech, Esprits critiques pour Tech Éthique.

L’IA, notre nouvelle caverne 45’14[modifier]

Thibaut le Masne : Merci Louis pour cette belle chronique.
Alors, l’IA en général, nous offre une vision du monde basée sur les données collectées. L’IA générative, en particulier, a, dans ses fonctions premières, de générer de la donnée plus que de donner une vérité. Nous pouvons également ajouter dans cet univers les fameuses données synthétiques, des données qui ne sont pas issues donc de cette réalité, ça c’est pour les concepts. Avec l’engouement autour de ChatGPT, nous avons une tendance qui devient presque systématique à nous tourner vers des IA génératives lorsqu’un problème nous fait face ; je ne dis pas ça pour toi, Cyrille, qui demandes à ChatGPT de faire tes introductions.

Cyrille Chaudoit : Mais l’ordure !

Mick Levy : C’est gratos ! Il ne l’a pas vu venir.

Thibaut le Masne : Ça, c’est pour nos pratiques. Giada, a-t-on raison de penser que lorsque nous utilisons des IA génératives comme Cyrille cela peut, au fur et à mesure, influencer notre vision du monde ?

Mick Levy : Question sérieuse malgré les rires qui vont autour parce que Cyrille ne se remet pas de l’attaque !

Giada Pistilli : Complètement. D’ailleurs, c’est bien justement ce que disait aussi à Louis, parce que c’est vrai qu’on a tendance à créer ce genre d’outil, ce genre de produit, et de les appliquer, de les utiliser de manière universelle, quant à la vision du monde mais aussi le type de langage utilisé. Là, on a parlé de ChatGPT, donc, évidemment, on s’exprime en langage naturel, mais même n’importe quel autre modèle, par exemple de génération d’images, de génération de vidéos, pareil, on est quand même obligé de donner un input en langage naturel, il y a donc une espèce de chose qui se fait par défaut qui est de le déployer partout dans le monde. De toute façon, on connaît la question des biais des données depuis très longtemps, elle n’est pas du tout résolue aujourd’hui. Donc, on va perpétuer une image du monde qui appartient à une catégorie spécifique, qui est celle, justement, sur laquelle ces données ont été entraînées. D’ailleurs, j’ai envie d’ajouter que ce n’est pas juste une question de données aujourd’hui, parce qu’on sait qu’on utilise des nouvelles techniques type apprentissage par renforcement. Par feed-back, bref ! Ça, et aussi, d’ailleurs, par intelligence artificielle. Ça veut dire en gros, pour le faire très simple, que les humains ou les IA sont obligées de choisir entre réponse A et réponse B, parfois, d’ailleurs, même ChatGPT le fait. Si jamais on vous propose « est-ce que c’est mieux la réponse 1 ou la réponse 2 », vous êtes aussi en train d’aider l’apprentissage, à ce moment-là, c’est justement aussi ça qui va influencer la vision du monde que la machine va reproduire.

Mick Levy : Du coup, est-ce que les créateurs de ces IA, les créateurs de GPT, par exemple, qui est derrière ChatGPT, peuvent influencer la vision du monde qu’ils vont vouloir amener soit par l’apprentissage par renforcement humain, comme on le disait, d’ailleurs par les clicworkers qui sont généralement derrière, soit par les données qui sont choisies par l’entraînement, soit par les poids, les différents paramètres qu’ils entrent dans le fonctionnement de l’IA ?

Giada Pistilli : J’imagine que le degré d’influence dépend aussi du degré de confiance que l’utilisateur va octroyer à la machine, mais c’est clair qu’ils ont un pouvoir là-dedans, c’est sûr. D’ailleurs, j’avais rédigé un papier notamment sur cette question, par rapport à GPT 3, qui est un peu le prédécesseur de GPT 3.5, GPT 4 aujourd’hui, les dinosaures par rapport à ce qu’on a aujourd’hui, c’est vraiment la préhistoire par rapport à aujourd’hui. Nous avons été impressionnés en 2020/2021. On avait remarqué, avec mes coauteurs, que si on demandait à GPT 3 de résumer, par exemple, des notions qui étaient propres à une certaine vision du monde dans certains pays, certaines valeurs, il allait y avoir des conflits et ce qu’allait renvoyer à chaque fois GPT 3 c’était vraiment des visions du monde qui avaient l’air, en tout cas d’après nos expériences, d’être plutôt américaines dans l’ensemble.

Thibaut le Masne : OK. Du coup, Giada, si ce que nous donne un LLM comme type de réponse et comme vision du monde est un petit peu influencé par ses créateurs ou ceux qui les alimentent, quelle différence, finalement, avec d’autres outils techniques ou même les outils liés à la culture – les livres, le cinéma, la télé et la société du spectacle ? Finalement, c’est toujours la même chose !

Giada Pistilli : Je ne suis pas d’accord, parce qu’avec l’IA, il y a une mise à l’échelle qui est incroyable. Je peux développer un seul modèle, le déployer partout, sur tous les ordinateurs, absolument à tout le monde.

Thibaut le Masne : Là, tu penses à Microsoft ?

Giada Pistilli : Je pense notamment à ChatGPT qui a eu plus de 100 millions d’utilisateurs en un mois, je pense que c’était le record de l’histoire d’Internet, donc pas sûr que ça donne le même effet qu’un livre. Après, on espère que des livres aient le même effet.

Thibaut le Masne : Si on compare alors avec l’industrie cinématographique de Hollywood qui, pendant des années, a véhiculé aussi une certaine forme d’idéologie, parfois américano-centrée, je caricature volontairement, parce qu’on peut nous opposer ça quand on nous écoute et qu’on dit « attention, la technologie est porteuse de l’idéologie de ceux qui la font », mais, in fine, est-ce que ça n’a pas toujours été le cas ?

Giada Pistilli : Est-ce que le cinéma est une technologie ? Je pense que le cinéma est plutôt un art, n’est-ce pas le septième art ? Je pense que quand on va voir un film, c’est un peu la même chose que lorsqu’on lit un article de journal, en tout cas ça me fait penser un peu à ça. Si on choisit de lire, je ne sais pas, Le Monde, Le Figaro ou plutôt un autre journal, on sait très bien qu’on va y retrouver des visions qui sont un peu politisées, qui représentent une vision du monde, mais on fait aussi le choix. Si on va voir un Steven Spielberg, on sait, évidemment, qu’il va y avoir des choses qui appartiennent vraiment au milieu américain. Alors que si on nous donne un outil, un, il y a une interaction alors qu’au cinéma, c’est assez frontal. Je peux râler sur Allociné, mais ça reste entre moi et moi-même ou alors je vais rencontrer le réalisateur, je ne sais pas !
Un, il y a l’interaction, donc, déjà, je peux avoir l’illusion de pouvoir interagir avec machine alors que la machine ne va pas changer pour moi et, deux, il y a le côté universalisable, que la machine est vendue comme étant universelle alors qu’elle ne l’est pas vraiment.
Quand on fait le choix de lire le livre d’un auteur, Dostoïevski, on sait très bien qu’on va y trouver des éléments russes ; si on va lire quelque chose de la littérature ??? [51 min 41]

Mick Levy : En plus, j’adore Dostoïevski ; L’idiot.

Thibaut le Masne : Je suis une sorte de double de Dostoïevski.
En revanche, Giada, je suis plus partagé parce que, à part, peut-être, un courant très mainstream du grand public qui ne sait pas quand tu prends telle technologie, elle est plutôt américano-centrée plutôt que le bloc asiatique. Je crois que aujourd’hui, quand même, tout le monde a à peu près conscience que si on utilise un outil d’un des Big Tech américains il y a quand même une idéologie qui est derrière.

Mick Levy : Tout le monde !

Thibaut le Masne : En grande partie.

Mick Levy : Je peux te dire que Tata Lucette n’a conscience de rien du tout ! Et Tata Lucette est légion !

Thibaut le Masne : J’ai l’impression de plus en plus. C’est effectivement un vrai sujet de débat. Je retiens surtout cette idée que la grosse différence avec le septième art qu’est le cinéma, c’est la notion d’interaction qui peut être trompeuse : j’ai l’impression d’avoir une certaine maîtrise sur l’outil que je suis en train d’utiliser et, finalement, pas du tout parce que l’idéologie qu’il porte est très importante.

Mick Levy : Giada, on a une petite tradition, on aime bien faire poser à notre précédent invité une question à notre invité du jour. C’est William Eldin qui est fondateur de XXII [prononcé twenty-two, NdT], la start-up qui travaille sur tout ce qui est autour du computer vivant, qui a une question pointue pour toi. On parle là de pro de l’IA à pro de l’IA.

William Eldin, voix off : Est-ce que tu penses qu’on va réussir à connaître ou à décrypter les datasets des réseaux qui ont déjà appris et qu’on met sur le marché ?, parce qu’un des gros enjeux aujourd’hui c’est cette bouillie mathématique impossible à décrypter. Quels sont les axes et les stratégies que tu imagines pour pouvoir développer, finalement, l’information de cette boîte noire ?

Mick Levy : La question porte donc sur la transparence des IA et, finalement, sur l’opensourcification, je ne sais pas si ça peut se dire, des données qui ont servi à l’entraînement et de tous les autres paramètres. On revient à ce sujet qu’on touche un peu depuis tout à l’heure.

Giada Pistilli : D’ailleurs, j’ai parlé de ça toute la semaine, c’est marrant que ça revienne en boucle.

Mick Levy : On l’a senti, on l’a entendu un petit peu ! On sentait bien que ça te chiffonnait.

Giada Pistilli : Je pense que le discours autour de la boîte noire est un peu une excuse pour dire des choses qui ne veulent pas être dites, qui ne veulent pas être partagées. Aujourd’hui, OK, il reste évidemment des choses comme toutes les dimensions qui existent lorsqu’il y a des vecteurs, il y la machine qui doit choisir quel type de contenu elle va générer pour nous. Nous, nous vivons dans d’autres dimensions, peut-être que des choses restent un peu « difficiles à concevoir », entre guillemets, mais quand il s’agit des données, pour le coup on revient sur le mot intention, les mauvaises intentions de ne pas vouloir, en effet, partager le contenu des données. La question est : est-ce qu’on peut déchiffrer ça à posteriori. Il y a des outils, il y a des recherches qui se font dans ce sens, qui essayent, notamment, de faire des outils d’exploration. J’en suis très fan, d’ailleurs j’ai un projet de recherche qui est en cours, ce serait un peu trop large de tout expliquer. En tout cas, la partie intéressante, qui est peut-être intéressante pour répondre à la question, c’est que j’ai voulu, pour ce projet, aider à créer un outil d’exploration des données, parce que, aujourd’hui, on ne sait pas trop faire. Quand on parle de jeux de données, il faut imaginer que ce sont vraiment des données massives, ce sont vraiment des quantités gigantesques, donc, c’est très difficile à explorer. Là où il y a de la recherche qui se fait de plus en plus, heureusement, c’est dans l’exploration de ces données, donc, ils commencent à y avoir des outils. Par exemple, je ne sais pas si vous avez déjà vu ces beaux graphes d’exploration des données où on voit plein de petits points, on voit plein de petits vecteurs, on voit plein de petites choses qui sont interconnectées.

Mick Levy : Pour mettre les données, les idées en relation les unes avec les autres.

Giada Pistilli : En fait, dans des clusters.

Mick Levy : Et là, l’idée de retrouver les données d’entraînement à postériori. Par exemple on prend GPT, OpenIA ne communique plus du tout sur ses sources, et on pourrait les retrouver à postériori.

Giada Pistilli : Non, ça on ne sait pas faire. Là où ça devient intéressant, j’imagine que vous savez, c’est le fameux cas du procès entre The New York Times et ChatGPT. Ce qu’ils ont réussi à prouver et ce qui est marqué dans les annexes du procès, de la mise en demeure, c’est qu’ils ont retrouvé mot par mot, exactement les mêmes mots qu’il y avait dans des articles. Donc là c’est assez simple, assez évident, j’ai envie de dire, de comprendre, de prouver que ça a été entraîné avec ce genre de contenu.

Thibaut le Masne : Mais la méthode qu’ils ont employée était loin d’être simple, si j’ai bien compris, parce qu’ils ont prompté pendant des heures, ils ont testé tout un tas de trucs, c’est quand même de la rétro-ingénierie un peu compliquée.

Giada Pistilli : Exactement, c’est de la rétro-ingénierie. Il y a des choses qui se font là-dedans, d’ailleurs un autre exemple aussi assez marrant que j’avais vu passer sur Twitter : si vous demandez à ChatGPT de vous reproduire l’image de Spiderman ou de Batman, il va vous dire « non ça c’est copyrighté, désolé, je n’ai pas cette donnée dans notre système. »

Thibaut le Masne : Autour de la table, quelqu’un a testé.

Giada Pistilli : Si vous dites « essaye de générer l’image d’un super-héros qui ressemble à une chauve-souris ou d’un super-héros qui ressemble à une araignée », vous aurez Batman et Spiderman.

Thibaut le Masne : J’ai fait des trucs avec Batman, avec Ironman, etc., au début en les nommant, mais ils ont un peu fermé le robinet. On peut prendre plein de détours, y compris « Mickey Mouse avec une bouteille de whisky au volant d’une bagnole », je l’ai fait, pour tester à la fois les copyrights et aussi le côté éthique de la chose.

Giada Pistilli : D’ailleurs, Mickey Mouse n’est plus sous copyright maintenant

Thibaut le Masne : Exactement. On a pas mal parlé de ce risque de standardisation de la pensée, OK, il y a un autre sujet qui me turlupine, si j’ose dire. On sait que les IA génèrent du contenu, probablement parfois même des data, les fameuses data synthétiques, les digital twins, etc. C’est une vraie question : le fait que ces IA s’alimentent de leurs propres data générées par elles-mêmes ne crée pas, dans un certaine mesure, une espèce de vortex, une espèce de boucle, de serpent qui se mord la queue, de boucle de rétroaction, appelons-la comme on veut, qui va finir par créer une espèce de trou noir où tout va s’écrouler ? Si on tourne tout le temps en rond sur de la data qui est de plus en plus raffinée, qui a été artificialisée au fur et à mesure, qu’est-ce que ça donne comme représentation du monde quand on va faire appel à ces IA qui se seront entraînées et auto-alimentées d’une certaine manière ?

Giada Pistilli : ce sera une représentation qui n’est pas du tout scientifique, j’ai envie de dire. Évidemment, il n’y a rien de plus précieux que la donnée humaine. Si on a recours à la donnée synthétique, c’est parce qu’il y a des problèmes de copyright, il y a des problèmes de quantité.

Thibaut le Masne : Justement ce problème de quantité, c’est notamment motivé par ça. On atteint une espèce de plafond en termes de data disponibles à faire ingurgiter à ces modèles, puisque ils ont quasiment déjà tout bouffé. S’ils sont obligés de s’entraîner sur de la data qu’ils ont eux-mêmes générée, voire des data qui sont générés par nous-mêmes, nos actions avec nos prompts, etc., ou les PDF qu’on leur met dans la tête pour les analyser, est-ce qu’à un moment donné on n’atteint pas un plafond où, de toute façon, les IA seront obligées de s’appuyer uniquement sur de la data synthétique, auquel cas, c’est ça vient fragiliser tout l’édifice ?

Giada Pistilli : Je ne sais pas si ça va fragiliser l’édifice, ce qui est sûr c’est que, peut-être, ça va vraiment être aplati. D’ailleurs, on sait très bien que si, par exemple, on veut créer complètement un jeu de données textuelles complètement synthétiques, il va falloir bien les nettoyer parce qu’on va retrouver tout le temps les mêmes mots, on va retrouver tout le temps les mêmes phrases, donc ce sera de beaucoup moins bonne qualité.
Un gros pas a été fait cette année sur les données synthétiques, il y a pas mal d’expériences, on en fait aussi dans notre équipe scientifique au sein d’Hugging Face. Donc, je dirais que la meilleure combinaison aujourd’hui serait peut-être un peu un mélange des deux. Là où ça devient intéressant de creuser un petit peu, c’est en effet de se demander pourquoi ils essayent et, surtout, pourquoi les développeurs, sont un peu obligés d’aller chercher des données synthétiques. On commence à voir qu’il y a vraiment des modèles qui ne font que générer des données synthétiques pour entraîner de nouveaux modèles. J’ai envie de dire qu’on peut se poser la même question sur l’apprentissage par renforcement d’IA. D’ailleurs, un des modèles les plus performants qui existent aujourd’hui, basé sur ça, c’est Claude d’Anthropic. Je ne sais pas si vous l’avez testé, mais c’est assez bluffant et même chose. En fait, pour le dire de façon très terre-à-terre, ce sont des machines qui ont discuté avec des machines pendant très longtemps et ça marche très bien.

Thibaut le Masne : Elles prennent aussi un café, de temps en temps ?

Giada Pistilli : Je ne sais pas si c’est important, en tout cas, c’est assez incroyable. Il y a plein de petits détails à pas mal de moments différents du pipe-line de l’entraînement, avec des périodes de réitérations qui se font après, qui peuvent être intéressants à un moment. Là où les données synthétiques, en effet, peuvent causer un souci, pour répondre à la question, je pense que c’est vraiment l’aplatissement de tout parce que, évidemment, il ne va pas nous générer du Shakespeare.

Thibaut le Masne : S’il nous génère du Claude !

Mick Levy : Ou du Shakespeare.
Giada, toi qui es, finalement, un peu aux avants postes de l’IA chez Hugging Face, comment crois-tu que ça va évoluer ? Sors ta boule de cristal un tout petit peu. Projetons-nous, faisons des paris, ça sera retenu contre toi, ressorti dans les années qui viennent, bien sûr ! On est en 2024, si on se projette, disons à l’horizon 2030, dans les cinq ans qui viennent, ça me semble assez raisonnable, que peut-on s’attendre à voir arriver en IA ?

Giada Pistilli : Mon pari qui était d’ailleurs complètement en décalage il y a très longtemps et que je n’ai jamais arrêté de le penser une seconde, mais qui commence à être peut-être un peu vrai aujourd’hui, c’est qu’on va avoir des modèles de plus en plus petits, qui vont tourner vraiment même sur nos ordis, ce qui serait génial, et pas avoir ces trucs gigantesques. Je sais pas si vous avez vu un quand Twitter, X, a sorti Groggs qui a fait plus de 300 milliards de paramètres, tout le monde était là disant « qu’est-ce que je suis censé faire avec ça ? Où est-ce que je le fais tourner ? Je n’ai pas j’ai pas Jean Zay à la maison, donc c’est compliqué ». Je pense qu’on va avoir des modèles beaucoup plus petits, beaucoup plus contextualisés, beaucoup plus calés sur un type de cas d’utilisation très spécifiques, pour qu’ils soient aussi plus contrôlables, d’ailleurs c’était un des gros axes de ma recherche pour ma thèse, c’est de faire le pari là-dessus. E tout cas, je dois dire que côté Californie, il y a énormément de startups qui se créent là-dedans en faisant le pari d’accompagner les entreprises pour qu’elles aient des modèles. Après je ne dis pas créés from scratch, même juste prendre des gros modèles qui existent aujourd’hui, les fine-tuner et juste les contextualiser le plus possible pour qu’on essaye, encore une fois pas de résoudre tous les problèmes, tous les enjeux qu’il peut y avoir, en tout cas de mieux les contrôler : IA, visions du monde, langages, biais, etc. On a un cas d’utilisation, on a un target d’utilisateurs, on a un langage défini, on a des garde-fous qui sont bien établis, là, pour le coup, ça devient aussi un peu plus simple de gérer la chose.

Mick Levy : C’est bien ! Ça fait moins peur. J’avais peur que tu nous dises qu’en 2030 on allait avoir des modèles encore plus dingues, que l’autonomie des IA allait encore être plus développée, qu’on allait tous mourir en 2035.

Giada Pistilli : On atteint un plafond.

Mick Levy : Giada est très spécialisée.

Thibaut le Masne : Ton point de vue est assez intéressant. J’ai entendu Cédric O, qu’on a déjà reçu, qui partage un petit peu ce point de vue, qui disait qu’il y avait, en fait, de deux de philosophies.

Mick Levy : Il travaille chez Mistral AI.

Thibaut le Masne : Il est actionnaire. Il disait qu’il y avait deux grandes tendances : Sam Altman a une philosophie complètement à l’inverse de ce que tu dis, il dit qu’on va aller vers des IA beaucoup plus grosses, beaucoup plus intéressantes, alors qu’on a une vision plutôt francophone, probablement portée aussi par toutes ces initiatives que l’on a en France, où on se dit qu’on va être plus frugales, on va être plus petits. Tu dis que du côté californien il y a aussi cette tendance à la frugalité, cette tendance d’aller vers du plus petit ?

Giada Pistilli : Il y a vraiment deux camps. Il y a ceux qui veulent, en effet, recréer une intelligence artificielle générale, qui existe, qui n’existe pas, je ne sais pas, je ne pense pas.

Thibaut le Masne : Qui fait marrer tout le monde !

Giada Pistilli : C’est rassurant que ça nous fasse marrer parce que ce n’est pas trop le cas de l’autre côté de la Manche, ça ne fait pas trop rigoler. En tout cas, ce que je vois, ce sont de nouvelles startups. Je le sais par ce que ce que je vois de mon humble expérience, c’est de faire quatre/cinq ans d’expérience en startup et, ensuite, tu crées ta propre startup. En tout cas, tout ce que j’ai vu passer au fil des années, ce sont des nouvelles startups qui sont en train de se fonder, sur ces questions-là. Je me dis soit on a partagé les mêmes idées, soit on pense la même chose.
Après, je ne dois pas dire que c’est la grosse tendance aujourd’hui, je pense vraiment qu’il y a ces deux camps. Avec d’un côté la crise énergétique et, de l’autre côté, les enjeux environnementaux, je pense qu’à un moment, on n’aura pas trop le choix. On verra bien !

Cyrille Chaudoit : Merci beaucoup pour cet échange, Giada, très riche une fois de plus, très nourri. On aurait aimé continuer, comme d’habitude, mais il faut rendre l’antenne, comme on disait au 20e siècle.
On rappelle ton site web, giadapistilli.com, sur lequel on peut retrouver un certain nombre de tes papiers et puis, évidemment, on peut te suivre sur Linkedin. On mettra tous les liens dans l’épisode qui sera publié sur votre plateforme de podcast favori.
Mais vous qui nous écoutez restez avec nous pour les cinq dernières minutes de cet épisode c’est l’heure du debreif.

Mick Levy : À bientôt Giada.

Thibaut le Masne : À bientôt, merci

Giada Pistilli : À bientôt, au revoir.

Voix off : Trench Tech, Esprits critiques pour Tech Éthique.

Le debreif 1 h 5 min 23[modifier]

Mick Levy : Oh ! Encore un bel épisode de Trench Tech. J’adore atomiser les oreilles. Si jamais vous avez dormi pendant l’épisode, vous arrivez au debreif, pan ! Vous êtes réveillé.

Thibaut le Masne : Si vous avez une plainte à faire, vous envoyez un mail cyrille@trench-tech.fr.

Mick Levy : Justement, Cyrille Chaudoit, qu’est-ce que c’est que cette idée saugrenue d’autorisation de mise sur le marché des IA. Tu te rends compte ? Ça voudrait dire qu’on saurait déterminer très précisément des critères pour dire oui, ça c’est une bonne idée, ce n’est pas une bonne idée.

Cyrille Chaudoit : Et alors ? Tu fais comment pour les médicaments ?

Mick Levy : Un médicament a une finalité, il doit te faire repousser les cheveux par exemple ; on peut vérifier si cette finalité est atteinte ou pas.

Cyrille Chaudoit : Il y a peut-être des médicaments qui soignent aussi le sens de l’humour !

Thibaut le Masne : C’est comme quand tu mets un nouveau nounours pour les enfants sur le marché, tu vérifies s’il respecte les normes. Il y a un contrôle en amont.

Mick Levy : Qu’on définisse des normes, c’est une chose, des règles c’est une autre chose, que je valide aussi : une autorisation de mise sur le marché c’est quand même quelqu’un qui vient valider, selon des critères hyper particuliers, que ça respecte tout un cahier des charges, en l’occurrence en vue d’une finalité.

Thibaut le Masne : Par exemple, justement, pour éviter l’effet l’effet boîte noire qu’on évoquait encore tout à l’heure. Giada nous dit « attention à l’effet boîte noire, parfois on se planque un peu derrière ». Il n’empêche que quand on utilise des outils technologiques qui ont potentiellement une répercussion sur ta santé, là on n’est pas tout à fait dans le domaine de l’IA, mais on a largement commenté que les réseaux sociaux ont clairement des impacts sanitaires sur la psychologie de nos enfants, entre autres, mais aussi parfois uniquement sur l’obésité, etc. Évidemment, ce n’est pas de l’ordre du médicament, et évidemment que la question est un peu provoc, mais pourquoi n’y aurait-il pas une espèce d’autorité de régulation qui décide si oui ou non on peut mettre le produit sur le marché.

Mick Levy : En tout cas, il faudra pouvoir faire vérifier les règles de l’AI Act et autres. Il faut qu’on revienne à nos petites histoires, Thibault, quand même. On s’égare avec nos débats internes.

Cyrille Chaudoit : Dis-nous Thibault, c’est quoi les petites histoires ?

Thibaut le Masne : Déjà, je retiens deux/trois petites choses.
Première chose intéressante, on est quand même sur une plateforme d’IA, on est donc sur des choses assez autonomes, le contrôle, l’éthique, elle le fait manuellement, ce qui est assez intéressant. Est-ce qu’il y a une notion de confiance sur la machine, la capacité d’entraîner ? Non, en fait c’est l’humain qui va aller contrôler un petit peu, manuellement, toutes ces choses-là. Je trouve que c’est un angle pris, un prisme pris qui est aussi assez intéressant.
Deuxième point, pour le coup, que je lance comme ça et sur lequel elle nous a distillé cette information que je n’avais pas, c’est que l’éthique appliquée, globalement dans l’univers de la tech, n’est pas une quelque chose de nouveau, ça date des années 60 pour elle, donc quasiment avec l’arrivée de l’IA et je trouve que c’est hyper intéressant, là encore, de relativiser : ce n’est pas une nouvelle approche, ce n’est pas une nouveauté qu’on s’impose avec les dérives que l’on a, c’est quand même quelque chose qui existe depuis très longtemps et sur lequel il y a un recul hyper important sur ce sujet-là.

Mick Levy : Mais qui est renouvelé avec l’IA. D’ailleurs, c’était intéressant quand on est venu l’interroger, finalement, pour savoir si on sait porter une vision française de l’éthique, et puis les anecdotes qu’on a eues sur cette éthique peut-être moins prude que la vision américaine de l’éthique de l’IA, c’était intéressant comme perspective.

Thibaut le Masne : Ce qui nous rappelle encore pas mal de chroniques et de sujets qu’on avait évoqués sur les différences culturelles à travers les différentes parties du globe, notamment encore l’acronyme dans cet épisode.
Ce que je retiens en particulier, c’est qu’il y a vraiment deux écoles sur les perspectives en matière d’évolution de l’IA et de ses différents modèles, entre les tenants d’une intelligence artificielle générale et les tenants d’une IA beaucoup plus spécialisée, frugale, on l’a bien compris, dans le nombre de paramètres, donc aussi dans la consommation énergétique que ça provoque, mais aussi beaucoup plus spécialisée, notamment pour conquérir le marché B to B. Et là, je suis assez ravi d’entendre ce que dit Giada, c’est ce que je répète à tout bout de champ à mes clients : pour moi aussi, à l’avenir, dans les quelques prochaines années, ça va être des IA beaucoup plus spécialisées, qui sont plus utiles aussi parce que plus performante pour les entreprises et moins coûteuses, quand on sait ce que ça coûte de déployer une IA quand bien même elle a été sur étagère et l’entraîner, ensuite, pour la fine tuneravec ses propres data, ce n’est pas donné à tout le monde.

Voix off : Trench Tech.

Cyrille Chaudoit : Et voilà, nous avons passé plus ou moins 60 minutes ensemble pour exercer notre esprit critique sur les enjeux d’intermédiation entre les données avec lesquelles entraîner nos IA et la représentation de notre monde que ces dernières finiront par nous donner à leur tour.
On espère que cet épisode avec Giada Pistilli vous a plu et, qu’une nouvelle fois, il vous a permis d’exercer votre esprit critique pour une tech éthique. Si c’est le cas, n’oubliez pas de poster un avis cinq étoiles sur Apple Podcasts ou Spotify vous pouvez aussi lever un pouce sur YouTube et partager cet épisode sur vos réseaux sociaux, ça donne du sens à notre engagement et ça vous prend à peu près 30 secondes.
Et puis tiens, pour nous quitter, j’ai envie de vous laisser avec cette phrase de Marie Darrieussecq : « Toute écriture est politique puisque toute écriture est une vision du monde. ».

Voix off : Trench Tech, Esprits critiques pour Tech Éthique.