Culture numérique - Hervé Le Crosnier - Paniques morales - Partie 2

Titre : Culture numérique - Hervé Le Crosnier - Paniques morales - Partie 2

Intervenant : Hervé Le Crosnier

Lieu : Campus 1 - Caen - Amphi Poincaré

Durée : 55 min 39

Licence de la transcription : Verbatim

Illustration : À Prévoir

NB : transcription réalisée par nos soins, fidèle aux propos des intervenant·e·s mais rendant le discours fluide.
Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas nécessairement celles de l'April, qui ne sera en aucun cas tenue responsable de leurs propos.

Transcription

J'ai fait un petit peu d'histoire de l'intelligence artificielle, c’est toujours intéressant, surtout pour des gens qui sont en humanités numériques, de regarder comment les choses en arrivent là où elles en sont aujourd'hui.

2012 – reconnaissance d’objets

Il y a un point nodal, un moment un peu de bascule important, qui est en 2012. Jusqu'à présent les chercheurs en intelligence artificielle, en reconnaissance d'images, une sous-fraction de l’intelligence artificielle, qui consiste, quand on vous présente une image, à savoir quel est l'objet qui est présent dans l'image, pouvoir mettre un mot, un nom, sur l'objet qui est présent dans l'image.
Pour travailler à ça, ils avaient constitué, pour l'époque, une immense banque d'images de 15 millions d'images étiquetées, où la réponse était connue, et chaque équipe de recherche en intelligence artificielle faisait des taux d'essais et d'erreurs pour reconnaître. Globalement, en 2012, les systèmes existants marchaient avec 27/30 % de taux d'erreur, ce n'est quand même pas mal !

Arrive une conférence, la conférence sur la vision par ordinateur. Tous les cadors du milieu étaient dans la salle et, à un moment donné, arrive un jeune homme, tout jeune, à peine adolescent, qui présente un projet, complètement atypique, qui consiste à reconnaître les images à partir d'un réseau de neurones et non pas à partir d'un thésaurus avec des mots, avec des choses comme ça, juste faire tourner des machines à fond les gamelles pour faire de l'apprentissage et il dit « mon résultat c'est 17 % », il met d'un seul coup 10 % dans la vue. Pourquoi ? Parce qu'il avait une énorme machine, on avait fait tourner un algorithme pendant très longtemps pour entraîner la machine.
C'est donc un moment un peu de bascule où on voit revenir en tête l'IA dite connexionniste, celle par les réseaux de neurones, qui avait mis carrément de côté l'IA symbolique, celle des symboles.

Courte histoire de l’IA

J’ai essayé de vous expliquer un peu cette courte histoire de l'IA, qui, depuis le début, a été divisée en fait en deux groupes qu'on voit sur ce graphe-là. C’est un graphe des citations des articles scientifiques. Vous publiez un article scientifique, vous citez les gens qui vous ont inspiré ou qui ont fait une partie de l'expérience, etc. On a deux groupes complètement séparés : les symboliques se citent entre eux et les connexionnistes se citent entre eux. Ce sont deux groupes réellement séparés, donc c'est une analyse de graphe des citations

Le terme a été forgé en 56 par John McCarthy, un personnage important qu'on va revoir tout à l'heure. L'idée c'est d'avoir une méthode qui manipule des objets sémantiques, c'est-à-dire, quelque part, que la machine comprendrait le sens d'un objet qui lui est présenté, dans l'idée derrière « penser c'est structurer le monde en concepts », faire émerger des concepts, dans le monde, c'est ce qui veut dire penser. On a donc des concepts qui s'interpénètrent, qui s'opposent, etc.

Avant, on utilisait ce qu'on appelle le modèle cybernétique, c'est-à-dire l'idée que penser c'est être capable d'apprendre par essais et par erreurs. Les machines, les boîtes noires cybernétiques, avaient une entrée, une sortie, et si elles faisaient une erreur, hop !, ça bouclait, ça améliorait à nouveau, c'est le modèle dit homéostatique, qui essaye de retrouver un équilibre. Bien sûr, ce n'est pas une machine qui est une boîte noire, ce sont des milliers de machines entre les deux. Donc le monde est un monde d'échange d'informations et, quand quelque chose ne va pas, une boucle de rétroaction va faire changer ça. C'est ce qui a été fait, en fait, avec un des premiers systèmes « intelligents » avec tous les guillemets nécessaires, le suivi de balistique, un radar de DCA qui serait capable de prédire le chemin d'un obus, d’un missile, pour pouvoir le faire exploser en vol. Ou prédire le parcours d'un avion pour être capable de lancer une DCA dedans. C’est une des grandes études qui a été menée pendant la guerre et qui, justement, utilise ce qu'on appelle une heuristique. Imaginez qu’on joue au ballon, vous me lancez un ballon. Mon cerveau va se mettre à bouillonner pour savoir quelle est la parabole qui va être faite avec en fonction de l'angle de départ, de la force avec laquelle ça a été… Non, je vois le ballot arriver, je dis il va arriver là… Donc je fais une heuristique qui s'adapte, au fur et à mesure, à la situation.
Là on a bien les deux modèles : le modèle calculatoire et le modèle probabiliste, parce que si je ne suis pas très douée, personnellement je ne suis pas très doué avec les ballons, souvent je les rate. On voit qu'il y a plusieurs modes de raisonnement et qu'il n'y a pas que le mode conceptuel, symbolique.

Neurones

En 43, deux psychologues inventent l'idée de neurone artificiel. Un neurone artificiel c'est quelque chose qui va recevoir des entrées et calculer une sortie.
Là il y a un modèle très simple : le neurone d'entrée, celui de cette colonne-là, est animé, ou pas, on lui donne de l'énergie. Par exemple si c'est noir ça lui donne la valeur 1 et si c'est blanc ça lui donne la valeur 0. Et puis on a une influence faite par ce neurone B sur la sortie, faite par le neurone A sur la sortie, cette influence est ce qu'on appelle un poids, c'est 0,0 quelque chose ; le lien entre deux neurones est pondéré. Et si on change les valeurs de ces poids, alors on va changer les sorties.
Quand on a deux neurones en entrée et un neurone de sortie c'est facile, ça peut faire les valeurs et et ou de la logique booléenne. Les machines modernes de réseaux de neurones ont des milliers de neurones comme ça donc des milliers de poids à modifier en permanence, on va y revenir, ils vont être modifiés en fonction du résultat. S'il y a erreur dans le résultat, boucle de rétroaction, le fameux feed-back.

Le perceptron

Dès le début, ce modèle a été pensé pour la reconnaissance de formes, c'est-à-dire la perception, des modèles perceptibles, d'ailleurs le premier s'appelle le perceptron, c'est une machine physique qui avait 400 cellules photovoltaïques, des potentiomètres qui calculaient les poids entre les divers neurones qui étaient là. C'est un modèle qui ressemble beaucoup au modèle de Friedrich von Hayek. Friedrich von Hayek est connu comme étant l'inventeur du néolibéralisme, mais c'est aussi quelqu'un qui pratiquait la psychologie sociale, il étudiait un modèle, la salle de marchés. La salle de marchés est un jeu de négociations permanent qui va permettre, à partir de plusieurs entrées, plusieurs entreprises qui proposent un produit, de trouver le meilleur prix à la sortie.
On est sur un modèle qui est influencé aussi par des modèles économiques, des modèles psychologiques généraux.

Emballement médiatique

Le perceptron est mis en œuvre avec un financement de la marine américaine, la Navy, et dès ce moment-là les journaux commencent à parler d’electronic brain, un cerveau électronique qui apprend lui-même, qui va donc modifier ces systèmes, un outil qui apprend en faisant les choses. Typiquement, dès le début on a cherché à humaniser, on utilise le terme d'apprentissage. Vous avez remarqué que j'utilise le terme d'entraînement qui me paraît bien plus adéquat que de dire apprentissage.

Le courant symbolique

Le problème c'est que le Frank Rosenblatt va mourir jeune, il ne pourra pas continuer son travail et les tenants de l'IA symbolique, ceux qui pensent par concepts, qui imaginent que les machines ont besoin d'avoir des concepts pour pouvoir agir, vont remporter la partie à partir du début des années 60. Ils forment une équipe qui a beaucoup d'influence. Là aussi on s'aperçoit, quand on fait un peu de sociologie des sciences, que les idées c'est une chose, mais les personnes, leurs positions, leurs relations sont quelque chose de très important, par exemple, des gens comme McCarthy. McCarthy est celui qui, outre avoir créé le mot intelligence artificielle, est aussi celui qui a inventé l'informatique en temps partagé, le fait de pouvoir avoir une machine utilisée pendant quelques millisecondes par une personne, pendant quelques autres millisecondes par une suivante, qui rendait donc les ordinateurs, même centraux, disponibles à plein de terminaux en même temps, en simultané. C’étaient des gens importants et eux s'opposent au modèle connexionniste, ils ne veulent pas de cette idée de l'adaptation, mais ils vont capter la majeure partie des crédits, donc ils vont se développer à partir des années 60.

Penser avec des symboles

Penser c'est réagir au monde, mais c'est aussi posséder des symboles, être capable de construire, à l'intérieur de son cerveau, des symboles.
Là aussi on voit bien, j'y reviendrai dans ma toute conclusion, que derrière l'intelligence artificielle il y a tout un débat sur : qu'est-ce que c'est que penser pour un humain ? C'est quoi l'intelligence humaine ? C'est quoi notre modèle de pensée ? Les uns l’appellent neurones, ce n’est pas pour rien, les autres parlent de symboles, ce n'est pas pour rien, tous ces éléments. En fait, on ne sait pas trop comment on pense, pourquoi on pense, donc on a des idées sur notre pensée et on les applique à des modèles mécaniques en se disant « une fois que je sais faire un modèle mécanique qui s'approche de mon idée, ça veut dire que mon idée correspond bien à la pensée. »

Là c’est une photo de McCarthy qui va créer un langage pour l’intelligence artificielle. e premier calculateur, l’ENIAC, était câblé. On a des tas de photos où on voit des femmes, c’est un métier de femmes, qui allaient câbler et après, dès 46, on a séparé le matériel du logiciel. On pouvait donc créer des langages logiciels et, qui dit des langages logiciels, dit se rapprocher de l'intelligence humaine. Le terme langage n'est pas du tout innocent alors qu'en fait il s'agit d'un code.

Ingénierie des connaissances

Dans les années 80, cette intelligence symbolique va créer tout un secteur qu'on appelle l'ingénierie des connaissances. On va essayer de créer des graphes, un peu comme celui-ci, qui vont relier les divers éléments qu'on connaît du langage avec des règles simples – si/alors – en empilant toute une série de règles simples qu'on a demandé à un expert de verbaliser. Souvent l'expert ne sait pas pourquoi il est expert, il sait des choses, mais il ne sait pas forcément les expliciter, donc on avait tout un travail : prendre des experts, les mettre dans une pièce et leur dire : « Tu dis ça, pourquoi tu dis ça, quelle est la raison qui fait que dans ton métier de géologue, de médecin, dans le métier qui est le tien, comment tu fais un système expert en ayant beaucoup d'expertise accumulée ? »
On a eu des systèmes, comme ici, pour le diagnostic médical des maladies du sang ou PROSPECTOR qui permet d'étudier des cartes géologiques et l'expert dit : « Oui mais là, vu la faille, vu ceci, il risque d’y avoir des minerais intéressants ».
On raconte d'ailleurs que tout l'argent investi dans l'ingénierie des connaissances a été remboursé par le fait qu’un système expert géologue, je crois que c'est PROSPECTOR lui-même, a découvert un minerai, je crois que c'est l'antimoine, à un endroit et ça a remboursé toutes les choses investies.

14’29

Réseaux sémantiques

Pour arriver à faire des inférences, c'est-à-dire à faire des raisonnements sur des concepts ou sur des si/alors mis en place par un expert, pour avoir un moteur d'inférence, il est utile d'avoir des réseaux sémantiques.
On va s'engager, à ce moment-là, à essayer de prendre tous les mots du langage et à essayer de créer le réseau sémantique dans lequel est chaque mot du langage : la pomme il y a une partie qui renvoie au monde des fruits, une partie qui est quelle est l'origine son origine, quelle est sa structure, le pépin. On va donc mettre en lien tous les mots. Là on n’a qu'une partie concrète, après il y a la pomme d’Adam, il y a Adam et Ève. On va essayer de créer un langage sur le langage.
C'est un processus qui est voué à l'échec. Le langage est auto-explicatif. Vouloir créer une autre auto-explication du langage qui serait inscrite dans une mémoire d'ordinateur, quand on regarde, c’est vrai que c'est un peu voué à l'échec. Après, on peut quand même avoir des tas de choses intéressantes, des règles intéressantes qui vont pouvoir servir mais bon !

Retour connexionniste

Donc, ça va amener le retour du connexionniste, fin des années 80. Comment s'y prend-on ? Eh bien on invente un algorithme.
Françoise Fogelman-Soulié, une Française, met au point un algorithme dit de rétro-propagation du gradient, c'est-à-dire comment on change les poids de liaison entre deux neurones, ces fameux poids dont je vous parlais tout à l'heure, à partir d'une évaluation de la sortie : si la sortie est bonne on renforce les poids, si elle est mauvaise on diminue les poids. On a donc un phénomène comme ça où on va réinscrire les poids en permanence.
Si c'est un réseau totalement interconnecté, on ne peut pas penser qu'on aura un jour une machine assez puissante pour refaire tous les poids, donc on va faire des réseaux en couches. On a plusieurs couches et ça diminue le nombre de liens puisque les liens sont uniquement entre deux couches, ils sont nombreux, n'oublions pas, ça a donc besoin d'une puissance de calcul énorme, mais on les réduit, c’est-à-dire qu’on n’est pas, ce qu'on appelle informatique, en ??? [16 min 58], c’est-à-dire une complexité qui est à priori inatteignable.

Entraînement

Comme je disais tout à l’heure, je préfère dire entraînement qu’apprentissage, parce que l'apprentissage ça apprend quelque chose ; quand j'ai appris, je conceptualise aussi, je vais donc pouvoir déplacer ce que j'ai appris d'un domaine sur un autre domaine. Quand je m'entraîne je sais répéter, parfois très bien, certainement mieux que moi.

La question qui se pose c'est quel est le lot de données. Ça c'est un dataset d'images qui vient de Tencent, chinois, l’entreprise chinoise Tencent, donc quel est le lot de données et quels sont les biais qui sont à l'intérieur du lot de données. Si vous voulez reconnaître des visages en prenant uniquement des ingénieurs autour de vous, ils seront tous blancs, vous avez peu de chance de bien reconnaître les visages des personnes d'origine africaine. D'accord ?
Donc la conception du lot de données est importante et elle induit des biais, mais il y a aussi un autre élément qui est ce qu'on cherche. Tout chercheur, quel qu'il soit, a des idées dans sa tête, à lui, et il va les chercher, il va essayer de les retrouver. On a donc une projection du soi dans la machine d'inférence, dans le type de calcul qui est fait, dans le type d'entraînement qui est fait, parce que, bien sûr, il n'y a pas un modèle d'entraînement, il y a souvent une cuisine : on fixe des poids à l'origine, on les change, l'algorithme les change un peu plus, un peu moins, en fonction de si, en fonction de ça, c'est toute une cuisine. J'aime bien le terme « cuisine » parce que, d'abord, j'aime beaucoup cuisiner et puis parce que ça ne s'écrit pas, donc derrière ça s'explique pas forcément. Pourquoi deux personnes qui font le même plat à partir de la même recette et, qu’à la fin, ça peut être très bon ou très mauvais, alors que c'est parti avec la même recette ? Parce que, tout simplement, il y a il y a quelque chose qui ne s'explique pas. C’est un deuxième problème de l'IA connexionniste : elle n'est pas capable d'expliquer pourquoi elle fait des choses.

Du texte au vecteur

Une des règles, c'est qu'on passe du texte au vecteur.
On dit, dans la presse, que ChatGPT choisit le mot qui suit. Non, il choisit le token qui suit. En fait, il découpe la phrase, la question qu'on peut lui avoir posée, en token. Token c'est un ensemble de deux/trois/quatre, en général trois/quatre lettres, y compris les espaces, souvent les tokens commencent par l'espace. Ça va permettre de faire les déclinaisons, les déclinaisons de genre, les déclinaisons de nombre pour les verbes, toutes ces choses-là, justement parce qu'on va pas être associé à des mots complets, on va faire de la probabilité sur des ??? [20 min 00], c'est-à-dire des ensembles de n lettres, n étant en général trois/quatre. Ça va être traduit dans un vecteur, c'est-à-dire un ensemble de coordonnées, un vecteur c'est un ensemble de coordonnées. La machine va faire des comparaisons de vecteurs et elle peut le faire quand même beaucoup plus vite. Une fois qu'elle a transformé les choses en vecteurs, elle va très vite pour comparer des vecteurs. Donc, par exemple, quand elle a un début de phrase, le vecteur de début de phrase peut être comparé à toute une série de complétions de phrases jusqu'à trouver la complétion qui va être la plus probable. On est dans un modèle probabiliste.

Les applications maintenant.

Traduction automatique

La première, peut-être la plus fabuleuse, c'est la traduction automatique. Là on a un exemple de lot d'entraînement : tous les lots du Parlement européen où chaque article est traduit en de multiples langues. C’est un langage très simple et codé, eh bien c'est un lot d'apprentissage absolument énorme qui permet de calculer des vecteurs dans une langue, des vecteurs dans une autre, et de les comparer et de les associer sur un mode associatif. Vous vous servez toujours de la traduction automatique, je suis sûr !

Moi qui suis éditeur, j’ai, par contre, des mauvaises nouvelles : les traducteurs, un peu comme tous les travailleurs du clic tout à l'heure, commencent par balancer ça sur un traducteur automatique et ils disent « après je vais corriger ». Traduire ce n'est pas ça ! Traduire dépend de la langue cible, la langue dans laquelle on traduit, pour nous le français, et on va essayer de comprendre ce que veut dire l'auteur pour mettre des mots français qui disent la même chose. Ce n'est pas tout à fait le même raisonnement que de dire « on va associer un vecteur ». C'est très difficile de modifier, après, quelque chose qui a déjà été fait. Vous êtes en humanités numériques, j'imagine que vous allez faire de la traduction automatique, ça me semble dans vos perspectives, c'est très difficile de changer un texte qu'on a sous les yeux, même s'il n’est pas clair, parce qu'on finit par le comprendre. Même, parfois pire, quand on connaît la langue source on la lit derrière et on comprend parce qu'on lit le fait que c'est une traduction.
Il y a là une vraie question de société : on vous dit qu'un métier comme le traducteur va disparaître parce que les machines vont le remplacer et, en même temps, quand vous regardez vraiment, vous vous apercevez ! Autant je m’en sers tout le temps pour être sûr de comprendre tout ça, autant je vois bien que quand on fait de la traduction c'est un vrai métier et c'est un vrai métier qui porte en lui-même un sens. D'ailleurs le traducteur est un auteur du point de vue juridique.

Médecine

Il y a vraiment des applications absolument fabuleuses, surtout en reconnaissance des images médicales. Là c’est un exemple du MIT. Il y a quatre ans entre les deux photos. On voit le cancer apparaître là, donc un œil humain pourrait le reconnaître et le traiter, mais, en fait, la machine l'a retrouvé dans les photos anciennes ici, elle l'avait déjà repéré alors que le médecin humain est passé à côté. Logique!
En médecine, on a vraiment des applications absolument enthousiasmantes de ce point de vue-là : pour l'aide au diagnostic, pour les analyses biologiques, etc. Par contre, je ne vous conseille pas de demander à ChatGPT quel va être le médicament que vous devez prendre en lui décrivant vos symptômes.

IA generative

Arrivent les IA génératives notamment, génération d'images, de sons ou de vidéos.
Elles ont été entraînées sur des corpus énormes et elles répondent, elles prédisent en fait, à partir d'une suite de mots, d'un ensemble de mots, quelle va être la suite la plus probable à lui donner. Ça permet d'écrire tous les textes de ChatGPT ; je n'ai pas mis exemple parce que je sais que vous l'avez fait par vous-même, que c'est souvent drôle quand on lui pose la question qu'il ne faut pas.

Là ce sont des exemples faits par Olivier Ertzscheid, un des auteurs de C&F éditions, et qui a travaillé en l'occurrence sur Midjourney, un générateur d'images, en lui posant des extraits de textes d'auteurs classiques, en l'occurrence c'est la fameuse phrase de Lautréamont : « Beau comme une rencontre fortuite sur une table à dissection d'une machine à coudre et d'un parapluie ». Comme « dissection » est un mot interdit dans Midjourne – l'entreprise a interdit des mots pour éviter de créer des images qui soient vulgaires ou qui puissent entraîner des attaques contre Midjourney ensuite - il a donc remplacé par « table mortuaire ». C'est beau quoi. Dans un de ses articles de blog il y a toute une série d'images générées comme ça.

Y croire?

Est-ce qu'il faut y croire ?
La limite de la panique morale est là. Est-ce que cette génération d'images ne va pas nous amener des fake news. Vous savez que le festival Burning Man a été victime, cette année, d'une inondation et David Satori, un photographe, a fait toute une série d'images en disant que c'était quand même la cata à Burning Man. Bien sûr, ce sont des images fabriquées, on le voit bien, quand même, mais on peut y croire aussi.

En fait, on va se retrouver avec des tas d'images qui vont renchérir sur le zeitgeist, l'esprit du temps, les choses qui se disent. Tout le monde était content, en fait, que ces riches, qui allaient à Burning Man, prennent une claque, de pluie. Les plus anciens Burners, les gens qui vont à Burning Man, ont dit « voilà une vraie expérience vécue, comme celle que nous espérons avoir, quand on vient dans une cuvette au milieu du désert. »

26’ 57

Texte/Image

J'aime bien cette petite vidéo :