Différences entre les versions de « Intelligence artificielle, apprentissage profond, logiciel libre et bien commun - Yoshua Bengio »

De April MediaWiki
Aller à la navigationAller à la recherche
(Page créée avec « Catégorie:Transcriptions '''Titre :''' Intelligence artificielle, apprentissage profond, logiciel libre et bien commun '''Intervenant :''' Yoshua Bengio '''Lieu :'... »)
 
Ligne 20 : Ligne 20 :
 
Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas nécessairement celles de l'April, qui ne sera en aucun cas tenue responsable de leurs propos.</em>
 
Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas nécessairement celles de l'April, qui ne sera en aucun cas tenue responsable de leurs propos.</em>
  
==Description==
+
==Transcription==
 +
 
 +
<b>Présentatrice : </b>Je crois que monsieur Bengio n'a plus besoin de présentation, on le voit partout dans les médias ces temps-ci. Détenteur du prix Turing d’informatique de l'<em>Association for computing machinery</em> en 2018, prix prestigieux. C’est également le directeur scientifique du Mila [Institut québécois d’intelligence artificielle] et, à ce titre-là, titulaire de la chaire sur les algorithmes d'apprentissage statistique depuis plusieurs années. Le professeur Bengio est une personne très intelligente cognitivement, mais c’est aussi quelqu’un avec une grande intelligence émotionnelle et il réussit à passer sa passion à ses étudiants de manière assez exemplaire.
 +
 
 +
[Applaudissements]
 +
 
 +
<b>Yoshua Bengio : </b>Merci beaucoup. Je ne suis pas sûr pour l'intelligence émotionnelle, j’ai encore des croûtes à manger. Pour le reste, c’est beaucoup de chance et des gens qui ont été très importants avec qui j'ai travaillé pendant des années.<br/>
 +
On va commencer avec le blabla sur l'intelligence artificielle.<br/>
 +
Les progrès en vision informatique sont derrière, en grande partie, notre capacité nouvelle à construire des systèmes de voiture autonome. En quelques mois, j’ai vu le développement de certains systèmes passer de rien du tout à des voitures qui se conduisent. Par contre, pour arriver au niveau de fiabilité des humains je pense qu’il y a encore beaucoup de chemin, ce n’est pas encore clair combien de temps ça va prendre. Ce qui est sûr c'est que le potentiel transformateur de ces technologies est incroyable, que ce soit dans les transports ou d'autres domaines.<br/>
 +
Un autre domaine de la vision c'est celui de la compréhension du langage. Vous avez sûrement déjà vu un peu ces progrès dans différents outils souvent fabriqués par les méchants GAFAM. Là encore, il y a un constat de progrès surprenant, même des chercheurs comme moi ne s'y attendaient pas nécessairement il y a quelques années et, en même temps, quand même une certaine humilité face au chemin qui reste à parcourir pour des intelligences artificielles de niveau humain. On n’est même pas au niveau d'un enfant de deux ans. Il reste que ces avancées technologiques ouvrent des portes extraordinaires en ce qui concerne tout ce qui est interface humain-machine. J’ai travaillé, par exemple, beaucoup travaillé sur la traduction automatique pendant quelques années, je n'y touche plus parce que c'est trop gros comme ingénierie. Ces systèmes-là ont développé une compréhension sémantique qui leur permet de traduire presque aussi bien que la plupart des gens les choses faciles, mais ils vont se planter quand il y a des enjeux de compréhension du monde qui permettent d'interpréter la phrase.<br/>
 +
Un autre domaine où il y a eu beaucoup de progrès, pour l'instant pas encore très développés dans les applications industrielles, c'est la capacité de ces systèmes à apprendre à jouer à un jeu, pas nécessairement un jeu ludique où, finalement, le système apprend par renforcement. Après avoir effectué une séquence d'actions on obtient un résultat plus ou moins positif selon le signal d'apprentissage. Là il y a un succès très connu, le système de DeepMind AlphaGo, qui a battu les champions du monde de Go plusieurs. <br/>
 +
Le bémol que je mettrais là-dessus c'est que ce sont des systèmes où justement, si on peut dire, on connaît les règles du jeu. Ce qui fait que l'ordinateur a pu battre les champions du monde c’est qu’il a été capable de jouer contre lui-même un nombre énorme de fois. Une manière de comprendre ce que ça veut dire c'est comme si on avait un simulateur parfait de l’environnement, on connaît tout de cet environnement, donc l'ordinateur peut simuler ce qui arriverait si je fais ça, si l’autre fait ça, qu’est-ce qu’il y a à gérer si je fais ça. De cette manière-là, l’ordinateur a appris. Mais le vrai monde est différent dans le sens qu'on ne connaît pas vraiment les règles du jeu du monde qui nous entoure, la réalité, on en connaît quelques aspects et on ne sait pas les mettre dans l'ordinateur. Donc les principes qui ont permis d'arriver à ce niveau d'intelligence, d'abord pour des tâches très précises, mais quand même, on ne sait pas aujourd'hui les déployer dans le monde réel. <br/>
 +
Ce sont quand même des progrès très impressionnants, mais qui ne sont pas immédiatement transposables dans la plupart des problèmes d'intelligence artificielle qui nous intéressent.
 +
 
 +
Dans les années 50-60, quand les chercheurs pensaient que si on pouvait faire un ordinateur qui puisse battre les humains aux échecs on aurait fait une étape extraordinaire, ils avaient sous-estimé la complexité du monde qui nous entoure, qui serait aussi nécessaire à l'ordinateur pour le comprendre.
 +
 
 +
Je disais alors que les progrès dans le domaine de la vision étaient spectaculaires. C'est probablement le domaine de l'intelligence artificielle qui a été le plus touché et où les progrès sont les plus forts. En fait, depuis à peu près 2015, on a atteint un niveau de performance sur papier qui est comparable à celui des humains pour détecter des objets dans les images. Celles-ci sont de très vieille images dans le sens qu’aujourd'hui on peut faire mieux, mais là aussi il y a des bémols. C'est beaucoup mieux que dans le cadre du langage mais, par exemple, l'ordinateur aujourd'hui n’a pas encore compréhension de la tridimensionnalité du monde. Ce sont des systèmes qui sont entraînés sur des images statiques et, même si en pourcentage d’erreurs c'est comparable à ce qu’un humain va faire, les erreurs sont pas du tout les mêmes. Les erreurs que l'humain fait sur ce banc d'essai, c'est parce qu’il y a des catégories qu’il connaît pas. Mettons qu’il y a des catégories de chiens – dont je ne pourrais pas vous dire le nom parce que je ne les connais pas – que l’ordinateur a appris à partir d'exemples. Là, évidemment, l'humain fait des erreurs tout simplement par manque de connaissances. Tandis que les erreurs de l’ordinateur vont être des erreurs qui dénotent une incompréhension de la nature physique du monde qui sous-tendent ces images-là, donc c'est vraiment différent.<br/>
 +
Malgré tout, ces systèmes-là sont évidemment extrêmement utiles et vont continuer à progresser dans les prochaines années. Par exemple, je pense que l’aspect tridimensionnalité va se faire, c’est juste que ça demande un peu plus de puissance de calcul, il faut travailler plusieurs images, la vidéo, etc. C’est en train de se faire, je pense qu'on va y arriver assez rapidement.
 +
 
 +
Il y a aussi des enjeux éthiques aussi autour de l’utilisation de ces systèmes, par exemple la détection de visages. Aujourd'hui on a des systèmes qui peuvent reconnaître le visage d’une personne, donc qui est cette personne à partir d'une image de son visage, étant donné qu’on a quelques photos de cette personne dans une base de données. Évidemment Facebook a les photos de beaucoup d'entre vous et utilise ça pour pouvoir taguer des images que les gens rentrent. Ça peut être aussi utilisé, par exemple en Chine, pour surveiller les populations.<br/>
 +
Il y a une justification qui est donnée à ça qui est la sécurité. Ils ont donné des cas où ils ont arrêté des malfaiteurs parce qu’il y a des centaines de millions de caméras dans les rues en Chine. Oui, peut-être qu’il y a une utilité pour la sécurité, mais il y a clairement un danger de dérapage et qui donnerait des moyens abusifs à des gouvernements ou d'autres entités, donc prudence, je vais y revenir tout à l'heure.
 +
 
 +
Les applications dans le domaine de la vision, c’est évidemment dans le domaine des transports comme je disais, c’est la sécurité, mais aussi dans le domaine médical. C’est est un sujet sur lequel je n’ai pas mal travaillé. Dans le domaine médical il y a beaucoup d'applications de l'intelligence artificielle qui sont explorées aujourd'hui. Le domaine qui est le plus avancé c'est vraiment l'analyse d'images médicales pour détecter et classifier, aider les médecins à éviter de manquer peut-être un petit indice quelque part qu’il y aurait des cellules cancéreuses. Ce qui est intéressant c'est que malgré le fait qu’il y ait encore des problèmes au niveau des données, dans le sens qu’on n’a pas encore assez de données, il y a des barrières réglementaires et des monopoles qui me devraient pas être là qui font que c'est difficile, pour l'instant, pour les chercheurs ou les entrepreneurs, d'avoir accès à des quantités suffisantes de données médicales. Malgré ça, par exemple l’entreprise Imagia qui est à Montréal, avec qui on collabore, avec quelques centaines de milliers d'images de cellules cancéreuses de l'intestin arrive à des taux de précision qui sont comparables aux meilleurs médecins et spécialistes et meilleur que les spécialistes disons moyens. Donc ce sont vraiment des outils qui non seulement sont sortis des laboratoires mais vont être déployés dans le monde par exemple dans les endoscopes d’Olympus.
 +
 
 +
Relié à la vision, le système part d’une image et va donner des réponses à des questions : qui dans l’image ?, quels objets sont là ?, etc.<br/>
 +
On peut considérer le problème inverse, c'est-à-dire partir de certaines caractéristiques, une question, et produire une image ou, en fait, produire n'importe quoi : ça peut être du texte, du son, etc. Finalement la question c’est : est-ce que l'ordinateur peut inventer du contenu soit à partir de rien ou à partir de caractéristiques qu’on veut pour ce contenu-là. Dans mon groupe on a développé une technique, une approche qui s’appelle « Les modèles génératifs adversariaux », en anglais les GANs, <em>Generative Adversarial Networks</em>, qui a eu un succès foudroyant dans les dernières années.<br/>
 +
Ce que vous voyez ce sont des images synthétiques, c'est-à-dire que ce ne sont pas des images de vraies personnes. Ce ne sont pas des images qui ont été retouchées à la main, ce sont des images inventées par l'ordinateur de personnes qui n'existent pas. Ces gens-là n’existent pas, c'est purement fictif. Ce que vous voyez en haut c'est la progression dans les années entre 2014, on a sorti de papier, et 2017 ; aujourd’hui on est en 2019, on peut faire encore mieux, mais là on ne voit plus trop la différence.<br/>
 +
C'est intéressant et ça remet aussi un peu en question, des fois, l'image qu'on a des réseaux de neurones comme des systèmes de reconnaissance des formes, finalement une tâche, on pourrait dire inférieure, dans l’intelligence artificielle, parce que là on parle de créativité, le système va inventer du contenu. Il y a aussi des systèmes du côté texte qui vont créer du texte peut-être dans un contexte ou à partir de rien. Là aussi, d'ailleurs, il y a des enjeux éthiques. Que ce soit pour les images ou le texte, il y a déjà des personnes qui utilisent ce genre de choses pour faire, par exemple, du porno avec des visages de vraies personnes. On peut très bien imaginer aussi des fausses nouvelles, de la publicité politique, etc., qui s'appuient sur cette capacité de créer du contenu à la demande, qui peut être conditionné à un contexte, à un auditeur, un usager. Donc c’est un outil technologique puissant. Évidemment, plus un outil puissant et plus il peut être utilisé de manière néfaste dans la société. Ça c'est vraiment quelque chose à garder à l'esprit.
 +
 
 +
==12’ 17==
 +
 
 +
Après avoir fait un petit tour de jardin de certains domaines d'applications, revenons à un peu à la question fondamentale de l'intelligence artificielle : qu'est-ce que c'est ? Tout le monde ne s'entend pas sur la définition de ce qu’est l’intelligence artificielle, mais déjà il faut s'entendre sur la définition d'intelligence sur laquelle on ne s’entend pas nécessairement tous non plus.<br/>
 +
Dans ma communauté, chez les chercheurs que je côtoie dans les conférences, il y a quand même un certain consensus que l'intelligence a un rapport avec la capacité de comprendre et de prendre des bonnes décisions. Quand on regarde cette définition on se rend compte immédiatement qu’on peut être intelligent pour certaines choses et stupide pour d’autres. On avait, par exemple, ce système de jeu de Go, il peut battre le champion du monde, mais il ne peut rien faire d'autre, rien, rien d'autre. ! Notre système qui génère des images de visages, il peut faire ça, mais il ne peut rien faire d’autre. Il est très spécialisé, il a une intelligence très spécialisée alors que nous, les humains, on a une intelligence très large, on a une compréhension du monde, ça veut dire qu’on est capable de répondre à des questions sur à peu près tout.
 +
 
 +
Quand on essaye encore de prendre une distance, là c'est une définition, mais comment on met de l'intelligence dans l’ordinateur ? C'est une question clé, c’est la question de la connaissance.<br/>
 +
Pendant de nombreuses décennies, l'idée dominante était qu’on va pouvoir prendre notre intelligence sous la forme des connaissances qu’on a, puis les transférer à l’ordinateur, un peu sur le modèle de transférer nos connaissances de maître à élève, on écrit des livres, etc. Entre humains ce système-là semble fonctionner. Mais cette approche n’a pas vraiment bien fonctionné. Pourquoi ? Parce que la partie des connaissances qu'on peut exprimer verbalement c'est la pointe de l'iceberg par rapport à tout ce qu'on connaît ou qu'on comprend. On peut dire, d’un point de vue cognitif, qu’il y a des connaissances intuitives et des connaissances conscientes, explicites, qu'on peut communiquer verbalement. Cette deuxième partie, d'une part elle est une petite fraction du total, on s'en rend compte, et deuxièmement, la connaissance est comme un édifice. La partie qu'on peut verbaliser, etc., c'est comme le dessus de la maison. Si on est pas capable de faire les fondations, puis les premiers étages la maison, mettre le chapeau des connaissances explicites, ça ne fonctionne pas.<br/>
 +
L'approche classique, en intelligence artificielle, était basée sur l'idée de formaliser les connaissances, ce qui marche bien pour certains types de connaissances quand on communique entre nous, mais comme on a pas accès à notre compréhension du monde, sous-jacente parce que ça se passe dans notre inconscient, la maison n’a jamais bien tenu.<br/>
 +
Aujourd'hui, la révolution de l’intelligence artificielle c’est que, finalement, on est en train de bâtir les fondations de la maison. On a compris les principes basés sur l'apprentissage pour construire ses fondations.<br/>
 +
Pourquoi est-ce qu'on utilise l'apprentissage ? Puisqu’on n’est pas capable de communiquer ces connaissances à l'ordinateur, vu qu'on les a, mais on n’y a pas accès, l'ordinateur va aller les acquérir lui-même à partir de l’observation du monde, comme on le fait enfant ou comme, potentiellement, l'évolution les a mises en nous à travers les générations. Donc il faut que l'ordinateur acquiert ces connaissances implicites d’une certaine manière ; on n’est pas capable de les lui donner. D'où la prépondérance de l'apprentissage automatique dans la recherche en intelligence artificielle aujourd'hui ; donc c’est devenu le paradigme dominant.<br/>
 +
Les bases de ça c’est la capacité d'apprendre à percevoir et à agir.<br/>
 +
Aujourd'hui, le plus grand progrès qui a été fait dans la perception, beaucoup de recherches se font aussi du côté action, mais là où on voit les déploiements industriels c'est vraiment le côté perception et, dans une certaine mesure, la compréhension du langage, mais on en est encore loin.
 +
 
 +
Ce qu'on voit en haut illustre où on en était en 2015, c’est la capacité de l'ordinateur à prendre une image, mettons celle d’en haut à gauche avec la femme et l'enfant dans le parc, puis à construire une phrase qui pourrait une description de l'image.<br/>
 +
C'est intéressant aussi : dans cet article-là on avait utilisé un mécanisme d'attention, quelque chose qui était nouveau à l'époque. Aujourd'hui, c'est cette idée d'utiliser des mécanismes de l'attention qui sont inspirés de la cognition, c'est vraiment quelque chose qui a marché au-delà de nos attentes. Ce qu'on voit c'est que l'ordinateur produit la phrase, un mot après l'autre, puis quand il est rendu à certains mots, mettons frisbee, il va choisir quel mot mettre à cette case-là. On lui permet de regarder, « focusser » sur certains éléments de l'image. Ce qu'on voit dans la deuxième image de chaque paire ici, c'est le point de focus, c’est le poids qu’il donne à chacun des pixels dans l'image de départ. Comme ça son attention va se déplacer sur différents éléments de l'image et, à chaque fois, produire un mot dans la phrase générée.
 +
 
 +
Où est-ce qu’on est rendu dans les progrès en intelligence artificielle ?<br/>
 +
Deux axes principaux que je soulève ici c'est un, la division entre les connaissances intuitives, inconscientes, etc., que les psychologues appellent capacité à faire des tâches du système 1, là on est très avancés, versus des tâches que l’intelligence artificielle classique essayait de résoudre, des tâches que d'habitude on est capable d'effectuer de manière consciente. Si je vous demande de faire 344 + 19, vous pouvez peut-être le faire dans votre tête. Ça, c'est un processus de type système 2 que vous pouvez faire séquentiellement, beaucoup d'étapes une après l'autre. D'ailleurs la programmation, parce que c'est quand même un peu le sujet aujourd'hui, c'est un travail cognitif plutôt système 2. C'est là, c'est conscient, on peut le communiquer, c'est quelque chose qui est une force de l'humain par rapport à d'autres intelligences. Là-dessus il y a beaucoup à faire, finalement mettre le toit de la maison.
 +
 
 +
Ensuite, il y a eu beaucoup plus de progrès sur le côté perception que sur le côté action. Les progrès côté perception, entre autres, c’est sur la notion de représentation. Une grande partie de mes recherches dans la dernière décennie sont vraiment « focussées » sur comment on représente le monde, comment on représente une image, comment on représente une phrase dans l'ordinateur de façon à ce que l’ordinateur puisse généraliser, à partir d'exemples, à d'autres nouvelles situations.<br/>
 +
Le côté action, évidemment on peut penser à la robotique, etc., mais c'est plus que ça. Au niveau cognitif, le côté action c'est aussi ce qui concerne le raisonnement, la planification, comprendre la causalité. Ce sont tous des domaines où les chercheurs en apprentissage automatique commencent à creuser, mais on ne peut pas dire que ce sont des choses que vous allez trouver dans les produits aujourd'hui. C'est un peu à la frontière de là où on est en recherche.
 +
 
 +
L'autre élément, on peut dire, qui s’est démarqué, là on a vraiment eu des grands succès, on n’est plus à à se poser des questions et à faire de la recherche, c'est entre l'apprentissage supervisé puis les autres formes d'apprentissage moins supervisé comme l'apprentissage par renforcement ou non supervisé. Ce que je veux dire c'est qu’aujourd'hui les systèmes industriels qui font, par exemple, la reconnaissance des formes dans les images sont basés sur un travail humain qui est justement d’accoler aux images des étiquettes sémantiques. Les concepts de haut niveau, dont je parlais tantôt, l’ordinateur ne les découvre pas tout seul, il faut que les humains disent « dans cette image il y a un chien, ici c'est un chat ici, ici c’est une chaise, etc. ». Ce sont des abstractions, ce sont les humains qui doivent définir d’une manière implicite en donnant les étiquettes à ces images ou à ces idées.<br/>
 +
C’est de l'apprentissage supervisé. Ce n’est pas comme ça que nous, les humains, apprenons. On n’a pas besoin de tenir notre bébé par la main puis de lui dire à chaque instant « voilà comment tu devrais bouger chacun de tes muscles ; voilà l'interprétation sémantique de chacune des scènes qui sont devant toi à chaque instant » ; on n’a pas besoin de faire ça. Une grande partie de notre apprentissage est non supervisé, on observe on interagit avec le monde puis on construit un modèle du monde à partir de ça.
 +
 
 +
Peut-être lié à cette limitation-là, il y a des choses intéressantes qu'on observe sur le genre d'erreurs que les systèmes font. Il y a vraiment quelque chose d'amusant qui a eu lieu dans les dernières années. Non seulement on peut observer les erreurs que font ces systèmes-là, mais on peut les provoquer, c’est-à-dire que, par exemple, on peut manipuler une image comme celle de gauche qui, normalement, serait catégorisée comme un chien, la manipuler en changeant un petit peu les pixels, puis, avec un algorithme, on va optimiser les pixels juste en les changeant un petit peu de façon à tromper la machine. C’est juste un truc mathématique, on calcule la dérivée de l’erreur par rapport aux pixels puis on va dans le sens d’augmenter l’erreur. Ça fait que par des petits changements que vous ne pouvez pas percevoir parce que, par construction, on veut qu’ils soient petits, on peut s'arranger pour que le système dise si la réponse ??? <br/>
 +
Ça nous indique des choses sur la forme de compréhension du monde que ces systèmes ont, qui est très différente de la nôtre, qui les mènent à des sortes d'illusions visuelles beaucoup plus graves que celles qui nous affectent.<br/>
 +
Il y a encore beaucoup de progrès à faire. Certains d’entre nous aiment penser aux capacités et au niveau intellectuel d’un jeune enfant, d’un bébé et de leur compréhension du monde physique ou psychologique qui n’est certainement pas apprise par la supervision, mais de manière complètement non dirigée, comme ce qu’on appelle la physique induite(???). Un bébé de deux ans comprend la gravité. Ça ne vient pas à la naissance, c'est quelque chose qui est appris, puis, à un moment, donné il « cashe » ??? la gravité. Il sait ce qui se passe quand je lâche un objet. Évidemment, il n’a pas cette connaissance à travers la compréhension des équations de Newton et ses parents ne lui donnent pas des cours de physique, donc il l'a découverte tout seul.
 +
 
 +
Il y a encore beaucoup à faire mais ce qui est intéressant d'un point de vue social, intéressant ou dangereux selon le point de vue, c'est que même si on arrêtait la recherche scientifique en intelligence artificielle aujourd'hui, il y aurait des années, pour ne pas dire des décennies, de déploiement, de développement d'applications qui vont avoir un impact dans tous les secteurs de l’économie. Plusieurs économistes, indépendamment, ont essayé de réfléchir aux impacts positifs que ça pourrait avoir. Ils estiment à je sais pas combien de trillions dollars en 2030 la valeur de ce qui serait apporté en économie. C'est intéressant et c’est aussi la raison pour laquelle il y a tellement d’investissements qui se font dans ce domaine-là, c'est qu’il y a beaucoup d'opportunités simplement en prenant les algorithmes qu’on a aujourd'hui puis en tirant parti de plus de données : on accumule de plus en plus de données, on peut aller les chercher spécifiquement pour répondre à des questionnements, des systèmes, des applications qu’on a en tête, on développe du matériel de plus en plus puissant. Il y a des milliards qui sont investis dans des puces spécialisées d'apprentissage profond qui, graduellement, vont augmenter la puissance de calcul, diminuer les coûts énergétiques qui sont aussi un enjeu important des systèmes actuels. Évidemment la créativité humaine est sans limite, donc les ingénieurs, les entrepreneurs vont découvrir des manières d'appliquer ces outils très flexibles dans des domaines auxquels on n’a pas encore pensé.<br/>
 +
Ça peut être dans le domaine médical, j'en ai parlé un petit peu, surtout pour aller vers une médecine plus personnalisée, qui est capable de tirer parti des données en grande quantité qui sont disponibles et qui vont l’être encore plus sur chaque personne. Aussi dans la découverte de médicaments, on a plusieurs projets autour de ça, pour l’automatiser, et même en biologie fondamentale pour comprendre les mécanismes cellulaires d'une manière beaucoup plus systématique que ce qui est possible aujourd'hui.<br/>
 +
Évidemment dans le monde industriel avec l'automatisation des usines, de la fabrication ou de la robotique, qui s’applique aussi du transport dont je parlais.<br/>
 +
La compréhension du langage dont je parlais. Ce sont les assistants personnels, des interfaces plus accessibles. Pensez à tous les gens sur terre qui ne savent pas lire et écrire, qui n’ont pas accès à Internet, qui n’ont pas accès à Wikipédia, mais qui pourraient quand même converser en paroles. Aujourd'hui on a des systèmes de reconnaissance de la parole et de synthèse de parole basés sur l'apprentissage profond qui sont utilisables. On peut dire que c'est un progrès énorme qui a été fait.<br/>
 +
C'est aussi l'accès à l'information. Il y a une quantité d’informations partout donc, évidemment, des enjeux de recherche. C'est leur pain et leur beurre, mais ça a aussi des impacts dans des domaines comme l'éducation, pas seulement fournir des engins de recherche mais aller chercher les bonnes informations pour les besoins de telle personne, pour compléter son progrès dans un curriculum.
 +
 
 +
==28’ 14==
 +
 
 +
Ça c'était dans les positifs qu'on peut entrevoir,

Version du 25 mars 2021 à 14:32


Titre : Intelligence artificielle, apprentissage profond, logiciel libre et bien commun

Intervenant : Yoshua Bengio

Lieu : 6e Colloque libre de l’Adte - Montréal - Québec

Date : 4 juin 2019

Durée : 57 min 34

Vidéo

Licence de la transcription : Verbatim

Illustration :

NB : transcription réalisée par nos soins, fidèle aux propos des intervenant·e·s mais rendant le discours fluide.
Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas nécessairement celles de l'April, qui ne sera en aucun cas tenue responsable de leurs propos.

Transcription

Présentatrice : Je crois que monsieur Bengio n'a plus besoin de présentation, on le voit partout dans les médias ces temps-ci. Détenteur du prix Turing d’informatique de l'Association for computing machinery en 2018, prix prestigieux. C’est également le directeur scientifique du Mila [Institut québécois d’intelligence artificielle] et, à ce titre-là, titulaire de la chaire sur les algorithmes d'apprentissage statistique depuis plusieurs années. Le professeur Bengio est une personne très intelligente cognitivement, mais c’est aussi quelqu’un avec une grande intelligence émotionnelle et il réussit à passer sa passion à ses étudiants de manière assez exemplaire.

[Applaudissements]

Yoshua Bengio : Merci beaucoup. Je ne suis pas sûr pour l'intelligence émotionnelle, j’ai encore des croûtes à manger. Pour le reste, c’est beaucoup de chance et des gens qui ont été très importants avec qui j'ai travaillé pendant des années.
On va commencer avec le blabla sur l'intelligence artificielle.
Les progrès en vision informatique sont derrière, en grande partie, notre capacité nouvelle à construire des systèmes de voiture autonome. En quelques mois, j’ai vu le développement de certains systèmes passer de rien du tout à des voitures qui se conduisent. Par contre, pour arriver au niveau de fiabilité des humains je pense qu’il y a encore beaucoup de chemin, ce n’est pas encore clair combien de temps ça va prendre. Ce qui est sûr c'est que le potentiel transformateur de ces technologies est incroyable, que ce soit dans les transports ou d'autres domaines.
Un autre domaine de la vision c'est celui de la compréhension du langage. Vous avez sûrement déjà vu un peu ces progrès dans différents outils souvent fabriqués par les méchants GAFAM. Là encore, il y a un constat de progrès surprenant, même des chercheurs comme moi ne s'y attendaient pas nécessairement il y a quelques années et, en même temps, quand même une certaine humilité face au chemin qui reste à parcourir pour des intelligences artificielles de niveau humain. On n’est même pas au niveau d'un enfant de deux ans. Il reste que ces avancées technologiques ouvrent des portes extraordinaires en ce qui concerne tout ce qui est interface humain-machine. J’ai travaillé, par exemple, beaucoup travaillé sur la traduction automatique pendant quelques années, je n'y touche plus parce que c'est trop gros comme ingénierie. Ces systèmes-là ont développé une compréhension sémantique qui leur permet de traduire presque aussi bien que la plupart des gens les choses faciles, mais ils vont se planter quand il y a des enjeux de compréhension du monde qui permettent d'interpréter la phrase.
Un autre domaine où il y a eu beaucoup de progrès, pour l'instant pas encore très développés dans les applications industrielles, c'est la capacité de ces systèmes à apprendre à jouer à un jeu, pas nécessairement un jeu ludique où, finalement, le système apprend par renforcement. Après avoir effectué une séquence d'actions on obtient un résultat plus ou moins positif selon le signal d'apprentissage. Là il y a un succès très connu, le système de DeepMind AlphaGo, qui a battu les champions du monde de Go plusieurs.
Le bémol que je mettrais là-dessus c'est que ce sont des systèmes où justement, si on peut dire, on connaît les règles du jeu. Ce qui fait que l'ordinateur a pu battre les champions du monde c’est qu’il a été capable de jouer contre lui-même un nombre énorme de fois. Une manière de comprendre ce que ça veut dire c'est comme si on avait un simulateur parfait de l’environnement, on connaît tout de cet environnement, donc l'ordinateur peut simuler ce qui arriverait si je fais ça, si l’autre fait ça, qu’est-ce qu’il y a à gérer si je fais ça. De cette manière-là, l’ordinateur a appris. Mais le vrai monde est différent dans le sens qu'on ne connaît pas vraiment les règles du jeu du monde qui nous entoure, la réalité, on en connaît quelques aspects et on ne sait pas les mettre dans l'ordinateur. Donc les principes qui ont permis d'arriver à ce niveau d'intelligence, d'abord pour des tâches très précises, mais quand même, on ne sait pas aujourd'hui les déployer dans le monde réel.
Ce sont quand même des progrès très impressionnants, mais qui ne sont pas immédiatement transposables dans la plupart des problèmes d'intelligence artificielle qui nous intéressent.

Dans les années 50-60, quand les chercheurs pensaient que si on pouvait faire un ordinateur qui puisse battre les humains aux échecs on aurait fait une étape extraordinaire, ils avaient sous-estimé la complexité du monde qui nous entoure, qui serait aussi nécessaire à l'ordinateur pour le comprendre.

Je disais alors que les progrès dans le domaine de la vision étaient spectaculaires. C'est probablement le domaine de l'intelligence artificielle qui a été le plus touché et où les progrès sont les plus forts. En fait, depuis à peu près 2015, on a atteint un niveau de performance sur papier qui est comparable à celui des humains pour détecter des objets dans les images. Celles-ci sont de très vieille images dans le sens qu’aujourd'hui on peut faire mieux, mais là aussi il y a des bémols. C'est beaucoup mieux que dans le cadre du langage mais, par exemple, l'ordinateur aujourd'hui n’a pas encore compréhension de la tridimensionnalité du monde. Ce sont des systèmes qui sont entraînés sur des images statiques et, même si en pourcentage d’erreurs c'est comparable à ce qu’un humain va faire, les erreurs sont pas du tout les mêmes. Les erreurs que l'humain fait sur ce banc d'essai, c'est parce qu’il y a des catégories qu’il connaît pas. Mettons qu’il y a des catégories de chiens – dont je ne pourrais pas vous dire le nom parce que je ne les connais pas – que l’ordinateur a appris à partir d'exemples. Là, évidemment, l'humain fait des erreurs tout simplement par manque de connaissances. Tandis que les erreurs de l’ordinateur vont être des erreurs qui dénotent une incompréhension de la nature physique du monde qui sous-tendent ces images-là, donc c'est vraiment différent.
Malgré tout, ces systèmes-là sont évidemment extrêmement utiles et vont continuer à progresser dans les prochaines années. Par exemple, je pense que l’aspect tridimensionnalité va se faire, c’est juste que ça demande un peu plus de puissance de calcul, il faut travailler plusieurs images, la vidéo, etc. C’est en train de se faire, je pense qu'on va y arriver assez rapidement.

Il y a aussi des enjeux éthiques aussi autour de l’utilisation de ces systèmes, par exemple la détection de visages. Aujourd'hui on a des systèmes qui peuvent reconnaître le visage d’une personne, donc qui est cette personne à partir d'une image de son visage, étant donné qu’on a quelques photos de cette personne dans une base de données. Évidemment Facebook a les photos de beaucoup d'entre vous et utilise ça pour pouvoir taguer des images que les gens rentrent. Ça peut être aussi utilisé, par exemple en Chine, pour surveiller les populations.
Il y a une justification qui est donnée à ça qui est la sécurité. Ils ont donné des cas où ils ont arrêté des malfaiteurs parce qu’il y a des centaines de millions de caméras dans les rues en Chine. Oui, peut-être qu’il y a une utilité pour la sécurité, mais il y a clairement un danger de dérapage et qui donnerait des moyens abusifs à des gouvernements ou d'autres entités, donc prudence, je vais y revenir tout à l'heure.

Les applications dans le domaine de la vision, c’est évidemment dans le domaine des transports comme je disais, c’est la sécurité, mais aussi dans le domaine médical. C’est est un sujet sur lequel je n’ai pas mal travaillé. Dans le domaine médical il y a beaucoup d'applications de l'intelligence artificielle qui sont explorées aujourd'hui. Le domaine qui est le plus avancé c'est vraiment l'analyse d'images médicales pour détecter et classifier, aider les médecins à éviter de manquer peut-être un petit indice quelque part qu’il y aurait des cellules cancéreuses. Ce qui est intéressant c'est que malgré le fait qu’il y ait encore des problèmes au niveau des données, dans le sens qu’on n’a pas encore assez de données, il y a des barrières réglementaires et des monopoles qui me devraient pas être là qui font que c'est difficile, pour l'instant, pour les chercheurs ou les entrepreneurs, d'avoir accès à des quantités suffisantes de données médicales. Malgré ça, par exemple l’entreprise Imagia qui est à Montréal, avec qui on collabore, avec quelques centaines de milliers d'images de cellules cancéreuses de l'intestin arrive à des taux de précision qui sont comparables aux meilleurs médecins et spécialistes et meilleur que les spécialistes disons moyens. Donc ce sont vraiment des outils qui non seulement sont sortis des laboratoires mais vont être déployés dans le monde par exemple dans les endoscopes d’Olympus.

Relié à la vision, le système part d’une image et va donner des réponses à des questions : qui dans l’image ?, quels objets sont là ?, etc.
On peut considérer le problème inverse, c'est-à-dire partir de certaines caractéristiques, une question, et produire une image ou, en fait, produire n'importe quoi : ça peut être du texte, du son, etc. Finalement la question c’est : est-ce que l'ordinateur peut inventer du contenu soit à partir de rien ou à partir de caractéristiques qu’on veut pour ce contenu-là. Dans mon groupe on a développé une technique, une approche qui s’appelle « Les modèles génératifs adversariaux », en anglais les GANs, Generative Adversarial Networks, qui a eu un succès foudroyant dans les dernières années.
Ce que vous voyez ce sont des images synthétiques, c'est-à-dire que ce ne sont pas des images de vraies personnes. Ce ne sont pas des images qui ont été retouchées à la main, ce sont des images inventées par l'ordinateur de personnes qui n'existent pas. Ces gens-là n’existent pas, c'est purement fictif. Ce que vous voyez en haut c'est la progression dans les années entre 2014, on a sorti de papier, et 2017 ; aujourd’hui on est en 2019, on peut faire encore mieux, mais là on ne voit plus trop la différence.
C'est intéressant et ça remet aussi un peu en question, des fois, l'image qu'on a des réseaux de neurones comme des systèmes de reconnaissance des formes, finalement une tâche, on pourrait dire inférieure, dans l’intelligence artificielle, parce que là on parle de créativité, le système va inventer du contenu. Il y a aussi des systèmes du côté texte qui vont créer du texte peut-être dans un contexte ou à partir de rien. Là aussi, d'ailleurs, il y a des enjeux éthiques. Que ce soit pour les images ou le texte, il y a déjà des personnes qui utilisent ce genre de choses pour faire, par exemple, du porno avec des visages de vraies personnes. On peut très bien imaginer aussi des fausses nouvelles, de la publicité politique, etc., qui s'appuient sur cette capacité de créer du contenu à la demande, qui peut être conditionné à un contexte, à un auditeur, un usager. Donc c’est un outil technologique puissant. Évidemment, plus un outil puissant et plus il peut être utilisé de manière néfaste dans la société. Ça c'est vraiment quelque chose à garder à l'esprit.

12’ 17

Après avoir fait un petit tour de jardin de certains domaines d'applications, revenons à un peu à la question fondamentale de l'intelligence artificielle : qu'est-ce que c'est ? Tout le monde ne s'entend pas sur la définition de ce qu’est l’intelligence artificielle, mais déjà il faut s'entendre sur la définition d'intelligence sur laquelle on ne s’entend pas nécessairement tous non plus.
Dans ma communauté, chez les chercheurs que je côtoie dans les conférences, il y a quand même un certain consensus que l'intelligence a un rapport avec la capacité de comprendre et de prendre des bonnes décisions. Quand on regarde cette définition on se rend compte immédiatement qu’on peut être intelligent pour certaines choses et stupide pour d’autres. On avait, par exemple, ce système de jeu de Go, il peut battre le champion du monde, mais il ne peut rien faire d'autre, rien, rien d'autre. ! Notre système qui génère des images de visages, il peut faire ça, mais il ne peut rien faire d’autre. Il est très spécialisé, il a une intelligence très spécialisée alors que nous, les humains, on a une intelligence très large, on a une compréhension du monde, ça veut dire qu’on est capable de répondre à des questions sur à peu près tout.

Quand on essaye encore de prendre une distance, là c'est une définition, mais comment on met de l'intelligence dans l’ordinateur ? C'est une question clé, c’est la question de la connaissance.
Pendant de nombreuses décennies, l'idée dominante était qu’on va pouvoir prendre notre intelligence sous la forme des connaissances qu’on a, puis les transférer à l’ordinateur, un peu sur le modèle de transférer nos connaissances de maître à élève, on écrit des livres, etc. Entre humains ce système-là semble fonctionner. Mais cette approche n’a pas vraiment bien fonctionné. Pourquoi ? Parce que la partie des connaissances qu'on peut exprimer verbalement c'est la pointe de l'iceberg par rapport à tout ce qu'on connaît ou qu'on comprend. On peut dire, d’un point de vue cognitif, qu’il y a des connaissances intuitives et des connaissances conscientes, explicites, qu'on peut communiquer verbalement. Cette deuxième partie, d'une part elle est une petite fraction du total, on s'en rend compte, et deuxièmement, la connaissance est comme un édifice. La partie qu'on peut verbaliser, etc., c'est comme le dessus de la maison. Si on est pas capable de faire les fondations, puis les premiers étages la maison, mettre le chapeau des connaissances explicites, ça ne fonctionne pas.
L'approche classique, en intelligence artificielle, était basée sur l'idée de formaliser les connaissances, ce qui marche bien pour certains types de connaissances quand on communique entre nous, mais comme on a pas accès à notre compréhension du monde, sous-jacente parce que ça se passe dans notre inconscient, la maison n’a jamais bien tenu.
Aujourd'hui, la révolution de l’intelligence artificielle c’est que, finalement, on est en train de bâtir les fondations de la maison. On a compris les principes basés sur l'apprentissage pour construire ses fondations.
Pourquoi est-ce qu'on utilise l'apprentissage ? Puisqu’on n’est pas capable de communiquer ces connaissances à l'ordinateur, vu qu'on les a, mais on n’y a pas accès, l'ordinateur va aller les acquérir lui-même à partir de l’observation du monde, comme on le fait enfant ou comme, potentiellement, l'évolution les a mises en nous à travers les générations. Donc il faut que l'ordinateur acquiert ces connaissances implicites d’une certaine manière ; on n’est pas capable de les lui donner. D'où la prépondérance de l'apprentissage automatique dans la recherche en intelligence artificielle aujourd'hui ; donc c’est devenu le paradigme dominant.
Les bases de ça c’est la capacité d'apprendre à percevoir et à agir.
Aujourd'hui, le plus grand progrès qui a été fait dans la perception, beaucoup de recherches se font aussi du côté action, mais là où on voit les déploiements industriels c'est vraiment le côté perception et, dans une certaine mesure, la compréhension du langage, mais on en est encore loin.

Ce qu'on voit en haut illustre où on en était en 2015, c’est la capacité de l'ordinateur à prendre une image, mettons celle d’en haut à gauche avec la femme et l'enfant dans le parc, puis à construire une phrase qui pourrait une description de l'image.
C'est intéressant aussi : dans cet article-là on avait utilisé un mécanisme d'attention, quelque chose qui était nouveau à l'époque. Aujourd'hui, c'est cette idée d'utiliser des mécanismes de l'attention qui sont inspirés de la cognition, c'est vraiment quelque chose qui a marché au-delà de nos attentes. Ce qu'on voit c'est que l'ordinateur produit la phrase, un mot après l'autre, puis quand il est rendu à certains mots, mettons frisbee, il va choisir quel mot mettre à cette case-là. On lui permet de regarder, « focusser » sur certains éléments de l'image. Ce qu'on voit dans la deuxième image de chaque paire ici, c'est le point de focus, c’est le poids qu’il donne à chacun des pixels dans l'image de départ. Comme ça son attention va se déplacer sur différents éléments de l'image et, à chaque fois, produire un mot dans la phrase générée.

Où est-ce qu’on est rendu dans les progrès en intelligence artificielle ?
Deux axes principaux que je soulève ici c'est un, la division entre les connaissances intuitives, inconscientes, etc., que les psychologues appellent capacité à faire des tâches du système 1, là on est très avancés, versus des tâches que l’intelligence artificielle classique essayait de résoudre, des tâches que d'habitude on est capable d'effectuer de manière consciente. Si je vous demande de faire 344 + 19, vous pouvez peut-être le faire dans votre tête. Ça, c'est un processus de type système 2 que vous pouvez faire séquentiellement, beaucoup d'étapes une après l'autre. D'ailleurs la programmation, parce que c'est quand même un peu le sujet aujourd'hui, c'est un travail cognitif plutôt système 2. C'est là, c'est conscient, on peut le communiquer, c'est quelque chose qui est une force de l'humain par rapport à d'autres intelligences. Là-dessus il y a beaucoup à faire, finalement mettre le toit de la maison.

Ensuite, il y a eu beaucoup plus de progrès sur le côté perception que sur le côté action. Les progrès côté perception, entre autres, c’est sur la notion de représentation. Une grande partie de mes recherches dans la dernière décennie sont vraiment « focussées » sur comment on représente le monde, comment on représente une image, comment on représente une phrase dans l'ordinateur de façon à ce que l’ordinateur puisse généraliser, à partir d'exemples, à d'autres nouvelles situations.
Le côté action, évidemment on peut penser à la robotique, etc., mais c'est plus que ça. Au niveau cognitif, le côté action c'est aussi ce qui concerne le raisonnement, la planification, comprendre la causalité. Ce sont tous des domaines où les chercheurs en apprentissage automatique commencent à creuser, mais on ne peut pas dire que ce sont des choses que vous allez trouver dans les produits aujourd'hui. C'est un peu à la frontière de là où on est en recherche.

L'autre élément, on peut dire, qui s’est démarqué, là on a vraiment eu des grands succès, on n’est plus à à se poser des questions et à faire de la recherche, c'est entre l'apprentissage supervisé puis les autres formes d'apprentissage moins supervisé comme l'apprentissage par renforcement ou non supervisé. Ce que je veux dire c'est qu’aujourd'hui les systèmes industriels qui font, par exemple, la reconnaissance des formes dans les images sont basés sur un travail humain qui est justement d’accoler aux images des étiquettes sémantiques. Les concepts de haut niveau, dont je parlais tantôt, l’ordinateur ne les découvre pas tout seul, il faut que les humains disent « dans cette image il y a un chien, ici c'est un chat ici, ici c’est une chaise, etc. ». Ce sont des abstractions, ce sont les humains qui doivent définir d’une manière implicite en donnant les étiquettes à ces images ou à ces idées.
C’est de l'apprentissage supervisé. Ce n’est pas comme ça que nous, les humains, apprenons. On n’a pas besoin de tenir notre bébé par la main puis de lui dire à chaque instant « voilà comment tu devrais bouger chacun de tes muscles ; voilà l'interprétation sémantique de chacune des scènes qui sont devant toi à chaque instant » ; on n’a pas besoin de faire ça. Une grande partie de notre apprentissage est non supervisé, on observe on interagit avec le monde puis on construit un modèle du monde à partir de ça.

Peut-être lié à cette limitation-là, il y a des choses intéressantes qu'on observe sur le genre d'erreurs que les systèmes font. Il y a vraiment quelque chose d'amusant qui a eu lieu dans les dernières années. Non seulement on peut observer les erreurs que font ces systèmes-là, mais on peut les provoquer, c’est-à-dire que, par exemple, on peut manipuler une image comme celle de gauche qui, normalement, serait catégorisée comme un chien, la manipuler en changeant un petit peu les pixels, puis, avec un algorithme, on va optimiser les pixels juste en les changeant un petit peu de façon à tromper la machine. C’est juste un truc mathématique, on calcule la dérivée de l’erreur par rapport aux pixels puis on va dans le sens d’augmenter l’erreur. Ça fait que par des petits changements que vous ne pouvez pas percevoir parce que, par construction, on veut qu’ils soient petits, on peut s'arranger pour que le système dise si la réponse ???
Ça nous indique des choses sur la forme de compréhension du monde que ces systèmes ont, qui est très différente de la nôtre, qui les mènent à des sortes d'illusions visuelles beaucoup plus graves que celles qui nous affectent.
Il y a encore beaucoup de progrès à faire. Certains d’entre nous aiment penser aux capacités et au niveau intellectuel d’un jeune enfant, d’un bébé et de leur compréhension du monde physique ou psychologique qui n’est certainement pas apprise par la supervision, mais de manière complètement non dirigée, comme ce qu’on appelle la physique induite(???). Un bébé de deux ans comprend la gravité. Ça ne vient pas à la naissance, c'est quelque chose qui est appris, puis, à un moment, donné il « cashe » ??? la gravité. Il sait ce qui se passe quand je lâche un objet. Évidemment, il n’a pas cette connaissance à travers la compréhension des équations de Newton et ses parents ne lui donnent pas des cours de physique, donc il l'a découverte tout seul.

Il y a encore beaucoup à faire mais ce qui est intéressant d'un point de vue social, intéressant ou dangereux selon le point de vue, c'est que même si on arrêtait la recherche scientifique en intelligence artificielle aujourd'hui, il y aurait des années, pour ne pas dire des décennies, de déploiement, de développement d'applications qui vont avoir un impact dans tous les secteurs de l’économie. Plusieurs économistes, indépendamment, ont essayé de réfléchir aux impacts positifs que ça pourrait avoir. Ils estiment à je sais pas combien de trillions dollars en 2030 la valeur de ce qui serait apporté en économie. C'est intéressant et c’est aussi la raison pour laquelle il y a tellement d’investissements qui se font dans ce domaine-là, c'est qu’il y a beaucoup d'opportunités simplement en prenant les algorithmes qu’on a aujourd'hui puis en tirant parti de plus de données : on accumule de plus en plus de données, on peut aller les chercher spécifiquement pour répondre à des questionnements, des systèmes, des applications qu’on a en tête, on développe du matériel de plus en plus puissant. Il y a des milliards qui sont investis dans des puces spécialisées d'apprentissage profond qui, graduellement, vont augmenter la puissance de calcul, diminuer les coûts énergétiques qui sont aussi un enjeu important des systèmes actuels. Évidemment la créativité humaine est sans limite, donc les ingénieurs, les entrepreneurs vont découvrir des manières d'appliquer ces outils très flexibles dans des domaines auxquels on n’a pas encore pensé.
Ça peut être dans le domaine médical, j'en ai parlé un petit peu, surtout pour aller vers une médecine plus personnalisée, qui est capable de tirer parti des données en grande quantité qui sont disponibles et qui vont l’être encore plus sur chaque personne. Aussi dans la découverte de médicaments, on a plusieurs projets autour de ça, pour l’automatiser, et même en biologie fondamentale pour comprendre les mécanismes cellulaires d'une manière beaucoup plus systématique que ce qui est possible aujourd'hui.
Évidemment dans le monde industriel avec l'automatisation des usines, de la fabrication ou de la robotique, qui s’applique aussi du transport dont je parlais.
La compréhension du langage dont je parlais. Ce sont les assistants personnels, des interfaces plus accessibles. Pensez à tous les gens sur terre qui ne savent pas lire et écrire, qui n’ont pas accès à Internet, qui n’ont pas accès à Wikipédia, mais qui pourraient quand même converser en paroles. Aujourd'hui on a des systèmes de reconnaissance de la parole et de synthèse de parole basés sur l'apprentissage profond qui sont utilisables. On peut dire que c'est un progrès énorme qui a été fait.
C'est aussi l'accès à l'information. Il y a une quantité d’informations partout donc, évidemment, des enjeux de recherche. C'est leur pain et leur beurre, mais ça a aussi des impacts dans des domaines comme l'éducation, pas seulement fournir des engins de recherche mais aller chercher les bonnes informations pour les besoins de telle personne, pour compléter son progrès dans un curriculum.

28’ 14

Ça c'était dans les positifs qu'on peut entrevoir,