Les limites de la reconnaissance faciale via l’IA avec Hubert Guillaud

De April MediaWiki
Révision datée du 23 janvier 2024 à 08:36 par Morandim (discussion | contributions) (Page créée avec « Catégorie:Transcriptions '''Titre :''' Les limites de la reconnaissance faciale via l’IA '''Intervenant :''' Hubert Guillaud - Jean-Philippe Clément '''Lieu... »)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)
Aller à la navigationAller à la recherche


Titre : Les limites de la reconnaissance faciale via l’IA

Intervenant : Hubert Guillaud - Jean-Philippe Clément

Lieu : Émission Parlez-moi d'IA - Radio Cause Commune

Date : 20 janvier 2024

Durée : 30 min

Podcast

Présentation de l'émission

Licence de la transcription : Verbatim

Illustration : À prévoir

NB : transcription réalisée par nos soins, fidèle aux propos des intervenant·e·s mais rendant le discours fluide.
Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas nécessairement celles de l'April, qui ne sera en aucun cas tenue responsable de leurs propos.

Transcription

Diverses voix off :Mesdames et Messieurs, bonjour. Je suis un superordinateur CARL, cerveau analytique de recherche et de liaison.
C’est une machine qui ressent les choses.
On nous raconte n’importe quoi sur l’IA ! Qu’est-ce que tu en dis ? — Moi, je n’en dis rien du tout.
La créativité, elle reste du côté humain.

Jean-Philippe Clément : Bonjour à toutes et à tous. Je suis Jean-Philippe Clément. Bienvenue sur Parlez-moi d’IA sur Cause Commune, la radio pour débattre, transmettre et comprendre.
Transmettre et comprendre, c’est aussi l’objectif que se fixe cette émission sur le sujet spécifique des data, des algorithmes et des intelligences artificielles. Nous avons 30 minutes pour essayer de mieux comprendre ces nouveaux outils.
Cause Commune, que vous pouvez retrouver sur le Web, cause-commune.fm, avec sa superbe app Android également qui est présente sur les stores, sur la bande FM 93.1 à Paris et le DAB+ et en podcast sur votre plateforme préférée. En parlant de podcast, si vous êtes dessus, merci de liker et de mettre des étoiles, de mettre des commentaires, tout cela manipule l'algorithme et c'est bon de manipuler un algorithme.
Merci beaucoup, Jérôme Sorel, de réaliser cette émission. Merci à Olivier Grieco, notre directeur d’antenne, de nous permettre de parler de data et d'IA ici.

Cette semaine, nous allons aborder la question des limites techniques de différents systèmes d'IA qui nous sont souvent présentés comme parfaitement matures et opérationnels, mais dont l'usage et les conséquences peuvent être gravissimes pour un pays, pour une société, surtout pour des individus et leur liberté : les systèmes de reconnaissance faciale. Ce sujet est particulièrement sensible. Jusqu'à son adoption définitive à l'Assemblée, en mars 2023, la loi relative aux JO 2024 et à la sécurisation des événements a tourné autour de ce système pour finalement le rejeter. Au final, la loi prévoit quelques dérogations et expérimentations de la vidéosurveillance intelligente jusqu'au 31 mars 2025, c'est quand même très loin des JO ! D'ailleurs, le Conseil constitutionnel a un peu questionné ce délai. Les caméras seront capables de détecter, en temps réel, des événements prédéterminés comme des mouvements de foule, un sac abandonné, des comportements suspects dans les lieux accueillant des manifestations, à leurs abords ou dans les transports en commun. Tout ceci ne concerne pas la reconnaissance faciale, mais on voit bien que le législateur a manié ce sujet avec des pincettes et pour cause, c'est explosif pour nos libertés et certaines histoires d'erreurs techniques, dont on va reparler, font froid dans le dos.
C'est donc une question complexe, mais, heureusement, notre invité du jour va pouvoir nous guider. Il est journaliste spécialisé, reconnu avec ses articles détaillés, notamment depuis de nombreuses années sur InternetActu, sur différents blogs, le sien notamment, hubertguillaud.wordpress.com, et même, parfois, au micro de cette radio, il était encore là en septembre dernier. Il a aiguisé l'esprit critique sur le numérique de plusieurs générations depuis le début des années 2000.
Bonjour Hubert Guillaud.

Hubert Guillaud : Bonjour. Merci.

Jean-Philippe Clément : Merci d'être avec nous dans le studio de Cause Commune ce matin, en cette heure matinale et fraîche.
Hubert, je voulais tout d'abord vous adresser publiquement mes excuses et vous dire aussi, un peu, ma fierté. En effet, quand je vous ai contacté pour vous proposer cette émission, vous avez eu l'honnêteté, et c’est rare, de me dire que nous avions réussi à vous surprendre à l'écoute d'une émission précédente consacrée à l'intégration de l'IA dans Parcoursup. J'en suis vraiment désolé, mais particulièrement fier, puisque l'on sait que vous préparez un essai sur le sujet. Nous y reviendrons peut-être juste après. Laissons ceux qui n'ont pas encore écouté cet épisode le découvrir, pour être aussi surpris que vous potentiellement.
Alors Hubert, parlez-moi d’IA. Vous êtes revenu sur les limites de la reconnaissance faciale dans un article récent, détaillé, que nous allons remettre en description de l'émission. Tout d'abord, peut-être nous expliquer comment fonctionne, finalement, la reconnaissance faciale avec l'IA telle que vous la comprenez.

Hubert Guillaud : Le problème de la reconnaissance faciale c'est qu'on pense qu’on est dans un épisode de NCIS, alors qu'en fait on est dans un épisode de Derrick. On pense que ça fonctionne vraiment magnifiquement, qu’il suffit de mettre une photo dans un système et vous allez avoir le matching parfait qui va vous sortir, un pour un, la personne qui correspond exactement à la photo qu'on a intégrée dans le système.

Jean-Philippe Clément : Et comment cela marche-t-il chez Derrick ?

Hubert Guillaud : Je dirais qu'il n’y en a pas, donc ça ne fonctionne pas. En fait, c'est ça le problème. On pense, aujourd'hui, que tous nos systèmes techniques sont extrêmement fiables, extrêmement précis et, en fait, ce n'est pas le cas du tout, la plupart du temps ils sont défaillants et c'est ce qu'on va essayer de regarder, justement, avec la reconnaissance faciale : pourquoi sont-ils défaillants et comment ça fonctionne ?

Jean-Philippe Clément : Du coup on peut peut-être partir sur le fonctionnement, sur les sources de données. Aux USA par exemple, ou ailleurs, quelles sont les sources de données principales de la reconnaissance faciale ? Sur quels fichiers s’appuie-t-on ?

Hubert Guillaud : Les sources de données peuvent être multiples.
Aux États-Unis, l'une des plus grosses sources c'est la base de données des permis de conduire, avec des millions d'Américains dont on a pris la photo d'identité, sur leur permis, et qui sont mises dans cette base de données. Bien évidemment, ces photos d'identité sur ces permis sont des photos souvent anciennes, c'est au moment où vous avez votre permis que la photo est prise et intégrée dans cette base.
C'est l'une des bases les plus utilisées aux États-Unis. Il y en a plein d'autres : les polices municipales ont aussi leurs propres bases, les agences fédérales ont également des bases qu'elles utilisent, il y en a qui récupèrent des choses via des systèmes sur Internet, donc des données et des photos qui viennent de tout et de n'importe où.
Il y a donc des tas de bases de données différentes qu'on peut interroger via ces systèmes.

Jean-Philippe Clément : D'accord. Du coup on lance une requête, une recherche sur ces bases à partir d'une photo ?

Hubert Guillaud : Prenons les choses du départ. D'abord, vous avez une photo qui vient souvent, en fait, d'un système de vidéosurveillance.

Jean-Philippe Clément : Pas de très bonne qualité !

Hubert Guillaud : Généralement, justement, de très mauvaise qualité, avec des angles [de prise de vue] qui sont très problématiques : vous avez des gens qui sont vus du dessus, vus de côté, etc. Vous avez déjà ce premier flux de photos qui sont souvent de mauvaise qualité, pixelisées, floues, dans l'ombre, en noir et blanc, donc, déjà, rien ne va, dont on va extraire une ou deux photos pour les intégrer dans cette base. Le problème, quand on fait ces choix d'intégrer cette photo, c'est : quelle est la qualité, quel est l’angle, qu’elle est la pose, quel est le flou qui est donné ? Est-ce qu'on voit bien le visage, ou pas ? Quand on vous propose d’intégrer cette photo dans le système, assez souvent on vous propose aussi de la corriger, ce qui est très surprenant. Il y a des fonctionnalités d'édition, un peu comme dans Photoshop, où le système va se dire « on va détourer la photo, on ne va prendre que le visage, on va la recadrer, ou il y a une partie manquante parce qu'elle est cachée donc le système va la ré-imaginer d’une certaine manière. »

Jean-Philippe Clément : Finalement, c'est comme si on retouchait une empreinte digitale !

Hubert Guillaud : Exactement, c'est comme si on retouchait une empreinte digitale, avant de la mettre dans le système. C'est déjà le premier point. Donc quelle est la qualité de la photo, etc. ? Très souvent les qualités sont très mauvaises et on a une photo qu'il faut donc faire reconnaître par ce système.
Ensuite, une fois que vous mettez cette photo dans le système, vous allez devoir choisir les bases de données que vous allez interroger. Donc, à nouveau, prenons la base des permis de conduire, vous avez bien compris, par exemple, que l'âge de la personne qui est en photo ne va pas correspondre du tout avec l'âge des personnes qui sont dans les bases.

Jean-Philippe Clément : Il y a forcément un décalage.

Hubert Guillaud : Forcément des décalages, donc forcément des problèmes d'appréciation autour de ça.
Le système est censé fonctionner, normalement on dit à partir des traits du visage, c’est-à-dire qu’il va essayer de regarder une sorte de modélisation des traits du visage, qui est problématique en soi, ça rappelle des vieilles choses comme la physiognomonie, si je ne me trompe pas, c'est-à-dire qu'on va regarder les écarts entre la largeur du nez, sa longueur, etc., ces choses-là.
Mais il n’y a pas que ça qui rentre en compte, bien évidemment. Comme vous le voyez aujourd'hui dans les systèmes de reconnaissance d'image qu'on peut utiliser par ailleurs, on sait très bien que les questions de luminosité, d'ombre, etc., vont favoriser, ou pas, la profondeur, la qualité de la photo, vont favoriser, ou pas, certains types de reconnaissance, vont mettre en valeur des profondeurs, comme vous-même quand vous prenez une photo, même de vous, vous avez des tas de photos différentes où vous dites « je ne me ressemble pas du tout d'une photo à l'autre »..

Jean-Philippe Clément : Donc la source est biaisée et la base de données qui va être interrogée est aussi pleine de biais potentiels.

Hubert Guillaud : Elle est pleine de biais potentiels, bien évidemment. Par exemple, sur ces systèmes, des difficultés pour reconnaître des personnes âgées, des enfants, des femmes qui sont souvent moins nombreuses dans les bases de données.
Une fois que cette photo est rentrée, que la base de données est sélectionnée, on lance la recherche et là on a des résultats, un matching comme on dit. Le système définit qu’il y a 85 % de chances, que cette photo matche à 85 % ou elle matche à 90 %.

Jean-Philippe Clément : Vous dites qu’il n’y a pas une proposition.

Hubert Guillaud : Non, il n’y a pas une proposition : une fois que vous rentrez la photo, vous avez une liste de propositions qui sont faites, avec des scores, qui peuvent être des pourcentages ou un chiffre aléatoire qui vous donne une concordance, un matching, mais sans qu'on comprenne vraiment sur quoi est fait ce matching.

Jean-Philippe Clément : On ne sait pas expliquer.

Hubert Guillaud : Est-ce que ce sont vraiment les traits du visage, la couleur de peau qui est prise en compte, etc. ? Non, vous avez juste un chiffre, les raisons de cette concordance ne sont pas expliquées. Vous avez donc une liste avec une personne qui est à 95 %, une autre qui est à 87 %, etc., sans qu'on comprenne. La difficulté c'est de se dire « laquelle est la bonne ? », en fait.

Jean-Philippe Clément : Qui fait ce choix, du coup ?

Hubert Guillaud : En fait c’est l’opérateur, c'est l'agent qui a mis cette photo dans le système, qui l'a fait matcher avec une base de données, qui regarde les résultats qui lui sont apportés.

Jean-Philippe Clément : C’est Derrick qui fait le choix, à savoir quelle est la photo qui a la meilleure correspondance par rapport à ce qu'il recherche !

Hubert Guillaud : Voilà. Là il y a également d'autres indications qui sont données en plus dans beaucoup de ces systèmes, par exemple l'antécédent criminel des gens de la base de données, s'il y en a.

Jean-Philippe Clément : Il y a un lien, en plus, potentiellement avec des infos qu'on aurait déjà sur cette personne-là, qui matchent pas mal avec le profil qu'on recherche.

Hubert Guillaud : Tout à fait. Non seulement on a vu qu'il y avait des vrais problèmes techniques pour essayer d'identifier une photo avec une autre, mais il y a également un vrai problème d'utilisateur qui est face à des concordances pour lesquelles il va devoir apprécier quelque chose. Donc, bien évidemment, s’il cherche un voleur, son regard va se porter, il va avoir tendance à regarder les antécédents de ceux qui ont déjà commis des vols, s'il cherche quelqu'un de tel État, il va éliminer, assez automatiquement, ceux qui ne sont pas du même État par exemple. Il y a donc une appréciation qui est vraiment faite par l'agent qui consulte ces résultats.

Jean-Philippe Clément : Dans ces cas-là, il documente ? Lui-même, à un moment donné, est-il obligé de dire pourquoi il a fait ce choix-là ? On a le problème de la documentation d'algorithmes, on ne sait pas pourquoi, tout d'un coup, ça matche à 80, à 85 ou à 90 %, mais est-ce que l'opérateur dit « je fais choix-là parce que…. » ?

Hubert Guillaud : Visiblement, on n’a pas cette documentation qui va avec. C'est lui qui va apprécier, d'une manière un peu personnelle, avec son expérience, parce que c'est un agent qui est un peu dédié à ce genre de chose, ou pas, ça peut être aussi de simples policiers qui peuvent faire ce matching via ces outils. C'est donc lui qui va dire « voilà la personne que j'ai rentrée, voilà les concordances que j'ai, à priori ce serait celle-ci plutôt que telle autre, etc. » Il va en éliminer plein parce qu'en fait le traitement fait plein de propositions, on a une liste de 10,15 ou 20 personnes qui sont sorties et on en choisit une parmi les 20. Donc, le reste, ce sont des faux positifs et cette personne qu’on a choisie est peut-être aussi un faux positif.

Jean-Philippe Clément : D’accord. On a déjà bien posé le la situation. Je propose qu'on fasse une petite pause pour digérer toutes ces belles propositions techniques.
La pause que je vous propose aujourd'hui, je fais un peu une infidélité à la Garlaban, notre programmateur musical, car je suis tombé sur une merveilleuse balade que je voulais vous faire partager comme ça, le matin, un peu tôt. Ça va nous faire sortir, ça va nous faire voyager. Je vous propose d'écouter Moon Boy de Inès Damaris, ça vient juste de sortir, c'est en ligne, c'est une jeune chanteuse. On écoute Inès tamaris.

Pause musicale : Moon Boy de Inès Damaris.

14’ 59

Jean-Philippe Clément : Merci Inès Damaris