Doit-on se méfier des enceintes connectées
Titre : Doit-on se méfier des enceintes connectées ?
Intervenants : Sophian Fanen - Jacques Monin
Lieu : Émission Secrets d'info - L'interview - France Inter
Date : rediffusion en décembre 2018 d'une émission d'octobre 2018
Durée : 8 min
Licence de la transcription : Verbatim
Illustration : Setreset, Silhouette or caricature of a 50's spy, Wikimedia Commons - Licence Creative Commons Attribution-Share Alike 3.0 Unported.
NB : transcription réalisée par nos soins, fidèle aux propos des intervenant·e·s mais rendant le discours fluide.
Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas nécessairement celles de l'April, qui ne sera en aucun cas tenue responsable de leurs propos.
Statut : Transcrit MO
Description
Echo d'Amazon, HomePod d'Apple, Google Home... Vous avez peut-être reçu en cadeau une de ces enceintes connectées, dotées d'un assistant vocal qui répond à toutes vos requêtes. Mais derrière ces objets en apparence inoffensifs, on retrouve de grandes firmes qui cherchent à connaitre nos habitudes de consommateurs.
Transcription
Voix off : France Inter – Secrets d’info – Jacques Monin.
Jacques Monin : Nous recevons maintenant Sophian Fanen, bonjour.
Sophian Fanen : Bonjour.
Jacques Monin : Pour le site d’information « Les Jours », vous avez enquêté sur les assistants vocaux, ces enceintes connectées qu’on s’est beaucoup offert à Noël. Des enceintes à qui on parle, qui sont censées exaucer nos désirs. Mais on peut quand même rappeler qu’initialement ces enceintes avaient été conçues pour l’armée.
Sophian Fanen : Effectivement cet assistant vocal devait, en fait à la base, aider les gens qui étaient plutôt dans les centres opérationnels à se décharger des choses je dirais un peu matérielles – l’organisation des réunions, caler une salle, envoyer un message à quelqu’un – pour pouvoir se concentrer sur l’opérationnel c’est-à-dire les soldats qui sont, eux, sur le terrain, de l’autre côté de l’écran. Cet outil-là a été ensuite déployé pour le civil sous le nom de Siri au sein d’une application puis des téléphones Apple quand Apple a racheté Siri et toute cette technologie a ensuite suivi son cours : Alexa d’Amazon, Assistant de Google ; Facebook aussi veut lancer un assistant vocal ; Microsoft a Cortana. On est en plein dedans.
Jacques Monin : Et Orange devrait s’y mettre aussi.
Sophian Fanen : Orange s’y met. Orange est dessus : leur projet s’appelle Djingo. Il est en train d’être terminé, il est en test déjà en France et en Allemagne donc on y vient aussi, à priori courant 2019 pour Orange.
Jacques Monin : Ce que vous avez constaté c’est que Siri, auquel on est un peu plus habitué, c’est une voix masculine. Les autres ce sont tous des voix féminines.
Sophian Fanen : Oui, tout à fait. D’ailleurs il faut même spécifier que Siri a une voix masculine en France mais c’est une exception. Siri a une voix féminine aux États-Unis, un peu partout. Très majoritairement, même quasiment exclusivement, les assistants vocaux ont des voix féminines et des prénoms Alexa, Cortana. Effectivement, c’est bêtement sexiste d’ailleurs, c’est vraiment quelque chose qui dit « OK ! ».
Jacques Monin : On donne des ordres à quelqu’un et forcément c’est une femme.
Sophian Fanen : On donne des ordres à quelqu’un. C’est le modèle de la secrétaire des années 50 qu’on appelle à travers une paroi. Dans les films et dans les séries télé, on appelle la secrétaire à travers la paroi et elle arrive avec le dossier, le café, etc. En plus, la voix qui s’exprime dans la publicité, c’est-à-dire la voix publique de cet assistant vocal, est une voix féminine. On peut toujours dire : oui, mais vous pouvez prendre une voix masculine, etc. Non ! Le choix par défaut c’est une voix féminine. L’assistant d’Amazon s’appelle Alexa, il ne s’appelle pas Patrick !
Jacques Monin : Ce que vous expliquez dans votre enquête c’est que les assistants vocaux, ce n’est pas une intelligence artificielle, ils sont un peu bêtes quelque part ; il y a plein de consignes qu’on leur donne et qu’ils ne comprennent pas. Du coup il y a des petites mains, il y a des gens derrière.
Sophian Fanen : Ce sont clairement des machines qui sont très performantes, très puissantes, mais elles ne sont pas capables de comprendre vraiment ce qu’on leur dit. Elles comprennent si on leur donne un ordre, c’est-à-dire si on a une chaîne de mots que l’assistant est capable de reconnaître et de dire : si j’ai ces deux mots qui sont dans la même phrase, il y a 83,8 % de chances que ça veuille dire ça donc je fais ça. Seulement, si on est dans les 10 autres pour cent, par exemple, eh bien il se passe un truc qu’on n’attend pas forcément.
Jacques Monin : Et c’est là qu’il y a du monde derrière.
Sophian Fanen : On pense que tout ça ce sont des histoires de serveurs dans le cloud, de big data, etc., c’en est, mais ce sont avant tout des gens qui sont soit en France, soit en Allemagne, soit aux Philippines, au Bangladesh, etc., qui sont des travailleurs du centime, c’est-à-dire qui sont payés quelques centimes de leur monnaie pour effectuer une micro-tâche et cette micro-tâche ça va être : est-ce que cette phrase qu’on a dite à Cortana, à Alexa, est-ce que ça veut dire ça ou est-ce que ça veut dire ça ? Ils cliquent sur un bouton parce que eux vont dire : oui, bien sûr que ça veut dire ça, parce qu'un humain peut comprendre ce que ça veut dire.
Quand je vous dis « je voudrais acheter une boîte d’œufs [prononcé deux, NdT], vous comprenez que je veux des œufs pour faire une omelette, mais Alexa comprend une boîte deux, comme le chiffre. Donc il y a un humain derrière qui va lui dire : non ! Deux, dans cette phrase-là, ça veut dire les œufs pour faire une omelette. Comme ça on éduque, en fait, des intelligences artificielles. C’est ce qu’on fait tous depuis quelques années sur Internet, par exemple quand vous avez ces fameux captchas qui vous disent : « Est-ce que vous êtes un robot ? », etc. À un moment on devait reconnaître par exemple les panneaux dans une image ou reconnaître les voitures, les chats.
Jacques Monin : Il faut cliquer sur les images qu’on reconnaît pour bien montrer qu’on est là, qu’on n’est pas un robot.
Sophian Fanen : Eh bien ça, c’est de l’éducation d’intelligence artificielle, donc on le fait tous depuis plusieurs années.
Jacques Monin : Il y a des choses qu’elles n’arrivent pas encore à comprendre. Par exemple quand on veut faire des achats, si je veux une marque de café, c’est vrai que c’est trop compliqué parce qu’il faut savoir quelle marque de café, dans quel type d’emballage, avec quel type de dosette ou sans dosette. Donc elle ne peut pas répondre.
Sophian Fanen : Oui. C’est pour ça qu’Amazon est en train de mettre le pied dans l’espace physique. Aux États-Unis, Amazon a racheté une chaîne de produits frais qui s’appelle Whole Foods. Ils ont lancé une boutique également. En France, ils ont passé partenariat avec Monoprix parce qu’ils ont besoin de nos paniers, en fait ; ils ont besoin de nos habitudes d’achat. À partir du moment où ils savent que votre marque de café c’est celle-là, que vous aimez le grain fin parce que vous avez une machine Espresso, etc., vous n’avez plus besoin de le spécifier ; Amazon le sait. Donc ils ont besoin de ce savoir-là et, pour l’instant, ce savoir est dans les magasins physiques sur nos tickets de caisse.
Jacques Monin : Amazon prépare de l’électroménager connecté.
Sophian Fanen : Oui. Effectivement aux États-Unis Amazon lance un micro-onde ; il lance une horloge également, il lance un petit appareil qui se branche dans la voiture, il lance des appareils qui se branchent sur les chaînes hi-fi pour transformer n’importe quelle vieille chaîne CD en appareil Alexa.
Jacques Monin : Avec un micro sur chacun de ces appareils ?
Sophian Fanen : Avec un micro sur chacun de ces appareils.
Jacques Monin : À qui on pourra parler comme on parle à l’enceinte.
Sophian Fanen : Le rêve d’Amazon et de l’ensemble, de Google, Apple — ils font tous pareils — c’est que dans notre environnement on puisse dire quelque chose et il va se passer quelque chose. C’est-à-dire que ce qu’on souhaite, ce qu’on a envie, va se passer.
Jacques Monin : Avec un mode de fonctionnement assez dingue, quand on y pense, parce que ça veut dire, en gros, qu’on va parler à un appareil qui, lui-même, enverra nos consignes dans la Silicon Valley, qui ensuite recontrôlera éventuellement nos appareils. Si par exemple je dis au micro-onde « fais-moi cuire un plat à telle température », vroum !, ça part à l’autre bout de la planète pour revenir donner des ordres à l’appareil qui est à côté de moi.
Jacques Monin : Exactement ! On ne sait pas exactement où ça part, parce que si ça se trouve ça part dans des serveurs qui sont en France. En tous les cas, ça peut partir aux États-Unis, etc., Ça pose aussi une question écologique. Demander à Alexa d’allumer une lumière alors que le bouton est à deux mètres de vous ! Tout le monde est un peu feignant, il faut toujours compter sur la fainéantise des gens, c’est un moteur du capitalisme , mais si cette information passe par un serveur qui est au fin fond de la Finlande pour revenir pour allumer une lumière, ça pose quand même un problème écologique.
Jacques Monin : On délègue la capacité d’agir sur notre maison à quelqu’un qui est à l’extérieur, en fait.
Sophian Fanen : Exactement ! Et tout ça avec une impulsion électrique qui, cumulée avec des millions et des milliards d’impulsions électriques, commence à faire une masse d’électricité absolument dingue. Donc il y a déjà des gens qui travaillent technologiquement et des voix qui s’élèvent politiquement pour dire « encadrons tout ça. Les lumières, le micro-onde, etc., il faut que ce soit traité en local, c’est-à-dire ça ne sort pas de chez vous, ça reste dans votre petit réseau wifi maison ; il n’y a pas besoin d’envoyer ça vers un serveur ». L’intelligence pour allumer une lumière n’est pas extrêmement puissante !
Jacques Monin : On va terminer par ça, il y a aussi la question que beaucoup se posent : il a été sous-entendu ou dit que ces enceintes dans nos salons pourraient nous écouter et donc, finalement, deviennent des espions à l’intérieur de notre domicile. Est-ce qu’il y a un fond de vérité là-dedans ?
Sophian Fanen : Ce que disent les marques c’est : on n’enregistre pas tant que vous me parlez pas. Par contre, dès que vous parlez, effectivement c’est enregistré, c’est stocké et on ne sait pas pour combien de temps c’est stocké parce que les marques disent : « On en a besoin pour améliorer le système. »
Jacques Monin : Ça veut dire qu’elles ont la capacité d’écouter ce qu’on dit même quand on ne leur parle pas ?
Sophian Fanen : Techniquement oui. On sait très bien qu’aucun service n’est inviolable, aucune marque. Google vient d’avoir une fuite gigantesque sur son réseau Google Plus, Facebook a des fuites tout le temps. Tout Internet fuit. Par contre, est-ce que ça va plus loin que la situation dans laquelle on est aujourd’hui ? Quand vous avez votre téléphone portable posé sur la table de votre salon, il peut aussi vous entendre, il peut aussi être hacké. La vraie différence avec le téléphone portable c’est : est-ce que j’ai envie d’imposer ça à ma famille entière ? Il y a des enfants dans les foyers. Il y a des gens qui ne veulent peut-être pas qu’on les…
Jacques Monin : Il y a des invités.
Sophian Fanen : Il y a des invités. Peut-être que dans 15 ou 20 ans ma fille va me faire un procès en disant : « Papa, pourquoi tu as fait rentrer Alexa dans la maison ? Maintenant toute ma vie privée est en ligne ; elle nourrit Amazon. Amazon a un profil de moi, alors que je ne veux pas ; j’étais petite je ne t’ai jamais dit oui ». Ça c’est une vraie question.
Jacques Monin : En tout cas merci Sophian Fanen pour toutes ces explications. Je rappelle que votre enquête sur les assistants vocaux est publiée sur le site lesjours.fr.