Différences entre les versions de « Émission Libre à vous ! sur Cause Commune du 19 septembre 2023 »

De April MediaWiki
Aller à la navigationAller à la recherche
Ligne 49 : Ligne 49 :
  
 
<b>Frédéric Couchet : </b>Gee, auteur du blog-BD <em>Grise Bouille</em>
 
<b>Frédéric Couchet : </b>Gee, auteur du blog-BD <em>Grise Bouille</em>
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
==« Numérisation et justice sociale » avec Hubert Guillaud, journaliste, spécialiste des systèmes techniques et numériques==
 +
 +
<b>Frédéric Couchet : </b>Nous allons poursuivre par notre sujet principal qui porte sur le thème « Numérisation » et justice sociale.<br/>
 +
N’hésitez pas à participer à notre conversation au 09 72 51 55 46 ou sur le salon web dédié à l’émission, sur le site causecommune.fm, bouton « chat ».<br/>
 +
Pour ce sujet, je vais laisser la parole à Laurent Costy, vice-président de l’April et à notre invité Hubert Guillaud, journaliste, spécialiste des systèmes techniques et numériques
 +
 +
<b>Laurent Costy : </b>Merci Fred.<br/>
 +
Nous accueillons effectivement Hubert Guillaud. Il est journaliste. Il a animé pendant de nombreuses années le média de la Fondation d'un Internet Nouvelle Génération, InternetActu.net. Spécialiste du numérique, il a publié en 2022 <em>Coincés dans Zoom</em>, un livre sur l’impact du télétravail, et il prépare un nouvel essai consacré à Parcoursup. Il travaille également à un nouveau média consacré aux enjeux du numérique sur la société, dans le droit fil, finalement, de 20 ans de vulgarisation sur ces sujets.<br/>
 +
Est-ce que tu veux compléter ton parcours, s’il te plaît ?
 +
 +
<b>Hubert Guillaud : </b>Bonjour à tous. Non, il est très bien !
 +
 +
<b>Laurent Costy : </b>Du coup, on va rentrer directement dans le sujet. On a un peu préparé l’émission avec Hubert. Le premier point qu’on souhaitait aborder, parce qu’il est d’actualité, c’est toute la question des algorithmes, des intelligences artificielles qu’on devrait plutôt appeler intelligences augmentées, peut-être.<br/>
 +
Un des arguments le plus souvent mis en avant jusqu’ici pour critiquer les pratiques de collecte massive de données de la part des grandes entreprises de la Big Tech, était leur objectif de profiler les gens pour rendre la publicité plus efficace. Avec l’avènement des modèles de langage comme ChatGPT fin 2022, on est en droit de se demander si la collecte de données n’avait pas aussi comme objectif de préparer et de consolider les bases de données nécessaires à l’apprentissage de ces nouveaux outils. En effet, maîtriser de tels outils et être en avance sur les concurrents confère, on le voit bien, un pouvoir certain.<br/>
 +
L’introduction est un peu lourde, mais, selon toi, la focalisation entre autres des communautés libristes sur la lutte contre la collecte de données à des fins publicitaires a-t-elle empêché de voir ce qui se préparait du côté de ce qu’on appelle un peu trop globalement IA ? Autrement posée, cette question pourrait être aussi : comment se fait-il que tout cela a jailli fin 2022, alors que ce sont des travaux et des enjeux de société qui existent finalement depuis des années ?<br/>
 +
Ça fait beaucoup de questions !
 +
 +
<b>Hubert Guillaud : </b>Oui, ça fait beaucoup de questions en même temps !
 +
En fait, on a eu raison d’insister sur la question de la capture des données vraiment depuis le début, parce que c’est bien le problème.<br/>
 +
Tu prenais l’exemple de la publicité et c’est effectivement un exemple vraiment marquant, parce que la publicité c’est modèle économique par défaut du numérique. Depuis la naissance du Web, cette question du modèle économique est au cœur du problème. Grosso modo, toutes ces années, la fable qu’on a racontée aux investisseurs, c’est de leur dire « donnez-nous de l’argent pour qu’on se développe et à un moment on sera assez gros pour mettre de la pub et ça va rapporter de l’argent ». C’est ce que racontait très bien le chercheur Ethan Zuckerman, en 2014, « la publicité, c’est le modèle économique du numérique ; il est nécessaire de récolter toujours plus de donnés pour créer des annonces ciblées qui seront toujours plus efficaces. Si les revenus publicitaires sont insuffisants, il y a moyen de les améliorer, de construire un meilleur modèle publicitaire, plus adapté aux visiteurs, etc. ». Donc, par nature plus invasif, plus omniprésent, plus ciblé. La publicité, on comprend, mène tout droit à la surveillance des utilisateurs, àune surveillance toujours plus intrusive.
 +
 +
Bruce Schneier, le grand spécialiste de la sécurité, dit exactement la même chose quand il dit que la surveillance c’est le modèle d’affaires d’Internet, on est vraiment dessus. Le but c’est de vous faire cliquer, pas de vous faire réfléchir, ça favorise une sorte de centralisation pour atteindre des publics toujours plus larges. Et enfin, ça renforce la personnalisation dans une forme où chacun est très isolé.
 +
 +
Il y a 10 ans, quand Zuckerman commence ses propos sur la pub, il révèle qu’il a été l’un des inventeurs de la fenêtre pop-up. À l’époque il n‘était pas encore chercheur, il était développeur et c’était lui, entre autres, qui a mis au point cette petite fenêtre pop-up. Il s’en est excusé, il pensait, à cette époque, que la fenêtre pop-up était un moyen de rendre le Web plus accessible, alors que les gens ne savaient pas vraiment ce que c’était et ce que ça allait produire. C’était un moyen pour lui de permettre aux gens de pouvoir accéder au Web d’une manière gratuite, vu que la fenêtre pop-up c’est la pub, vraiment.<br/>
 +
Il raconte qu’il imagine que passé ce premier modèle, on passerait à un modèle qui serait plus respectueux des données des utilisateurs, or ça n’a pas du tout été le cas, c’est même le contraire. On voit bien aujourd’hui que nous sommes de plus en plus contraints à devoir payer pour accéder aux services du Web, mais nous n’avons pas nos données personnelles plus respectées ou sanctuarisées. C’est la fameuse formule : si c’est gratuit c’est vous le produit, mais je rajoute tout le temps : si c’est payant vous l’êtes toujours, même quand c’est payant, on est toujours le produit, bien souvent.
 +
 +
<b>Laurent Costy : </b>Je distinguerais quand même deux gratuités. Il y a la gratuité des GAFAM, la pseudo-gratuité qui est effectivement néfaste et puis, souvent quand même, une gratuité sincère chez les libristes, qui mettent à disposition des logiciels libres. J’aime bien essayer de séparer les deux. Ça amalgame tout de dire « si c’est gratuit c’est vous le produit ». L’objectif c’était bien d’alerter sur cette problématique-là. Il ne faut peut-être pas oublier la logique sincère, bien souvent, des logiciels libres.<br/>
 +
Excuse-moi de t’avoir interrompu.
 +
 +
<b>Hubert Guillaud : </b>Je suis assez d’accord. C‘est la même sincérité que celle qu’exprimait Ethan Zuckerman, c’est-à-dire qu’on va rendre le Web accessible par cette formule-là. En fait, c’est peut-être une des limites, ça l’a rendu, effectivement ,plus accessible, mais, derrière, s’y sont inscrites des logiques qui sont un peu plus problématiques.<br/>
 +
La bannière pub est vraiment, je pense, un bon exemple. Quand elle naît en 1994, c’est simplement une image qui est posée sur le site web de <em>Wired</em>. On va calculer le nombre de gens qui vont cliquer sur cette image par rapport au nombre de gens qui se connectent sur cette page. À l’époque, le taux est faramineux, c’est 44 %, à peu près, de gens qui cliquent sur cette publicité.<br/>
 +
Aujourd’hui on n’est plus du tout dans ces taux-là, dans ces domaines-là, la publicité est devenue très envahissante, mais en même temps, très peu productive économiquement parlant, et bien évidemment ça pose des tas de problèmes.<br/>
 +
Est née ici, pour moi, la surveillance même d’Internet. D’un coup, on pouvait mettre une bannière et on pouvait surveiller les gens qui allaient cliquer dessus. On s’est d’abord mis à surveiller le nombre de gens qui cliquaient dessus et, après, de plus en plus d’informations, typiquement depuis quel ordinateur ils se connectaient, quelle adresse IP, et on a continué à creuser ces informations : qui étaient les utilisateurs qui venaient, qu’est-ce qu’ils faisaient, d’où ils venaient précisément, etc. On voit bien que derrière cet affichage publicitaire est née et s’est creusée toute la surveillance dans laquelle est aujourd’hui coulé Internet.
 +
 +
<b>Laurent Costy : </b>Ça me fait penser à une citation que j’ai retrouvée. On parlait de sincérité et de gratuité, j’ai retrouvé une citation de Larry Page et Sergey Brin, les cofondateurs de Google, qui, en 1998, disaient : « Les objectifs du modèle économique de la publicité ne correspondent pas systématiquement à une offre de qualité pour les utilisateurs de la recherche en ligne. Nous pensons que les moteurs de recherche financés par la publicité seront intrinsèquement biaisés en faveur des annonceures et répondront moins bien aux besoins des consommateurs. »
 +
 +
<b>Hubert Guillaud : </b>Effectivement, tout à fait. Ce qui est amusant c’est de voir combien ils se sont éloignés de leur première mission, en tout cas de leurs premières convictions, vraiment !<br/>
 +
Aujourd’hui la pub s’est vraiment transformée. À chaque fois que nous agissons sur Internet, nous sommes catégorisés, etc. Un exemple que j’aime bien donner : par exemple, quand vous regardez sur Instagram ou Facebook, comment vous êtes caractérisé par cette publicité. Vous pouvez arriver à trouver, tout au fond de ces outils, les petits tags qui sont renseignés et qui sont censés vous caractériser. Or, ce n’est pas vous qui déclarez ces tags, ces moyens qu’on a de caractériser l’utilisateur ; ils sont calculés, ils sont inférés à partir de vos pratiques.<br/>
 +
Typiquement, par exemple sur ma page, j’ai des trucs qui sont renseignés comme quoi j’aime le foot, et je n’aime pas du tout le foot le fait. Mais le système, parce qu’il a vu que je m’étais peut-être arrêté une demi-seconde sur une image de foot, parce que je connais quelqu’un qui aime le foot et que j’ai déjà répondu en commentaire à cette personne, va inférer les choses sur mon profil. Et tout le profil qui est constitué sur chacun d’entre nous est, en fait, complètement bidon. La plupart du temps, on est caractérisé par des tas de mots clefs qui servent à servir la publicité et qui n’ont rien à voir avec la réalité. Au contraire, c’est même une invention complète, on n’est pas du tout dans des formes de réalité. Et ça pose des tas de problèmes : qui infère ? Que sont ces machines qui infèrent des choses sur nous sur lesquelles nous ne sommes pas vraiment au courant et qu’est-ce qu’elles produisent ? En fait, elles produisent des formes de désillusion, des hallucinations comme on dit aujourd’hui avec ChatGPT, mais elles sont déjà là. Vraiment, dans cette manière même dont on profile les gens.
 +
 +
Il y a des choses, il y a des données que ces systèmes ont, par exemple, la plupart du temps, ils ont votre âge ou votre sexe, mais ça ne les empêche pas d’en inférer plein d’autres. Sur votre propre profil, vous avez souvent votre âge qui est inscrit, donc la machine ou le système connaît votre âge, mais en même temps, dans ces tags, vous allez avoir des tas d’autres informations sur votre âge qui n’ont rien à voir avec votre âge réel, parce qu’elles vont être inférées depuis ce sur quoi vous avez cliqué, ce que vous êtes allé voir, etc. Par exemple, je peux avoir à la fois 20 ans sur certaines données, 50 sur d’autres, etc.
 +
 +
<b>Laurent Costy : </b>Si on doit expliquer le mot inférer aux auditeurs et auditrices
 +
 +
<b>Hubert Guillaud : </b>Inférer c’est vraiment calculer, faire du croisement de données, des données croisées ou vraiment imaginées à partir d’autres données. Le fait de passer un peu de temps ou de rester 30 secondes sur une image de match foot va vous faire catégoriser d’un coup. Hop !, vous allez devenir foot, vous allez avoir ce tag qui va vous être attribué.<br/>
 +
Ces systèmes recalculent en permanence des tas de données, inférant qui vous êtes, essayant de deviner qui vous êtes et ce que vous voulez faire.
 +
 +
<b>Laurent Costy : </b>C’est plus clair, je te remercie beaucoup.<br/>
 +
Est-ce que, sur cette question-là, par rapport à la question publicitaire, tu estimes avoir répondu ? Je peux passer à une question suivante éventuellement ?
 +
 +
<b>Hubert Guillaud : </b>Bien sûr !
 +
 +
<b>Laurent Costy : </b>C’est extrêmement riche, c’est extrêmement dense, il faut aussi le digérer.<br/>
 +
On voit bien, avec tes exemples qu’on ne sait pas trop comment les algorithmes jouent leur jeu, finalement.<br/>
 +
Toujours sur cette question des algorithmes, récemment, avec les « intelligences artificielles », entre guillemets, la question de l’ouverture de l’algorithme s’est posée et il y a eu pas mal de débats autour de cette ouverture. Peux-tu faire part un peu de tes réflexions sur ce sujet ? Tu as écrit deux articles sur le Framablog par rapport à cette ouverture du code pour dire, finalement, que ça ne suffit pas, ça ne suffit pas à appréhender comment ça fonctionne. Tu peux éventuellement nous en dire plus et, peut-être, prendre l’exemple du partage du code que la ville de Rotterdam a opéré par rapport à la distribution des aides sociales sur la ville. Je trouve que cet exemple permet vraiment de comprendre et d’appréhender ce qui se passe, ce qui se joue avec la question des algorithmes.
 +
 +
<b>Hubert Guillaud : </b>Je vais d’abord répondre sur la question de l’ouverture comme faux-semblant.<br/>
 +
L’ouverture ou la transparence ou le fait que le code source soit disponible est, depuis l’origine, un moyen de dire qu’on sait ce que fait le code puisqu’il est ouvert et disponible, c’est le principe même de l’<em<open source</em>, on peut regarder. C'est ce que Lawrence Lessig affirme quand il dit <em>Code is Law</em>, « le code c'est la loi » et le code permet effectivement d'accéder au code en fait, donc de savoir exactement ce qui est calculé, etc.<br/>
 +
Le vrai problème aujourd'hui, il me semble, c'est qu'on parle beaucoup de l'ouverture et de la transparence que je défends, je ne suis pas en train de dire qu'il faut passer à des formes d'opacité, c'est bien le contraire en fait, mais on nous dit que cette ouverture, cette transparence, sont les moyens de régler tous les problèmes. Or, le problème c'est que c'est de moins en moins vrai, d'abord parce que le code est de plus en plus compliqué, complexe, il est imbriqué entre des tas de systèmes différents et quand vous libérez quelque chose, en fait plein d'autres choses ne sont pas libérés. On l'a vu, par exemple, avec la libération du code de Twitter, par Twitter, en mars de cette année, si je ne me trompe pas. D'un coup, on allait avoir toutes les réponses sur le fonctionnement de Twitter. En fait, on n’a pas beaucoup de réponses, d'abord parce que Twitter n'a pas libéré tout le code, loin de là, il n’a libéré que certaines parties qui permettent d'avoir certains bouts d'informations, mais plein d'autres nous échappent et ça pose un vrai problème.<br/>
 +
La réponse qu'on a tendance à donner c'est « il faut la transparence et la transparence suffira ». Cette transparence idéale ou idéelle serait formidable. J'ai de plus en plus tendance à dire que le problème c'est qu'elle devient de plus en plus difficile. Aujourd'hui, on est de plus en plus dans un système qui est non pas transparent mais qui est translucide. On a l'impression de voir ce qui se passe, mais, en fait, pas vraiment ! Et c'est très compliqué parce qu'on veut continuer à ce que cette transparence soit effective, on voudrait la pousser, on voudrait que les choses nous soient complètement lisibles, claires et déterminées et ce n'est pas le cas !<br/>
 +
Pour moi la transparence ne suffit pas. On ne va pas pouvoir dire «  je vais publier le code et ça va suffire », en fait il faut mettre la transparence au cœur et il faut commencer par elle. Si on veut vraiment rendre les choses transparentes, il faut commencer par la transparence et elle doit être le cœur de l'activité et de tout ce qui est publié autour. Or bien souvent, la transparence vient après : on publie le code et derrière ça va aller !
 +
 +
<b>Laurent Costy : </b>Condition nécessaire mais insuffisante.<br/>
 +
Il me semble que j'avais aussi lu un souci dans l'article que tu avais écrit. Il y avait aussi, outre effectivement le code, la question de la base de données, sur quelle base de données on se base et sur les critères qui alimentent l'algorithme, sur les critères qui finalement font que l'algorithme choisit telle ou telle chose. Finalement, ces critères-là sont sans cesse réajustés, donc on va analyser un algorithme à un instant t et puis l'instant d'après, à priori, on peut avoir changé des paramètres.
 +
 +
<b>Hubert Guillaud : </b>Oui. Tout à fait. Quand Twitter publie son code, c'est un fichier statique. Le problème c'est que par ces systèmes d'intelligence artificielle qui raffinent en permanence la manière dont ils proposent les choses, qui les ajustent en permanence, en fait ça change tout le temps. Au moment où Twitter publie son code, il est, en fait, déjà obsolète et les choses ont déjà changé.<br/>
 +
Aujourd'hui, par exemple avec Twitter Blue, on sait que le fait de s'abonner à Twitter en payant va nous favoriser dans Twitter et va nous rendre plus visibles. La pondération serait de deux à quatre fois supérieure par rapport à ceux qui ne sont pas abonnés. On voit, en fait, que ça va certainement bien plus vite. Aujourd’hui, quand vous êtes encore sur Twitter, ce que je ne vous souhaite pas, mais qui, parfois, est encore un petit peu utile, vous ne voyez plus les gens auxquels vous êtes abonné et vous voyez de plus en plus ces comptes qui ont payé et qui viennent jusqu'à vous. C'est ce que Cory Doctorow appelle l'emmerdification des réseaux sociaux : dans les réseaux sociaux on suit des gens, c'est à eux qu'on veut avoir accès, et ces systèmes algorithmiques les transforment complètement, tant et si bien que vous n'avez plus accès aux gens que vous suivez et vous avez deux tiers de pub et trois quarts de comptes de gens qui ont payé et qui vont vous sursolliciter.
 +
 +
<b>Laurent Costy : </b>Merci. Du coup, on peut reparler de Mastodon qui avait fait un peu parler de lui au moment du rachat de Twitter. C'est un système alternatif décentralisé, on ne peut que vous encourager à vous renseigner sur cette solution alternative.<br/>
 +
Je continue sur les « intelligences artificielles », toujours entre guillemets, puisque, encore une fois, on pourrait débattre pendant des heures. Vas-y, je t’en prie.
 +
 +
<b>Hubert Guillaud : </b>Je voudrais qu'on parle de Rotterdam.
 +
 +
<b>Laurent Costy : </b>Ah oui, pardon. Excuse-moi, je t'en prie.
 +
 +
<b>Hubert Guillaud : </b>Je vais me permettre d'être un peu précis. Récemment, je pense que c'était en juin, <em>Wired</em> encore une fois, avec des journalistes d'investigation néerlandais, a publié une grande enquête sur un système d'aide sociale. Ce système d’aide sociale, c'est celui qui a été utilisé par la ville de Rotterdam pendant plusieurs années. À Rotterdam, quelque 30 000 personnes bénéficient d'aides sociales : des aides au logement, des aides pour payer des factures, pour acquérir de la nourriture, etc.<br/>
 +
En 2017, la ville a déployé un nouveau système de lutte contre la fraude aux allocations, mis en place par Accenture, et le système génère un score de risque sur tous les bénéficiaires de l'aide sociale, selon des critères assez problématiques puisqu'il prend en compte l'âge, le sexe, la maîtrise du néerlandais.<br/>
 +
En 2021, la ville de Rotterdam a suspendu ce système après avoir reçu un audit sur celui-ci, commandé par le gouvernement. <em>Wired</em> et ??? [36 min 12] ont obtenu l'algorithme ainsi que les données d'entraînement et c'est assez rare en fait. La plupart du temps, sur tous ces vastes systèmes, on n'a pas les codes et on n'a pas non plus les données d'entraînement. Or, là, ils ont pu avoir accès aux deux, donc ça leur a permis de reconstruire le système et de le tester pour essayer de comprendre comment cette machine essaye de détecter la fraude.<br/>
 +
Ce que disent les journalistes c'est que cette machine est avant tout une machine à soupçons. Ce qui apparaît à un travailleur social comme une vulnérabilité, comme une personne montrant des signes de faiblesse, est traité par la machine comme un motif de suspicion. Un truc vraiment hallucinant, ce sont les commentaires des travailleurs sociaux sur les dossiers : les travailleurs sociaux renseignent le dossier d'une personne, il y a un champ de commentaires sur lequel ils peuvent dire « cette personne est vraiment de bonne foi » ou « cette personne est vraiment de mauvaise foi », j'exagère, je caricature. Le fait de mettre un commentaire, qu'il soit positif ou négatif, comme je viens de vous le dire, compte dans le système. En fait, c'est quand il n’y a pas de commentaire, que cette donnée est désactivée, mais que le commentaire soit positif ou négatif, ça impacte le système comme un critère de risque négatif, comme un critère négatif, tout à fait.???<br/>
 +
Et il y a plein de choses comme quand on regarde ce système dans le détail, ce qu'ont fait ces journalistes, il y a quelque 315 variables pour essayer de calculer un score de risque, il y a des variables qui vont se substituer à l'ethnicité, notamment le fait qu'à Rotterdam les bénéficiaires de l'aide sociale doivent parler le néerlandais ou montrer qu'ils font des efforts pour y parvenir. L'indication de langue maternelle ou le fait de vivre avec des colocataires peuvent également servir de substitution à ces calculs ; l'indication de la langue maternelle a été reconnue comme problématique par la Cour des comptes néerlandaise. N'empêche que ces systèmes, tous, essayent d’inférer des choses, comme on le disait tout à l'heure.<br/>
 +
On voit vite, dans tous ces critères, que certaines variables sont bien plus problématiques que d'autres et conduisent à des scores plus élevés. Par exemple, le fait que vous soyez une femme célibataire avec des enfants va être corrélé à un facteur de risque supplémentaire. Or, quand on demande à la ville de Rotterdam ou au système d'aide sociale : est-ce que vous avez plus de fraude chez les femmes seules avec des enfants, ou pas ?, ils sont incapables de répondre, mais c'est ce que le système va mettre en avant et c'est ce qu’il va regarder ; c'est là où il va pointer des problèmes à partir des données qu'il a apprises. Même chose sur les personnes d'origine étrangère, qui parlent des langues différentes. Il semblerait, par exemple, que le système arrive à calculer selon des tas de langues différentes : certaines langues seraient plus corrélées à un critère de risque que d'autres.<br/>
 +
C'est ce qui se passe quand on regarde vraiment le fonctionnement des systèmes dans le détail, ce qu'on ne fait pas assez. Aujourd'hui des tas systèmes d'aide sociale sont développés partout. On a un très bon exemple d'un système d’aide à l'étranger, mais il y en a plein partout. On en a en France.<br/>
 +
Ça fait une dizaine d'années que la chercheuse Virginia Eubanks, qui a commencé ses travaux sur ces systèmes dans un livre formidable qui s'appelle <em>Automating Inequality</em>, « L'automatisation des inégalités », a montré que ces systèmes étaient partout défaillants. Et depuis, en fait, partout où ils sont développés, on voit qu'ils sont effectivement partout défaillants.
 +
 +
<b>Laurent Costy : </b>Merci. Du coup, est-ce que tu veux aussi parler un peu de la CAF en France.
 +
 +
<b>Hubert Guillaud : </b>Le problème, c'est que c'est difficile de parler de la CAF parce qu'on ne sait pas !
 +
 +
<b>Laurent Costy : </b>Il n’y a pas la transparence de la ville de Rotterdam.
 +
 +
<b>Hubert Guillaud : </b>Non, n'a pas encore la transparence de la ville de Rotterdam avec la CAF.
 +
 +
<b>Laurent Costy : </b>Il y a eu des demandes CADA, on en parlera en fin d'émission avec la petite intervention.
 +
 +
<b>Hubert Guillaud : </b>Il y a eu effectivement des demandes CADA pour accéder au système de calcul. Le système de calcul de score de risque de la CAF fait, en fait, la même chose que la ville de Rotterdam, certainement avec des techniques un petit peu différentes, mais il calcule un score de risque de fraude de ses usagers dans l'un de ses systèmes. Quand vous essayez d'obtenir des aides, votre profil est étudié.<br/>
 +
Comment ont-ils fait ça ? Ils ont utilisé 5000 dossiers frauduleux et les ont fait analyser par des systèmes qui vont être capables de repérer. À partir de ces données générées, on va l'appliquer à tous les autres cas de la CAF pour essayer de regarder si d'autres dossiers peuvent être frauduleux.<br/>
 +
Le problème c'est que dans ces formes d'analyses, on analyse toutes les données et plein posent problème.<br/>
 +
Aujourd'hui, on ne sait pas exactement quels sont tous les critères qui sont mis en place par la CAF pour produire ces scores. Il y a effectivement eu des demandes CADA, des demandes de documents administratifs, notamment par La Quadrature du Net, pour accéder au code et au système de <em>scoring</em> des gens.<br/>
 +
Une autre association, très en force sur ce sujet, c’est la petite association Changer de cap, qui a fait un rapport vraiment absolument excellent sur ces questions en montrant les difficultés dans lesquelles étaient les gens par rapport à ces systèmes de <em>scoring</em>. Malgré tout, pour l'instant, on ne sait pas grand-chose de ces systèmes de <em>scoring</em>, parce que le code n'est toujours pas public. Ce qu'a reçu, en fait, La Quadrature, ce sont de vieilles versions du système de la CAF, la CAF se justifiant en disant « on peut pas vous donner accès à la version actuelle parce que les gens vont pouvoir contourner » !
 +
 +
<b>Laurent Costy : </b>Les gens vont pouvoir s'en servir pour contourner le système !
 +
 +
<b>Hubert Guillaud : </b>Or, les gens qui sont dans des difficultés vont avoir du mal à aller contourner !<br/>
 +
Pour prendre un exemple, le système a identifié que le fait de se connecter à son espace CAF plus d'une fois par mois était problématique. Bien évidemment ! Quand vous analysez toutes les données, le système va trouver des tas d'inférences, des tas de problèmes. Or, le fait de se connecter plusieurs fois par mois à son espace CAF, c'est souvent parce qu’on a un problème d'argent qui ne vient pas, qu’on attend un versement qui n’arrive pas. <br/>
 +
On se retrouve avec des tas de critères ! L'enjeu c'est d'interroger les critères qui sont mis en place : est-ce que ces critères sont juste ? Est-ce qu'on a droit de les prendre en compte ? Comment sont-ils pondérés par rapport à d'autres ? Etc. Pour l'instant, ce que fait la CAF est un petit peu nébuleux.<br/>
 +
Les chercheurs dans le domaine, comme Vincent Dubois, disent qu’on est dans un système où, en fait, les plus pauvres sont les plus surveillés, mais de manière assez logique. Pour la plupart des gens, il n'y a pas de problème, ils ont un salaire en fin de mois, les choses sont très très régulières, etc. Le problème se pose dès que vous sortez de ces formes de régularité, dès que vous n'avez plus de salaire tous les mois, que vous avez des salaires variables toutes les semaines, etc., Tout cela génère, automatiquement, de la donnée, des alertes, de la surveillance, « il n'a pas un profil normal », etc. On voit bien que plus vous êtes dans des systèmes qui sont un petit peu difficiles, par exemple le RSA ce sont des contrôles tous les trois mois et non pas une fois par an comme d'autres, plus vous allez avoir tendance à calculer des données, donc des erreurs qui sont considérées, trop souvent, comme des fraudes et qui vont être problématiques.
 +
 +
<b>Laurent Costy : </b>Merci. Du coup, l'histoire de la CAF sera à suivre, peut-être que tu reviendras dans quelques mois.<br/>
 +
Je vais repasser la parole à Fred pour la pause musicale.
 +
 +
<b>Frédéric Couchet : </b>Merci Laurent. Merci Hubert.<br/>
 +
Nous allons écouter <em>Trébor</em> par Ciboulette Cie, un choix, excellent d’ailleurs, de Laurent Costy. On se retrouve dans 2 minutes 30. Belle journée à l’écoute de Cause Commune, la voix des possibles.
 +
 +
<b>Pause musicale : </b><em>Trébor</em> par Ciboulette Cie.
 +
 +
<b>Voix off : </b>Cause Commune, 93.1.
 +
 +
<b>Frédéric Couchet : </b>Nous venons d’écouter <em>Trébor</em> par Ciboulette Cie, disponible sous licence libre Creative Commons Attribution, CC BY 3.0.
 +
 +
[Jingle]
 +
 +
==Deuxième partie==

Version du 20 septembre 2023 à 11:29


Titre : Émission Libre à vous ! diffusée mardi 20 septembre 2023 sur radio Cause Commune

Intervenant·e·s : Gee - Hubert Guillaud - Xavier Berne - Laurent Costy - Frédéric Couchet - à la régie

Lieu : Radio Cause Commune

Date : 20 septembre 2023

Durée : 1 h 30 min

Podcast PROVISOIRE

Page de présentation de l'émission

Licence de la transcription : Verbatim

Illustration : À prévoir

NB : transcription réalisée par nos soins, fidèle aux propos des intervenant·e·s mais rendant le discours fluide.
Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas nécessairement celles de l'April, qui ne sera en aucun cas tenue responsable de leurs propos.

Transcription

Voix off : Libre à vous !, l’émission pour comprendre et agir avec l’April, l’association de promotion et de défense du logiciel libre.

Frédéric Couchet : Bonjour à toutes. Bonjour à tous. C'est le cœur en joie que je vous retrouve dans Libre à vous !, l'émission qui vous raconte les libertés informatiques.
Au programme du jour, « Numérisation et justice sociale » avec Hubert Guillaud, journaliste, spécialiste des systèmes techniques et numériques, ce sera le sujet principal de l'émission. Avec également au programme la chronique de Gee « (Encore ) un nouveau Fairphone » et aussi, en fin d'émission, la chronique de Xavier Berne « Découvrez le droit d'accès aux documents administratifs ».

Cette émission Libre à vous ! est proposée par l'April l'association de promotion et de défense du logiciel libre.
Je suis je suis Frédéric Couchet le délégué général de l'April

Le site web de l’émission c’est libreavous.org. Vous pouvez y trouver une page consacrée à l’émission du jour avec tous les liens et références utiles et également les moyens de nous contacter. N’hésitez pas à nous faire des retours ou à nous poser toute question.

Nous sommes mardi 19 septembre 2023, nous diffusons en direct, mais vous écoutez peut-être une rediffusion ou un podcast.

À la réalisation de l’émission, elle doit être un peu stressée, car c'est sa première. Présidente de l'April aux multiples talents, elle était notamment ce week-end sur le stand de l'April dans l'espace numérique de la Fête de l'Huma. Libraire de son métier et par passion, on la croise souvent avec son écharpe et ce mardi, elle est derrière la console numérique pour sa première régie, accompagnée de mon collègue Étienne Gonnu. C'est Magali Garnero. Bonjour à vous.

Magali Garnero : Salut à tous.

Étienne Gonnu : Salut.

Frédéric Couchet : Nous vous souhaitons une excellente écoute.

[Jingle]

Chronique « Les humeurs de Gee » - « (Encore) un nouveau Fairphone ? »

Frédéric Couchet : Gee, auteur du blog-BD Grise Bouille








« Numérisation et justice sociale » avec Hubert Guillaud, journaliste, spécialiste des systèmes techniques et numériques

Frédéric Couchet : Nous allons poursuivre par notre sujet principal qui porte sur le thème « Numérisation » et justice sociale.
N’hésitez pas à participer à notre conversation au 09 72 51 55 46 ou sur le salon web dédié à l’émission, sur le site causecommune.fm, bouton « chat ».
Pour ce sujet, je vais laisser la parole à Laurent Costy, vice-président de l’April et à notre invité Hubert Guillaud, journaliste, spécialiste des systèmes techniques et numériques

Laurent Costy : Merci Fred.
Nous accueillons effectivement Hubert Guillaud. Il est journaliste. Il a animé pendant de nombreuses années le média de la Fondation d'un Internet Nouvelle Génération, InternetActu.net. Spécialiste du numérique, il a publié en 2022 Coincés dans Zoom, un livre sur l’impact du télétravail, et il prépare un nouvel essai consacré à Parcoursup. Il travaille également à un nouveau média consacré aux enjeux du numérique sur la société, dans le droit fil, finalement, de 20 ans de vulgarisation sur ces sujets.
Est-ce que tu veux compléter ton parcours, s’il te plaît ?

Hubert Guillaud : Bonjour à tous. Non, il est très bien !

Laurent Costy : Du coup, on va rentrer directement dans le sujet. On a un peu préparé l’émission avec Hubert. Le premier point qu’on souhaitait aborder, parce qu’il est d’actualité, c’est toute la question des algorithmes, des intelligences artificielles qu’on devrait plutôt appeler intelligences augmentées, peut-être.
Un des arguments le plus souvent mis en avant jusqu’ici pour critiquer les pratiques de collecte massive de données de la part des grandes entreprises de la Big Tech, était leur objectif de profiler les gens pour rendre la publicité plus efficace. Avec l’avènement des modèles de langage comme ChatGPT fin 2022, on est en droit de se demander si la collecte de données n’avait pas aussi comme objectif de préparer et de consolider les bases de données nécessaires à l’apprentissage de ces nouveaux outils. En effet, maîtriser de tels outils et être en avance sur les concurrents confère, on le voit bien, un pouvoir certain.
L’introduction est un peu lourde, mais, selon toi, la focalisation entre autres des communautés libristes sur la lutte contre la collecte de données à des fins publicitaires a-t-elle empêché de voir ce qui se préparait du côté de ce qu’on appelle un peu trop globalement IA ? Autrement posée, cette question pourrait être aussi : comment se fait-il que tout cela a jailli fin 2022, alors que ce sont des travaux et des enjeux de société qui existent finalement depuis des années ?
Ça fait beaucoup de questions !

Hubert Guillaud : Oui, ça fait beaucoup de questions en même temps ! En fait, on a eu raison d’insister sur la question de la capture des données vraiment depuis le début, parce que c’est bien le problème.
Tu prenais l’exemple de la publicité et c’est effectivement un exemple vraiment marquant, parce que la publicité c’est modèle économique par défaut du numérique. Depuis la naissance du Web, cette question du modèle économique est au cœur du problème. Grosso modo, toutes ces années, la fable qu’on a racontée aux investisseurs, c’est de leur dire « donnez-nous de l’argent pour qu’on se développe et à un moment on sera assez gros pour mettre de la pub et ça va rapporter de l’argent ». C’est ce que racontait très bien le chercheur Ethan Zuckerman, en 2014, « la publicité, c’est le modèle économique du numérique ; il est nécessaire de récolter toujours plus de donnés pour créer des annonces ciblées qui seront toujours plus efficaces. Si les revenus publicitaires sont insuffisants, il y a moyen de les améliorer, de construire un meilleur modèle publicitaire, plus adapté aux visiteurs, etc. ». Donc, par nature plus invasif, plus omniprésent, plus ciblé. La publicité, on comprend, mène tout droit à la surveillance des utilisateurs, àune surveillance toujours plus intrusive.

Bruce Schneier, le grand spécialiste de la sécurité, dit exactement la même chose quand il dit que la surveillance c’est le modèle d’affaires d’Internet, on est vraiment dessus. Le but c’est de vous faire cliquer, pas de vous faire réfléchir, ça favorise une sorte de centralisation pour atteindre des publics toujours plus larges. Et enfin, ça renforce la personnalisation dans une forme où chacun est très isolé.

Il y a 10 ans, quand Zuckerman commence ses propos sur la pub, il révèle qu’il a été l’un des inventeurs de la fenêtre pop-up. À l’époque il n‘était pas encore chercheur, il était développeur et c’était lui, entre autres, qui a mis au point cette petite fenêtre pop-up. Il s’en est excusé, il pensait, à cette époque, que la fenêtre pop-up était un moyen de rendre le Web plus accessible, alors que les gens ne savaient pas vraiment ce que c’était et ce que ça allait produire. C’était un moyen pour lui de permettre aux gens de pouvoir accéder au Web d’une manière gratuite, vu que la fenêtre pop-up c’est la pub, vraiment.
Il raconte qu’il imagine que passé ce premier modèle, on passerait à un modèle qui serait plus respectueux des données des utilisateurs, or ça n’a pas du tout été le cas, c’est même le contraire. On voit bien aujourd’hui que nous sommes de plus en plus contraints à devoir payer pour accéder aux services du Web, mais nous n’avons pas nos données personnelles plus respectées ou sanctuarisées. C’est la fameuse formule : si c’est gratuit c’est vous le produit, mais je rajoute tout le temps : si c’est payant vous l’êtes toujours, même quand c’est payant, on est toujours le produit, bien souvent.

Laurent Costy : Je distinguerais quand même deux gratuités. Il y a la gratuité des GAFAM, la pseudo-gratuité qui est effectivement néfaste et puis, souvent quand même, une gratuité sincère chez les libristes, qui mettent à disposition des logiciels libres. J’aime bien essayer de séparer les deux. Ça amalgame tout de dire « si c’est gratuit c’est vous le produit ». L’objectif c’était bien d’alerter sur cette problématique-là. Il ne faut peut-être pas oublier la logique sincère, bien souvent, des logiciels libres.
Excuse-moi de t’avoir interrompu.

Hubert Guillaud : Je suis assez d’accord. C‘est la même sincérité que celle qu’exprimait Ethan Zuckerman, c’est-à-dire qu’on va rendre le Web accessible par cette formule-là. En fait, c’est peut-être une des limites, ça l’a rendu, effectivement ,plus accessible, mais, derrière, s’y sont inscrites des logiques qui sont un peu plus problématiques.
La bannière pub est vraiment, je pense, un bon exemple. Quand elle naît en 1994, c’est simplement une image qui est posée sur le site web de Wired. On va calculer le nombre de gens qui vont cliquer sur cette image par rapport au nombre de gens qui se connectent sur cette page. À l’époque, le taux est faramineux, c’est 44 %, à peu près, de gens qui cliquent sur cette publicité.
Aujourd’hui on n’est plus du tout dans ces taux-là, dans ces domaines-là, la publicité est devenue très envahissante, mais en même temps, très peu productive économiquement parlant, et bien évidemment ça pose des tas de problèmes.
Est née ici, pour moi, la surveillance même d’Internet. D’un coup, on pouvait mettre une bannière et on pouvait surveiller les gens qui allaient cliquer dessus. On s’est d’abord mis à surveiller le nombre de gens qui cliquaient dessus et, après, de plus en plus d’informations, typiquement depuis quel ordinateur ils se connectaient, quelle adresse IP, et on a continué à creuser ces informations : qui étaient les utilisateurs qui venaient, qu’est-ce qu’ils faisaient, d’où ils venaient précisément, etc. On voit bien que derrière cet affichage publicitaire est née et s’est creusée toute la surveillance dans laquelle est aujourd’hui coulé Internet.

Laurent Costy : Ça me fait penser à une citation que j’ai retrouvée. On parlait de sincérité et de gratuité, j’ai retrouvé une citation de Larry Page et Sergey Brin, les cofondateurs de Google, qui, en 1998, disaient : « Les objectifs du modèle économique de la publicité ne correspondent pas systématiquement à une offre de qualité pour les utilisateurs de la recherche en ligne. Nous pensons que les moteurs de recherche financés par la publicité seront intrinsèquement biaisés en faveur des annonceures et répondront moins bien aux besoins des consommateurs. »

Hubert Guillaud : Effectivement, tout à fait. Ce qui est amusant c’est de voir combien ils se sont éloignés de leur première mission, en tout cas de leurs premières convictions, vraiment !
Aujourd’hui la pub s’est vraiment transformée. À chaque fois que nous agissons sur Internet, nous sommes catégorisés, etc. Un exemple que j’aime bien donner : par exemple, quand vous regardez sur Instagram ou Facebook, comment vous êtes caractérisé par cette publicité. Vous pouvez arriver à trouver, tout au fond de ces outils, les petits tags qui sont renseignés et qui sont censés vous caractériser. Or, ce n’est pas vous qui déclarez ces tags, ces moyens qu’on a de caractériser l’utilisateur ; ils sont calculés, ils sont inférés à partir de vos pratiques.
Typiquement, par exemple sur ma page, j’ai des trucs qui sont renseignés comme quoi j’aime le foot, et je n’aime pas du tout le foot le fait. Mais le système, parce qu’il a vu que je m’étais peut-être arrêté une demi-seconde sur une image de foot, parce que je connais quelqu’un qui aime le foot et que j’ai déjà répondu en commentaire à cette personne, va inférer les choses sur mon profil. Et tout le profil qui est constitué sur chacun d’entre nous est, en fait, complètement bidon. La plupart du temps, on est caractérisé par des tas de mots clefs qui servent à servir la publicité et qui n’ont rien à voir avec la réalité. Au contraire, c’est même une invention complète, on n’est pas du tout dans des formes de réalité. Et ça pose des tas de problèmes : qui infère ? Que sont ces machines qui infèrent des choses sur nous sur lesquelles nous ne sommes pas vraiment au courant et qu’est-ce qu’elles produisent ? En fait, elles produisent des formes de désillusion, des hallucinations comme on dit aujourd’hui avec ChatGPT, mais elles sont déjà là. Vraiment, dans cette manière même dont on profile les gens.

Il y a des choses, il y a des données que ces systèmes ont, par exemple, la plupart du temps, ils ont votre âge ou votre sexe, mais ça ne les empêche pas d’en inférer plein d’autres. Sur votre propre profil, vous avez souvent votre âge qui est inscrit, donc la machine ou le système connaît votre âge, mais en même temps, dans ces tags, vous allez avoir des tas d’autres informations sur votre âge qui n’ont rien à voir avec votre âge réel, parce qu’elles vont être inférées depuis ce sur quoi vous avez cliqué, ce que vous êtes allé voir, etc. Par exemple, je peux avoir à la fois 20 ans sur certaines données, 50 sur d’autres, etc.

Laurent Costy : Si on doit expliquer le mot inférer aux auditeurs et auditrices

Hubert Guillaud : Inférer c’est vraiment calculer, faire du croisement de données, des données croisées ou vraiment imaginées à partir d’autres données. Le fait de passer un peu de temps ou de rester 30 secondes sur une image de match foot va vous faire catégoriser d’un coup. Hop !, vous allez devenir foot, vous allez avoir ce tag qui va vous être attribué.
Ces systèmes recalculent en permanence des tas de données, inférant qui vous êtes, essayant de deviner qui vous êtes et ce que vous voulez faire.

Laurent Costy : C’est plus clair, je te remercie beaucoup.
Est-ce que, sur cette question-là, par rapport à la question publicitaire, tu estimes avoir répondu ? Je peux passer à une question suivante éventuellement ?

Hubert Guillaud : Bien sûr !

Laurent Costy : C’est extrêmement riche, c’est extrêmement dense, il faut aussi le digérer.
On voit bien, avec tes exemples qu’on ne sait pas trop comment les algorithmes jouent leur jeu, finalement.
Toujours sur cette question des algorithmes, récemment, avec les « intelligences artificielles », entre guillemets, la question de l’ouverture de l’algorithme s’est posée et il y a eu pas mal de débats autour de cette ouverture. Peux-tu faire part un peu de tes réflexions sur ce sujet ? Tu as écrit deux articles sur le Framablog par rapport à cette ouverture du code pour dire, finalement, que ça ne suffit pas, ça ne suffit pas à appréhender comment ça fonctionne. Tu peux éventuellement nous en dire plus et, peut-être, prendre l’exemple du partage du code que la ville de Rotterdam a opéré par rapport à la distribution des aides sociales sur la ville. Je trouve que cet exemple permet vraiment de comprendre et d’appréhender ce qui se passe, ce qui se joue avec la question des algorithmes.

Hubert Guillaud : Je vais d’abord répondre sur la question de l’ouverture comme faux-semblant.
L’ouverture ou la transparence ou le fait que le code source soit disponible est, depuis l’origine, un moyen de dire qu’on sait ce que fait le code puisqu’il est ouvert et disponible, c’est le principe même de l’<em<open source, on peut regarder. C'est ce que Lawrence Lessig affirme quand il dit Code is Law, « le code c'est la loi » et le code permet effectivement d'accéder au code en fait, donc de savoir exactement ce qui est calculé, etc.
Le vrai problème aujourd'hui, il me semble, c'est qu'on parle beaucoup de l'ouverture et de la transparence que je défends, je ne suis pas en train de dire qu'il faut passer à des formes d'opacité, c'est bien le contraire en fait, mais on nous dit que cette ouverture, cette transparence, sont les moyens de régler tous les problèmes. Or, le problème c'est que c'est de moins en moins vrai, d'abord parce que le code est de plus en plus compliqué, complexe, il est imbriqué entre des tas de systèmes différents et quand vous libérez quelque chose, en fait plein d'autres choses ne sont pas libérés. On l'a vu, par exemple, avec la libération du code de Twitter, par Twitter, en mars de cette année, si je ne me trompe pas. D'un coup, on allait avoir toutes les réponses sur le fonctionnement de Twitter. En fait, on n’a pas beaucoup de réponses, d'abord parce que Twitter n'a pas libéré tout le code, loin de là, il n’a libéré que certaines parties qui permettent d'avoir certains bouts d'informations, mais plein d'autres nous échappent et ça pose un vrai problème.
La réponse qu'on a tendance à donner c'est « il faut la transparence et la transparence suffira ». Cette transparence idéale ou idéelle serait formidable. J'ai de plus en plus tendance à dire que le problème c'est qu'elle devient de plus en plus difficile. Aujourd'hui, on est de plus en plus dans un système qui est non pas transparent mais qui est translucide. On a l'impression de voir ce qui se passe, mais, en fait, pas vraiment ! Et c'est très compliqué parce qu'on veut continuer à ce que cette transparence soit effective, on voudrait la pousser, on voudrait que les choses nous soient complètement lisibles, claires et déterminées et ce n'est pas le cas !
Pour moi la transparence ne suffit pas. On ne va pas pouvoir dire «  je vais publier le code et ça va suffire », en fait il faut mettre la transparence au cœur et il faut commencer par elle. Si on veut vraiment rendre les choses transparentes, il faut commencer par la transparence et elle doit être le cœur de l'activité et de tout ce qui est publié autour. Or bien souvent, la transparence vient après : on publie le code et derrière ça va aller !

Laurent Costy : Condition nécessaire mais insuffisante.
Il me semble que j'avais aussi lu un souci dans l'article que tu avais écrit. Il y avait aussi, outre effectivement le code, la question de la base de données, sur quelle base de données on se base et sur les critères qui alimentent l'algorithme, sur les critères qui finalement font que l'algorithme choisit telle ou telle chose. Finalement, ces critères-là sont sans cesse réajustés, donc on va analyser un algorithme à un instant t et puis l'instant d'après, à priori, on peut avoir changé des paramètres.

Hubert Guillaud : Oui. Tout à fait. Quand Twitter publie son code, c'est un fichier statique. Le problème c'est que par ces systèmes d'intelligence artificielle qui raffinent en permanence la manière dont ils proposent les choses, qui les ajustent en permanence, en fait ça change tout le temps. Au moment où Twitter publie son code, il est, en fait, déjà obsolète et les choses ont déjà changé.
Aujourd'hui, par exemple avec Twitter Blue, on sait que le fait de s'abonner à Twitter en payant va nous favoriser dans Twitter et va nous rendre plus visibles. La pondération serait de deux à quatre fois supérieure par rapport à ceux qui ne sont pas abonnés. On voit, en fait, que ça va certainement bien plus vite. Aujourd’hui, quand vous êtes encore sur Twitter, ce que je ne vous souhaite pas, mais qui, parfois, est encore un petit peu utile, vous ne voyez plus les gens auxquels vous êtes abonné et vous voyez de plus en plus ces comptes qui ont payé et qui viennent jusqu'à vous. C'est ce que Cory Doctorow appelle l'emmerdification des réseaux sociaux : dans les réseaux sociaux on suit des gens, c'est à eux qu'on veut avoir accès, et ces systèmes algorithmiques les transforment complètement, tant et si bien que vous n'avez plus accès aux gens que vous suivez et vous avez deux tiers de pub et trois quarts de comptes de gens qui ont payé et qui vont vous sursolliciter.

Laurent Costy : Merci. Du coup, on peut reparler de Mastodon qui avait fait un peu parler de lui au moment du rachat de Twitter. C'est un système alternatif décentralisé, on ne peut que vous encourager à vous renseigner sur cette solution alternative.
Je continue sur les « intelligences artificielles », toujours entre guillemets, puisque, encore une fois, on pourrait débattre pendant des heures. Vas-y, je t’en prie.

Hubert Guillaud : Je voudrais qu'on parle de Rotterdam.

Laurent Costy : Ah oui, pardon. Excuse-moi, je t'en prie.

Hubert Guillaud : Je vais me permettre d'être un peu précis. Récemment, je pense que c'était en juin, Wired encore une fois, avec des journalistes d'investigation néerlandais, a publié une grande enquête sur un système d'aide sociale. Ce système d’aide sociale, c'est celui qui a été utilisé par la ville de Rotterdam pendant plusieurs années. À Rotterdam, quelque 30 000 personnes bénéficient d'aides sociales : des aides au logement, des aides pour payer des factures, pour acquérir de la nourriture, etc.
En 2017, la ville a déployé un nouveau système de lutte contre la fraude aux allocations, mis en place par Accenture, et le système génère un score de risque sur tous les bénéficiaires de l'aide sociale, selon des critères assez problématiques puisqu'il prend en compte l'âge, le sexe, la maîtrise du néerlandais.
En 2021, la ville de Rotterdam a suspendu ce système après avoir reçu un audit sur celui-ci, commandé par le gouvernement. Wired et ??? [36 min 12] ont obtenu l'algorithme ainsi que les données d'entraînement et c'est assez rare en fait. La plupart du temps, sur tous ces vastes systèmes, on n'a pas les codes et on n'a pas non plus les données d'entraînement. Or, là, ils ont pu avoir accès aux deux, donc ça leur a permis de reconstruire le système et de le tester pour essayer de comprendre comment cette machine essaye de détecter la fraude.
Ce que disent les journalistes c'est que cette machine est avant tout une machine à soupçons. Ce qui apparaît à un travailleur social comme une vulnérabilité, comme une personne montrant des signes de faiblesse, est traité par la machine comme un motif de suspicion. Un truc vraiment hallucinant, ce sont les commentaires des travailleurs sociaux sur les dossiers : les travailleurs sociaux renseignent le dossier d'une personne, il y a un champ de commentaires sur lequel ils peuvent dire « cette personne est vraiment de bonne foi » ou « cette personne est vraiment de mauvaise foi », j'exagère, je caricature. Le fait de mettre un commentaire, qu'il soit positif ou négatif, comme je viens de vous le dire, compte dans le système. En fait, c'est quand il n’y a pas de commentaire, que cette donnée est désactivée, mais que le commentaire soit positif ou négatif, ça impacte le système comme un critère de risque négatif, comme un critère négatif, tout à fait.???
Et il y a plein de choses comme quand on regarde ce système dans le détail, ce qu'ont fait ces journalistes, il y a quelque 315 variables pour essayer de calculer un score de risque, il y a des variables qui vont se substituer à l'ethnicité, notamment le fait qu'à Rotterdam les bénéficiaires de l'aide sociale doivent parler le néerlandais ou montrer qu'ils font des efforts pour y parvenir. L'indication de langue maternelle ou le fait de vivre avec des colocataires peuvent également servir de substitution à ces calculs ; l'indication de la langue maternelle a été reconnue comme problématique par la Cour des comptes néerlandaise. N'empêche que ces systèmes, tous, essayent d’inférer des choses, comme on le disait tout à l'heure.
On voit vite, dans tous ces critères, que certaines variables sont bien plus problématiques que d'autres et conduisent à des scores plus élevés. Par exemple, le fait que vous soyez une femme célibataire avec des enfants va être corrélé à un facteur de risque supplémentaire. Or, quand on demande à la ville de Rotterdam ou au système d'aide sociale : est-ce que vous avez plus de fraude chez les femmes seules avec des enfants, ou pas ?, ils sont incapables de répondre, mais c'est ce que le système va mettre en avant et c'est ce qu’il va regarder ; c'est là où il va pointer des problèmes à partir des données qu'il a apprises. Même chose sur les personnes d'origine étrangère, qui parlent des langues différentes. Il semblerait, par exemple, que le système arrive à calculer selon des tas de langues différentes : certaines langues seraient plus corrélées à un critère de risque que d'autres.
C'est ce qui se passe quand on regarde vraiment le fonctionnement des systèmes dans le détail, ce qu'on ne fait pas assez. Aujourd'hui des tas systèmes d'aide sociale sont développés partout. On a un très bon exemple d'un système d’aide à l'étranger, mais il y en a plein partout. On en a en France.
Ça fait une dizaine d'années que la chercheuse Virginia Eubanks, qui a commencé ses travaux sur ces systèmes dans un livre formidable qui s'appelle Automating Inequality, « L'automatisation des inégalités », a montré que ces systèmes étaient partout défaillants. Et depuis, en fait, partout où ils sont développés, on voit qu'ils sont effectivement partout défaillants.

Laurent Costy : Merci. Du coup, est-ce que tu veux aussi parler un peu de la CAF en France.

Hubert Guillaud : Le problème, c'est que c'est difficile de parler de la CAF parce qu'on ne sait pas !

Laurent Costy : Il n’y a pas la transparence de la ville de Rotterdam.

Hubert Guillaud : Non, n'a pas encore la transparence de la ville de Rotterdam avec la CAF.

Laurent Costy : Il y a eu des demandes CADA, on en parlera en fin d'émission avec la petite intervention.

Hubert Guillaud : Il y a eu effectivement des demandes CADA pour accéder au système de calcul. Le système de calcul de score de risque de la CAF fait, en fait, la même chose que la ville de Rotterdam, certainement avec des techniques un petit peu différentes, mais il calcule un score de risque de fraude de ses usagers dans l'un de ses systèmes. Quand vous essayez d'obtenir des aides, votre profil est étudié.
Comment ont-ils fait ça ? Ils ont utilisé 5000 dossiers frauduleux et les ont fait analyser par des systèmes qui vont être capables de repérer. À partir de ces données générées, on va l'appliquer à tous les autres cas de la CAF pour essayer de regarder si d'autres dossiers peuvent être frauduleux.
Le problème c'est que dans ces formes d'analyses, on analyse toutes les données et plein posent problème.
Aujourd'hui, on ne sait pas exactement quels sont tous les critères qui sont mis en place par la CAF pour produire ces scores. Il y a effectivement eu des demandes CADA, des demandes de documents administratifs, notamment par La Quadrature du Net, pour accéder au code et au système de scoring des gens.
Une autre association, très en force sur ce sujet, c’est la petite association Changer de cap, qui a fait un rapport vraiment absolument excellent sur ces questions en montrant les difficultés dans lesquelles étaient les gens par rapport à ces systèmes de scoring. Malgré tout, pour l'instant, on ne sait pas grand-chose de ces systèmes de scoring, parce que le code n'est toujours pas public. Ce qu'a reçu, en fait, La Quadrature, ce sont de vieilles versions du système de la CAF, la CAF se justifiant en disant « on peut pas vous donner accès à la version actuelle parce que les gens vont pouvoir contourner » !

Laurent Costy : Les gens vont pouvoir s'en servir pour contourner le système !

Hubert Guillaud : Or, les gens qui sont dans des difficultés vont avoir du mal à aller contourner !
Pour prendre un exemple, le système a identifié que le fait de se connecter à son espace CAF plus d'une fois par mois était problématique. Bien évidemment ! Quand vous analysez toutes les données, le système va trouver des tas d'inférences, des tas de problèmes. Or, le fait de se connecter plusieurs fois par mois à son espace CAF, c'est souvent parce qu’on a un problème d'argent qui ne vient pas, qu’on attend un versement qui n’arrive pas.
On se retrouve avec des tas de critères ! L'enjeu c'est d'interroger les critères qui sont mis en place : est-ce que ces critères sont juste ? Est-ce qu'on a droit de les prendre en compte ? Comment sont-ils pondérés par rapport à d'autres ? Etc. Pour l'instant, ce que fait la CAF est un petit peu nébuleux.
Les chercheurs dans le domaine, comme Vincent Dubois, disent qu’on est dans un système où, en fait, les plus pauvres sont les plus surveillés, mais de manière assez logique. Pour la plupart des gens, il n'y a pas de problème, ils ont un salaire en fin de mois, les choses sont très très régulières, etc. Le problème se pose dès que vous sortez de ces formes de régularité, dès que vous n'avez plus de salaire tous les mois, que vous avez des salaires variables toutes les semaines, etc., Tout cela génère, automatiquement, de la donnée, des alertes, de la surveillance, « il n'a pas un profil normal », etc. On voit bien que plus vous êtes dans des systèmes qui sont un petit peu difficiles, par exemple le RSA ce sont des contrôles tous les trois mois et non pas une fois par an comme d'autres, plus vous allez avoir tendance à calculer des données, donc des erreurs qui sont considérées, trop souvent, comme des fraudes et qui vont être problématiques.

Laurent Costy : Merci. Du coup, l'histoire de la CAF sera à suivre, peut-être que tu reviendras dans quelques mois.
Je vais repasser la parole à Fred pour la pause musicale.

Frédéric Couchet : Merci Laurent. Merci Hubert.
Nous allons écouter Trébor par Ciboulette Cie, un choix, excellent d’ailleurs, de Laurent Costy. On se retrouve dans 2 minutes 30. Belle journée à l’écoute de Cause Commune, la voix des possibles.

Pause musicale : Trébor par Ciboulette Cie.

Voix off : Cause Commune, 93.1.

Frédéric Couchet : Nous venons d’écouter Trébor par Ciboulette Cie, disponible sous licence libre Creative Commons Attribution, CC BY 3.0.

[Jingle]

Deuxième partie