Fada de Data ! avec Joël Gombin

De April MediaWiki
Aller à la navigationAller à la recherche


Titre : Fada de Data ! avec Joël Gombin

Intervenants : Joël Gombin - Josquin Debaz

Lieu : La Cantine Brestoise – An Daol Vras

Date : 13 mars 2023

Durée : 48 min 20

Podcast

Présentation du podcast

Licence de la transcription : Verbatim

Illustration : À prévoir

NB : transcription réalisée par nos soins, fidèle aux propos des intervenant·e·s mais rendant le discours fluide.
Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas nécessairement celles de l'April, qui ne sera en aucun cas tenue responsable de leurs propos.

Description

Dans ce quarante-cinquième épisode, nous recevons Joël Gombin, cofondateur de Datactivist, société coopérative et participative, qui travaille à ouvrir les données et à les rendre utiles.

Transcription

Voix off :  ???. La cantine numérique de Brest a le plaisir de vous présenter son podcast.

Josquin Debaz : Dans ce 45e épisode, nous recevons Joël Gombin, cofondateur de Datactivist, société coopérative et participative qui travaille à ouvrir les données et à les rendre utiles. Bonne écoute. Joël Gombin bonjour.

Joël Gombin : Bonjour.

Josquin Debaz : Tu es le fondateur de la coopérative Datactivist. Qu'est-ce que c’est Datactivist ? Pourquoi une coopérative ? Beaucoup de questions me viennent.

Joël Gombin : Le mieux c'est de raconter l'histoire.
En fait, je suis le cofondateur de Datactivist puisque nous étions deux, avec Samuel Goëta, à créer Datactivist en 2016. Je connais Samuel depuis longtemps, nous étions étudiants à Sciences Po Aix tous les deux, je le connais depuis cette époque. Ensuite, chacun a fait sa vie et, en 2015, on se retrouve tous les deux dans le sud de la France après avoir quitté Paris. Samuel, un petit peu avant moi, a suivi sa femme qui avait trouvé un job à Aix-en-Provence et moi j'ai suivi la mienne qui avait trouvé un job à Marseille, à côté de Marseille. On se retrouve donc tous les deux dans le sud de la France, chacun à faire des thèses et à se dire « on verra bien sur place ce qu'on pourra faire ». Nous nous sommes retrouvés, ensemble, à faire des cours à Sciences Po Aix de cartographie, de controverse, des trucs comme ça. Du coup, on a pas mal tchatché.
Samuel finissait une thèse à Télécom ParisTech sur l'open data. Moi, j'essayais de faire une thèse, je n'ai jamais réussi, ce n’est pas que ??? [2 min 05] de faire une thèse en sociologie électorale et j'ai beaucoup travaillé à partir de données publiques qui se sont progressivement ouvertes au cours de ma thèse : des résultats électoraux, des données sociodémographiques, des données géographiques, ce genre de choses. Pendant ma thèse, j'ai donc appris à traiter ces données, à les analyser, à les visualiser, les modéliser, etc. Du coup, je me suis aussi intéressé un peu indirectement au statut de ces données.
Pour donner un exemple un peu concret, quand j'ai commencé à travailler en sociologie, géographie électorale, en 2004/2005, pour obtenir les résultats du recensement, par exemple, il fallait écrire à l'Insee, par la poste, envoyer un chèque, on vous renvoyait un cédérom sur lequel il y avait les données dans un format qui n'était pas du tout ouvert à l'époque. Il fallait acheter un logiciel qui s'appelait ??? [3 min 12], quelque chose comme ça. C'était extrêmement compliqué d'accéder à ces données et puis, si vous vouliez des données géographiques pour représenter ces données socio-démographiques, il fallait écrire à l'IGN qui, pareil, vous vendait assez cher des contours géographiques des communes ou des subdivisions administratives qui vous intéressaient, etc.
Et puis j'ai vu, progressivement, toutes ces données être disponibles sur Internet, être progressivement disponibles gratuitement, librement, etc., donc ça m'a beaucoup intéressé. À mon modeste niveau, comme apprenti chercheur, j'ai aussi poussé pour pouvoir faciliter l'accès à ces données.

Josquin Debaz : C’est ce mouvement de l'open data, en particulier de l'injonction qui est faite aux administrations d'ouvrir le plus possible leurs données.

Joël Gombin : Voilà, exactement. Moi je l'ai d'abord vu côté recherche, côté scientifique, mais ça s'est fait de manière assez parallèle et puis avec des institutions qui sont à la frontière entre les deux, l’Insee en est un bon exemple.
Avec Samuel, nous parlons beaucoup d'open data et puis, progressivement, de fil en aiguille, on en arrive à la conclusion, en 2015/2016, que le moment est peut-être bon pour professionnaliser un petit peu l'ouverture des données publiques. À cette époque-là, c'est ce qu'étudiait Samuel dans sa thèse, l'ouverture des données était assez largement le fait souvent d'agents publics ou de salariés dans les organisations, qui étaient, eux-mêmes, très convaincus, très militants, qui le faisaient parfois sur leur temps perso, en tout cas rarement dans le cadre d'un mandat explicite de leur organisation, dans le cadre de leur fiche de poste, etc.
On voit que l'open data commence à s’institutionnaliser : Etalab avait été créée en 2011, Henri Verdier arrive à la direction d‘Etalab en 2013 et relance le mouvement avec une nouvelle dynamique, etc. La loi pour une République numérique n’est pas encore adoptée, mais est dans les tuyaux, qui va poser, en 2016, le principe d'ouverture par défaut des données publiques, donc on se dit « OK, il va y avoir un changement d'échelle, donc il va y avoir besoin d'aide, besoin d'accompagnement » et c'est l'objet qu'on a donné à Datactivist : on va aider les organisations qui veulent ouvrir leurs données ou qui veulent réutiliser des données ouvertes.
C'est donc un peu comme ça que naît Datactivist.

Le nom lui-même vient d'une lecture qu’on aimait beaucoup tous les deux, un livre collectif qui s'appelle Statactivisme - Comment lutter avec des nombres, un ouvrage de recherche, qui rassemble un certain nombre de contributions de recherche, qui porte sur des acteurs assez variés qui ont utilisé l'outil statistique comme outil de lutte politique, par exemple les collectifs de chômeurs, souvent alliés à des statisticiens de l’Insee, qui ont lutté sur la définition de ce qu'est le chômage et comment, grosso modo, on le compte. Il y a des gros enjeux là-dessus, c’est un exemple parmi d'autres. Nous nous sommes dit « nous aimerions bien, nous aussi, que l'open data puisse servir à de l'émancipation, puisse servir à changer la société, etc. », on a donc créé ce terme de Datactivist.

Pourquoi une coopérative ? En fait en cohérence avec ça. On avait envie que l'open data puisse être quelque chose au service du bien commun, voire, finalement, que ça constitue un commun. À l'époque, cette notion de commun était moins répandue qu'aujourd'hui et il était moins évident que l'open data pouvait constituer un commun numérique, mais on a commencé cette réflexion-là, nous n’étions pas les seuls. Nous nous sommes dit « c'est assez cohérent de faire une coopérative, c'est assez cohérent avec ces principes-là. » Par ailleurs, Samuel avait vécu aux États-Unis dans un habitat coopératif, il avait adoré, donc il avait vraiment envie de décliner ce principe-là et, moi, je m’intéressais aussi par mal aux coopératives, j'avais une socialisation politique plutôt libertaire, on va dire, ça faisait donc partie des choses qui m'intéressaient. Donc voilà, on a créé Datactivist. Voilà un peu ce qu’est Datactivist. Ça c'est en 2016, on a officiellement créé Datactivist fin 2016, novembre 2016. Aujourd'hui, presque sept ans après, c'est une coopérative de plus d'une vingtaine de salariés, qui travaille toujours, évidemment, sur les sujets d'ouverture des données, d'ouverture des données publiques, mais qui, plus largement, s'intéresse à la contribution que peuvent avoir les données au bien commun et à l'intérêt général. On a donc un petit peu élargi notre champ d'action sur des notions connexes, par exemple on travaille pas mal les données de la recherche et de la science ouverte, au-delà de l'ouverture des données, on travaille sur les notions de gouvernance des données, de partage de données, on travaille aussi sur les questions de transparence algorithmique. On a un peu petit élargi notre champ d'action, mais je crois que le projet reste assez proche de ce qu'il était au départ.

Josquin Debaz : Si je comprends bien l’idée de Datactivist, c'est que les données sont intrinsèquement politiques, de nature politique, et un enjeu de pouvoir. Ça représente à la fois, comme tu l’as dit, un argument statistique. Quand on peut définir la donnée ou définir ce qu’est la juste donnée, la manière de la compter et la manière de la transmettre, déjà on oriente ou on réoriente les problèmes publics. Et puis c'est aussi un acte symbolique de savoir qu'elle est la donnée qu'on ouvre et quelle est la donnée, finalement, qu’on laissera de côté parce que, par exemple, intermédiaire, donc non définitive, non explicitée, ou parce que sous le couvert de différentes formes de secret.
Si j’ai bien compris, l’idée c'est que les pouvoirs publics, eyx, sont tenus de rendre des comptes.

Joël Gombin : En fait, on peut même placer la discussion en amont de la question d'ouverture et se dire que c'est déjà un choix politique de savoir quelles données sont produites ou pas.
Par exemple, on a une collègue, Maëlle Fouquenet, qui s'intéresse beaucoup à la question des données et du genre. Lorsqu'on collecte des données, le fait de collecter, ou pas, des choses sur le genre est une décision extrêmement politique parce qu’elle permet de donner à voir, ou pas, des inégalités de genre. On peut évidemment remplacer le genre par d'autres variables, mais c'est assez flagrant sur le genre.
Donc, oui, les données sont un sujet intrinsèquement politique, à la fois par la visibilité ou la manière de construire tel ou tel problème public et, plus largement, parce que, aujourd'hui, les données constituent une forme de l'infrastructure, donc les données sont un outil à la fois de pouvoir et d’empouvoirement, empowerment comme on dit en anglais.
Si on prend un projet comme OpenStreetMap c'est assez flagrant. On voit bien que construire la carte du monde est, par définition même, une opération de pouvoir. Pendant très longtemps ça a été le monopole des états, ce sont essentiellement les états qui étaient capables de faire des cartes. Ensuite, éventuellement, ça a été le monopole de quelques très grandes entreprises, très puissantes, et puis, aujourd'hui, c'est une opération potentiellement distribuée, à laquelle peuvent participer tous les citoyens et, surtout, dont peuvent bénéficier tous les citoyens. De ce point de vue-là, je pense qu’OpenStreetMap a une portée politique absolument incroyable et dont assez peu de gens, au final, ont conscience. On le sait peut-être davantage sur des projets comme Wikipédia, par exemple, mais, à titre personnel, je pense qu’OpenStreetMap est un projet d'une importance et d'une ampleur assez hallucinantes.

Josquin Debaz : On entrevoit qu’ouvrir les données ce n’est pas tout, c'est-à-dire que la donnée peut être ouverte mais si c'est un fichier, un tableur en format privé qui est dans un site, qui n’a pas du tout la même structure que celle de l'institution voisine, finalement c'est un travail de dingue de la récupérer. Il faut donc la nettoyer, la rendre opérable, la rendre accessible, la documenter l'insérer dans un système plus large, et c'est tout un travail que vous faites.

12’ 49

Joël Gombin : Effectivement. Samuel Goëta, mon cofondateur et Jérôme Denis ??? [12 min 54] ont écrit des choses sur le travail invisible des données.
Il y avait sans doute pas mal de naïveté parmi les fondateurs du mouvement de l'open data, de se dire « OK, il suffit d'appuyer sur le bouton et on ouvre les données ». En fait, on s'aperçoit que c'est beaucoup plus compliqué que ça, que l'ouverture des données n'est pas un simple changement du statut d'accès à des données, mais que ça implique beaucoup de choses du point de vue du travail à faire en amont de l'ouverture, du point de vue, également, du travail à faire en aval par les réutilisateurs potentiels. Ce qui explique aussi une part de la frustration qu’il peut y avoir lorsque l'ouverture se fait, ou ne se fait pas d'ailleurs, se dire « tiens, ça ne produit pas forcément tout de suite tous les effets qu'on avait imaginés ou ça ne produit pas tous les usages qu'on avait anticipés. »
En réalité, je pense qu'on est au tout début de cette histoire-là, c'est-à-dire qu’on a, aujourd'hui, à la fois des configurations administratives et des configurations techniques, des systèmes d'information qui ne sont absolument pas pensés, historiquement, pour l'ouverture, qui, souvent, ne sont même pas pensés pour produire de la donnée. Il faut savoir que l'administration est une immense machine à produire du document, du document papier qui a été, aujourd'hui, pour une large partie, numérisé, mais numérisé sans du tout repenser les usages, c’est-à-dire qu'on garde la forme du document administratif, on a juste mis un PDF à la place d'un document papier, mais la logique reste la même. C'est une logique qui est assez orthogonale à celle de la donnée, d’ailleurs à telle enseigne que, parfois, on est obligé de faire des trucs un peu absurdes. On a, par exemple, des missions dans lesquelles on est chargé de récupérer en ??? et de ??? [15 min 14], donc de lire, de manière automatique, le texte dans des PDF pour reconstituer des bases de données qui appartiennent à l'administration, en prenant des actes administratifs, des arrêtés, des délibérations, des choses comme ça. Et puis il y a des business qui se sont montés, ces dernières années, autour de cette idée-là. C’est donc un truc un peu absurde, quand on y réfléchit, mais qui est la réalité.

Je pense que quand on regardera ça dans quelques décennies on en sourira, parce que, progressivement on arrivera sans doute à reconfigurer au moins les systèmes d'information des administrations, peut-être plus difficilement, encore que, autour de la donnée en mettant la donnée au centre.
On voit que c'est un truc qui n’est pas simple, y compris dans des environnements nativement numériques. Quand on reprend ce que raconte Tim Berners-Lee sur le Web des données, par exemple : le Web est un truc qui est nativement numérique, mais même dans cet environnement du Web, construire le Web des données telles que Tim Berners-Lee l'a décrit, on voit que c'est très compliqué. En fait, aujourd'hui, on a un Web qui est essentiellement un web de documents, etc., en tout cas que la couche de sémantisation des données est très compliquée à mettre en œuvre, etc.
Tout ça, ce sont des choses qui vont prendre du temps, mais, en même temps, c'est normal. Si on réfléchit, par exemple, à la temporalité de l'impact de l'invention de l'imprimerie, elle se mesure en siècles. La manière dont la Réforme, dont toutes les conséquences sociales, politiques, historiques de l'imprimerie se sont mises, en place c'est à une échelle séculaire.
Je pense qu’il est compliqué, aujourd'hui, de pouvoir tire un bilan tout ça

En tout cas, pour en revenir à ta question initiale, oui, j'ouvre des données ce n’est pas juste prendre un fichier et le mettre sur un portail web ou juste dire « OK je donne accès à ce fichier-là ». Ça implique effectivement un travail et ça l’impliquera aussi de plus en plus à mesure que les attentes augmenteront. Au début on a dit « l'ouverture des données, c'est juste mettre CSV et lui coller une licence ouverte par-dessus ». En fait, aujourd'hui, on s'aperçoit que CSV c’est bien, mais que ce serait un peu mieux si on avait une couche de sémantique là-dessus et qu'on était capable de comprendre. Sémantique veut dire donner un sens à ce qu'il y a dans ce fichier CSV, peu importe le format du fichier, en tout cas se dire « quand, dans le fichier, est marqué ça, je suis capable d'avoir un référentiel qui m'explique que ça s'interprète de telle manière », de manière automatique, etc. C'est donc un travail qui est encore beaucoup plus compliqué, qui, aujourd'hui, est très peu fait, mais plus on ira, plus c'est ce genre de chose qu'on attendra. Quand on a une adresse, on soit capable de la relier à un référentiel géographique, quand on a une unité, on soit capable de la relier à un référentiel d'unités, quand on a une entité on soit capable de la relier à une entité, etc., mais on en est loin.
Pour prendre un exemple, si aujourd'hui je vais sur data.gouv.fr, le portail open data du Gouvernement, aujourd'hui on n'a pas de référentiel sur les producteurs des jeux de données, je ne parle même pas des jeux de données qui sont dessus, les gens qui publient les jeux de données. Il y a marqué, quelque part, par exemple, ministère de telle chose, mais, en fait, cette notion-là n'obéit pas à un référentiel. Je n’ai pas d'identifiant unique qui permet de dire que ça renvoie à telle entité, sachant, en plus, que le périmètre des ministères change à chaque remaniement ministériel, des fois c'est un ministère, des fois c’est une direction d'administration centrale, des fois c'est un service au sein d'une direction, etc. Donc, sur des choses aussi, entre guillemet « simples » que ça, aujourd'hui on n’y est pas encore et si on essaie de faire ça, c'est déjà très compliqué.
Il y a donc encore beaucoup de travail devant nous et c'est aussi ça qui est intéressant dans ce sujet-là, en fait ce n'est jamais fini, on peut toujours aller plus loin et les potentialités, à terme, sont extraordinaires.

Josquin Debaz : Tu as un petit peu parlé des administrations, mais, plus globalement, qui sont vos clients ?

Joël Gombin : Très largement, ce sont des administrations, 85/90 % de notre chiffre d'affaires c'est du secteur public, aussi bien au niveau de l’État, on a travaillé et on travaille pour d'assez nombreux ministères ou établissements publics de l’État, qu’au niveau des collectivités territoriales, on a travaillé, on travaille pour beaucoup de collectivités territoriales.
Au-delà du secteur public, il nous arrive, mais c'est plus ponctuel, de travailler soit pour des entreprises, ça va depuis la TPE jusqu’à du très grand groupe.
Sur le secteur privé, ce sont aussi assez souvent des associations ou des ONG, ce type d'acteur. Il nous est arrivé assez régulièrement de bosser sur des sujets de plaidoyer, par exemple, des choses comme ça, mais pour l'essentiel c'est quand même du secteur public.

Josquin Debaz : On l’entrevoit dans l'anecdote que tu as faite tout à l'heure, vos clients sont aussi vos fournisseurs.

Joël Gombin : Oui, d'une certaine manière, des fournisseurs de données. Pas nos fournisseurs dans un sens marchand, parce qu’on ne leur achète rien, mais oui, effectivement, nous sommes des clients. Quelque chose qu’on aime bien et, je pense, qu'on va essayer de développer, de creuser de plus en plus, effectivement les considérer comme des partenaires autant que comme des clients. Certes, il y a une relation contractuelle, il y a une relation marchande, mais, au-delà, il y a surtout une volonté commune d'aller dans une certaine direction. Comme nous sommes une coopérative, on a aussi eu cette chance, finalement, de pouvoir se dire « OK, ça ce sont des choses qu'on a envie de faire, ça ce sont des choses qu'on n'a pas envie de faire », d'ailleurs, je pense qu'à l'avenir on sera de plus en plus en plus sélectifs, quelque part, sur ce qu’on accepte de faire ou pas.

Josquin Debaz : Comment votre métier s'inscrit-il entre la la science des données en général et le data journalisme ?

22’ 47

Joël Gombin : C'est une bonne question.