« Fada de Data ! avec Joël Gombin » : différence entre les versions
(→22’ 47) |
(→36’ 09) |
||
Ligne 131 : | Ligne 131 : | ||
<b>Joël Gombin : </b>Oui. Ça fait même des années qu’ils sont dans ce mouvement-là. En fait, tous les jeunes qui sortent de l'ENSAE [École nationale de la statistique et de l'administration économique de Paris] sont maintenant sont formés à R, ils n’ont plus du tout envie de bosse avec SAS [<em>tatistical Analysis System</em>], donc oui, ça fait quelques années, mais ça monte pas mal en puissance. C'est intéressant, je suis depuis assez longtemps ce qui se passe en termes de pratiques à l'Insee, de rapport à R, etc. J'ai commencé R assez tôt, en 2008/2009, il y avait assez peu de gens en France qui le faisaient, en tout cas c'était clairement restreint au monde académique et à certains segments du champ académique.<br/> | <b>Joël Gombin : </b>Oui. Ça fait même des années qu’ils sont dans ce mouvement-là. En fait, tous les jeunes qui sortent de l'ENSAE [École nationale de la statistique et de l'administration économique de Paris] sont maintenant sont formés à R, ils n’ont plus du tout envie de bosse avec SAS [<em>tatistical Analysis System</em>], donc oui, ça fait quelques années, mais ça monte pas mal en puissance. C'est intéressant, je suis depuis assez longtemps ce qui se passe en termes de pratiques à l'Insee, de rapport à R, etc. J'ai commencé R assez tôt, en 2008/2009, il y avait assez peu de gens en France qui le faisaient, en tout cas c'était clairement restreint au monde académique et à certains segments du champ académique.<br/> | ||
Par exemple à l'Insee, pendant longtemps, ceux qui faisaient du R c’était vraiment sous le manteau, etc., et puis, maintenant, l'Insee a une politique assez proactive en fait de soutenir ça, de réserver du temps au développement de paquets ou d'outils, voire sur de l'infra. Je ne sais pas si tu as suivi ce qu’a fait l’Insee | Par exemple à l'Insee, pendant longtemps, ceux qui faisaient du R c’était vraiment sous le manteau, etc., et puis, maintenant, l'Insee a une politique assez proactive en fait de soutenir ça, de réserver du temps au développement de paquets ou d'outils, voire sur de l'infra. Je ne sais pas si tu as suivi ce qu’a fait l’Insee avec Onyxia, par exemple, c'est un truc assez incroyable, vraiment très cool, qu'ils ont développé.<br/> | ||
Donc oui, c'est sûr que tout ça se développe. Le support dont je te parlais date de 2017, je pense qu’il n'est plus du tout à jour, qu’il y a des trucs qui ne sont plus du tout au goût du jour, mais voilà !<br/> | Donc oui, c'est sûr que tout ça se développe. Le support dont je te parlais date de 2017, je pense qu’il n'est plus du tout à jour, qu’il y a des trucs qui ne sont plus du tout au goût du jour, mais voilà !<br/> | ||
On croit beaucoup au pouvoir de l'ouverture, on essaie de se l'appliquer à nous-mêmes autant que possible, avec les mêmes contradictions de tout le monde, sans aucun doute.<br/> | On croit beaucoup au pouvoir de l'ouverture, on essaie de se l'appliquer à nous-mêmes autant que possible, avec les mêmes contradictions de tout le monde, sans aucun doute.<br/> |
Version du 7 mars 2024 à 08:30
Titre : Fada de Data ! avec Joël Gombin
Intervenants : Joël Gombin - Josquin Debaz
Lieu : La Cantine Brestoise – An Daol Vras
Date : 13 mars 2023
Durée : 48 min 20
Licence de la transcription : Verbatim
Illustration : À prévoir
NB : transcription réalisée par nos soins, fidèle aux propos des intervenant·e·s mais rendant le discours fluide.
Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas nécessairement celles de l'April, qui ne sera en aucun cas tenue responsable de leurs propos.
Description
Dans ce quarante-cinquième épisode, nous recevons Joël Gombin, cofondateur de Datactivist, société coopérative et participative, qui travaille à ouvrir les données et à les rendre utiles.
Transcription
Voix off : An Daol Vras, la cantine numérique de Brest, a le plaisir de vous présenter son podcast.
Josquin Debaz : Dans ce 45e épisode, nous recevons Joël Gombin, cofondateur de Datactivist, société coopérative et participative qui travaille à ouvrir les données et à les rendre utiles. Bonne écoute. Joël Gombin bonjour.
Joël Gombin : Bonjour.
Josquin Debaz : Tu es le fondateur de la coopérative Datactivist. Qu'est-ce que c’est Datactivist ? Pourquoi une coopérative ? Beaucoup de questions me viennent.
Joël Gombin : Le mieux c'est de raconter l'histoire.
En fait, je suis le cofondateur de Datactivist puisque nous étions deux, avec Samuel Goëta, à créer Datactivist en 2016. Je connais Samuel depuis longtemps, nous étions étudiants à Sciences Po Aix tous les deux, je le connais depuis cette époque. Ensuite, chacun a fait sa vie et, en 2015, on se retrouve tous les deux dans le sud de la France après avoir quitté Paris. Samuel, un petit peu avant moi, a suivi sa femme qui avait trouvé un job à Aix-en-Provence et moi j'ai suivi la mienne qui avait trouvé un job à Marseille, à côté de Marseille. On se retrouve donc tous les deux dans le sud de la France, chacun à faire des thèses et à se dire « on verra bien sur place ce qu'on pourra faire ». Nous nous sommes retrouvés, ensemble, à faire des cours à Sciences Po Aix de cartographie, de controverse, des trucs comme ça. Du coup, on a pas mal tchatché.
Samuel finissait une thèse à Télécom ParisTech sur l'open data. Moi, j'essayais de faire une thèse - je n'ai jamais réussi spoiler alert - de faire une thèse en sociologie électorale et j'ai beaucoup travaillé à partir de données publiques qui se sont progressivement ouvertes au cours de ma thèse : des résultats électoraux, des données sociodémographiques, des données géographiques, ce genre de choses. Pendant ma thèse, j'ai donc appris à traiter ces données, à les analyser, à les visualiser, les modéliser, etc. Du coup, je me suis aussi intéressé un peu indirectement au statut de ces données.
Pour donner un exemple un peu concret, quand j'ai commencé à travailler en sociologie, géographie électorale, en 2004/2005, pour obtenir les résultats du recensement, par exemple, il fallait écrire à l'Insee, par la poste, envoyer un chèque, on vous renvoyait un cédérom sur lequel il y avait les données dans un format qui n'était pas du tout ouvert à l'époque. Il fallait acheter un logiciel qui s'appelait Beyond, quelque chose comme ça. C'était extrêmement compliqué d'accéder à ces données et puis, si vous vouliez des données géographiques pour représenter ces données socio-démographiques, il fallait écrire à l'IGN qui, pareil, vous vendait assez cher des contours géographiques des communes ou des subdivisions administratives qui vous intéressaient, etc.
Et puis j'ai vu, progressivement, toutes ces données être disponibles sur Internet, être progressivement disponibles gratuitement, librement, etc., donc ça m'a beaucoup intéressé. À mon modeste niveau, comme apprenti chercheur, j'ai aussi poussé pour pouvoir faciliter l'accès à ces données.
Josquin Debaz : C’est ce mouvement de l'open data, en particulier de l'injonction qui est faite aux administrations d'ouvrir le plus possible leurs données.
Joël Gombin : Voilà, exactement. Moi je l'ai d'abord vu côté recherche, côté scientifique, mais ça s'est fait de manière assez parallèle et puis avec des institutions qui sont à la frontière entre les deux, l’Insee en est un bon exemple.
Avec Samuel, nous parlons beaucoup d'open data et puis, progressivement, de fil en aiguille, on en arrive à la conclusion, en 2015/2016, que le moment est peut-être bon pour professionnaliser un petit peu l'ouverture des données publiques. À cette époque-là, c'est ce qu'étudiait Samuel dans sa thèse, l'ouverture des données était assez largement le fait souvent d'agents publics ou de salariés dans les organisations, qui étaient, eux-mêmes, très convaincus, très militants, qui le faisaient parfois sur leur temps perso, en tout cas rarement dans le cadre d'un mandat explicite de leur organisation, dans le cadre de leur fiche de poste, etc.
On voit que l'open data commence à s’institutionnaliser : Etalab avait été créée en 2011, Henri Verdier arrive à la direction d‘Etalab en 2013 et relance le mouvement avec une nouvelle dynamique, etc. La loi pour une République numérique n’est pas encore adoptée, mais est dans les tuyaux, qui va poser, en 2016, le principe d'ouverture par défaut des données publiques, donc on se dit « OK, il va y avoir un changement d'échelle, donc il va y avoir besoin d'aide, besoin d'accompagnement » et c'est l'objet qu'on a donné à Datactivist : on va aider les organisations qui veulent ouvrir leurs données ou qui veulent réutiliser des données ouvertes.
C'est donc un peu comme ça que naît Datactivist.
Le nom lui-même vient d'une lecture qu’on aimait beaucoup tous les deux, un livre collectif qui s'appelle Statactivisme - Comment lutter avec des nombres, un ouvrage de recherche, qui rassemble un certain nombre de contributions de recherche, qui porte sur des acteurs assez variés qui ont utilisé l'outil statistique comme outil de lutte politique, par exemple les collectifs de chômeurs, souvent alliés à des statisticiens de l’Insee, qui ont lutté sur la définition de ce qu'est le chômage et comment, grosso modo, on le compte. Il y a des gros enjeux là-dessus, c’est un exemple parmi d'autres. Nous nous sommes dit « nous aimerions bien, nous aussi, que l'open data puisse servir à de l'émancipation, puisse servir à changer la société, etc. », on a donc créé ce terme de Datactivist.
Pourquoi une coopérative ? En fait en cohérence avec ça. On avait envie que l'open data puisse être quelque chose au service du bien commun, voire, finalement, que ça constitue un commun. À l'époque, cette notion de commun était moins répandue qu'aujourd'hui et il était moins évident que l'open data pouvait constituer un commun numérique, mais on a commencé cette réflexion-là, nous n’étions pas les seuls. Nous nous sommes dit « c'est assez cohérent de faire une coopérative, c'est assez cohérent avec ces principes-là. » Par ailleurs, Samuel avait vécu aux États-Unis dans un habitat coopératif, il avait adoré, donc il avait vraiment envie de décliner ce principe-là et, moi, je m’intéressais aussi par mal aux coopératives, j'avais une socialisation politique plutôt libertaire, on va dire, ça faisait donc partie des choses qui m'intéressaient. Donc voilà, on a créé Datactivist. Voilà un peu ce qu’est Datactivist. Ça c'est en 2016, on a officiellement créé Datactivist fin 2016, novembre 2016. Aujourd'hui, presque sept ans après, c'est une coopérative de plus d'une vingtaine de salariés, qui travaille toujours, évidemment, sur les sujets d'ouverture des données, d'ouverture des données publiques, mais qui, plus largement, s'intéresse à la contribution que peuvent avoir les données au bien commun et à l'intérêt général. On a donc un petit peu élargi notre champ d'action sur des notions connexes, par exemple on travaille pas mal les données de la recherche et de la science ouverte, au-delà de l'ouverture des données, on travaille sur les notions de gouvernance des données, de partage de données, on travaille aussi sur les questions de transparence algorithmique. On a un peu petit élargi notre champ d'action, mais je crois que le projet reste assez proche de ce qu'il était au départ.
Josquin Debaz : Si je comprends bien l’idée de Datactivist, c'est que les données sont intrinsèquement politiques, de nature politique, et un enjeu de pouvoir. Ça représente à la fois, comme tu l’as dit, un argument statistique. Quand on peut définir la donnée ou définir ce qu’est la juste donnée, la manière de la compter et la manière de la transmettre, déjà on oriente ou on réoriente les problèmes publics. Et puis c'est aussi un acte symbolique de savoir qu'elle est la donnée qu'on ouvre et quelle est la donnée, finalement, qu’on laissera de côté parce que, par exemple, intermédiaire, donc non définitive, non explicitée, ou parce que sous le couvert de différentes formes de secret.
Si j’ai bien compris, l’idée c'est que les pouvoirs publics, eux, sont tenus de rendre des comptes.
Joël Gombin : En fait, on peut même placer la discussion en amont de la question d'ouverture et se dire que c'est déjà un choix politique de savoir quelles données sont produites ou pas.
Par exemple, on a une collègue, Maëlle Fouquenet, qui s'intéresse beaucoup à la question des données et du genre. Lorsqu'on collecte des données, le fait de collecter, ou pas, des choses sur le genre est une décision extrêmement politique parce qu’elle permet de donner à voir, ou pas, des inégalités de genre. On peut évidemment remplacer le genre par d'autres variables, mais c'est assez flagrant sur le genre.
Donc, oui, les données sont un sujet intrinsèquement politique, à la fois par la visibilité ou la manière de construire tel ou tel problème public et, plus largement, parce que, aujourd'hui, les données constituent une forme de l'infrastructure, donc les données sont un outil à la fois de pouvoir et d’empouvoirement, empowerment comme on dit en anglais.
Si on prend un projet comme OpenStreetMap c'est assez flagrant. On voit bien que construire la carte du monde est, par définition même, une opération de pouvoir. Pendant très longtemps ça a été le monopole des états, ce sont essentiellement les états qui étaient capables de faire des cartes. Ensuite, éventuellement, ça a été le monopole de quelques très grandes entreprises, très puissantes, et puis, aujourd'hui, c'est une opération potentiellement distribuée, à laquelle peuvent participer tous les citoyens et, surtout, dont peuvent bénéficier tous les citoyens. De ce point de vue-là, je pense qu’OpenStreetMap a une portée politique absolument incroyable et dont assez peu de gens, au final, ont conscience. On le sait peut-être davantage sur des projets comme Wikipédia, par exemple, mais, à titre personnel, je pense qu’OpenStreetMap est un projet d'une importance et d'une ampleur assez hallucinantes.
Josquin Debaz : On entrevoit qu’ouvrir les données ce n’est pas tout, c'est-à-dire que la donnée peut être ouverte mais si c'est un fichier, un tableur en format privé qui est dans un site, qui n’a pas du tout la même structure que celle de l'institution voisine, finalement c'est un travail de dingue de la récupérer. Il faut donc la nettoyer, la rendre opérable, la rendre accessible, la documenter l'insérer dans un système plus large, et c'est tout un travail que vous faites.
12’ 49
Joël Gombin : Effectivement. Samuel Goëta, mon cofondateur et Jérôme Denis ont écrit des choses sur le travail invisible des données.
Il y avait sans doute pas mal de naïveté parmi les fondateurs du mouvement de l'open data, de se dire « OK, il suffit d'appuyer sur le bouton et on ouvre les données ». En fait, on s'aperçoit que c'est beaucoup plus compliqué que ça, que l'ouverture des données n'est pas un simple changement du statut d'accès à des données, mais que ça implique beaucoup de choses du point de vue du travail à faire en amont de l'ouverture, du point de vue, également, du travail à faire en aval par les réutilisateurs potentiels. Ce qui explique aussi une part de la frustration qu’il peut y avoir lorsque l'ouverture se fait, ou ne se fait pas d'ailleurs, se dire « tiens, ça ne produit pas forcément tout de suite tous les effets qu'on avait imaginés ou ça ne produit pas tous les usages qu'on avait anticipés. »
En réalité, je pense qu'on est au tout début de cette histoire-là, c'est-à-dire qu’on a, aujourd'hui, à la fois des configurations administratives et des configurations techniques, des systèmes d'information qui ne sont absolument pas pensés, historiquement, pour l'ouverture, qui, souvent, ne sont même pas pensés pour produire de la donnée. Il faut savoir que l'administration est une immense machine à produire du document, du document papier qui a été, aujourd'hui, pour une large partie, numérisé, mais numérisé sans du tout repenser les usages, c’est-à-dire qu'on garde la forme du document administratif, on a juste mis un PDF à la place d'un document papier, mais la logique reste la même. C'est une logique qui est assez orthogonale à celle de la donnée, d’ailleurs à telle enseigne que, parfois, on est obligé de faire des trucs un peu absurdes. On a, par exemple, des missions dans lesquelles on est chargé de récupérer en scrapant et de OCRiser, donc de lire, de manière automatique, le texte dans des PDF pour reconstituer des bases de données qui appartiennent à l'administration, en prenant des actes administratifs, des arrêtés, des délibérations, des choses comme ça. Et puis il y a des business qui se sont montés, ces dernières années, autour de cette idée-là. C’est donc un truc un peu absurde, quand on y réfléchit, mais qui est la réalité.
Je pense que quand on regardera ça dans quelques décennies on en sourira, parce que, progressivement on arrivera sans doute à reconfigurer au moins les systèmes d'information des administrations, peut-être plus difficilement, encore que, autour de la donnée en mettant la donnée au centre.
On voit que c'est un truc qui n’est pas simple, y compris dans des environnements nativement numériques. Quand on reprend ce que raconte Tim Berners-Lee sur le Web des données, par exemple : le Web est un truc qui est nativement numérique, mais même dans cet environnement du Web, construire le Web des données telles que Tim Berners-Lee l'a décrit, on voit que c'est très compliqué. En fait, aujourd'hui, on a un Web qui est essentiellement un web de documents, etc., en tout cas que la couche de sémantisation des données est très compliquée à mettre en œuvre, etc.
Tout ça, ce sont des choses qui vont prendre du temps, mais, en même temps, c'est normal. Si on réfléchit, par exemple, à la temporalité de l'impact de l'invention de l'imprimerie, elle se mesure en siècles. La manière dont la Réforme, dont toutes les conséquences sociales, politiques, historiques de l'imprimerie se sont mises, en place c'est à une échelle séculaire.
Je pense qu’il est compliqué, aujourd'hui, de pouvoir tire un bilan tout ça
En tout cas, pour en revenir à ta question initiale, oui, j'ouvre des données ce n’est pas juste prendre un fichier et le mettre sur un portail web ou juste dire « OK je donne accès à ce fichier-là ». Ça implique effectivement un travail et ça l’impliquera aussi de plus en plus à mesure que les attentes augmenteront. Au début on a dit « l'ouverture des données, c'est juste mettre CSV et lui coller une licence ouverte par-dessus ». En fait, aujourd'hui, on s'aperçoit que CSV c’est bien, mais que ce serait un peu mieux si on avait une couche de sémantique là-dessus et qu'on était capable de comprendre. Sémantique veut dire donner un sens à ce qu'il y a dans ce fichier CSV, peu importe le format du fichier, en tout cas se dire « quand, dans le fichier, est marqué ça, je suis capable d'avoir un référentiel qui m'explique que ça s'interprète de telle manière », de manière automatique, etc. C'est donc un travail qui est encore beaucoup plus compliqué, qui, aujourd'hui, est très peu fait, mais plus on ira, plus c'est ce genre de chose qu'on attendra. Quand on a une adresse, on soit capable de la relier à un référentiel géographique, quand on a une unité, on soit capable de la relier à un référentiel d'unités, quand on a une entité on soit capable de la relier à une entité, etc., mais on en est loin.
Pour prendre un exemple, si aujourd'hui je vais sur data.gouv.fr, le portail open data du Gouvernement, aujourd'hui on n'a pas de référentiel sur les producteurs des jeux de données, je ne parle même pas des jeux de données qui sont dessus, les gens qui publient les jeux de données. Il y a marqué, quelque part, par exemple, ministère de telle chose, mais, en fait, cette notion-là n'obéit pas à un référentiel. Je n’ai pas d'identifiant unique qui permet de dire que ça renvoie à telle entité, sachant, en plus, que le périmètre des ministères change à chaque remaniement ministériel, des fois c'est un ministère, des fois c’est une direction d'administration centrale, des fois c'est un service au sein d'une direction, etc. Donc, sur des choses aussi, entre guillemet « simples » que ça, aujourd'hui on n’y est pas encore et si on essaie de faire ça, c'est déjà très compliqué.
Il y a donc encore beaucoup de travail devant nous et c'est aussi ça qui est intéressant dans ce sujet-là, en fait ce n'est jamais fini, on peut toujours aller plus loin et les potentialités, à terme, sont extraordinaires.
Josquin Debaz : Tu as un petit peu parlé des administrations, mais, plus globalement, qui sont vos clients ?
Joël Gombin : Très largement, ce sont des administrations, 85/90 % de notre chiffre d'affaires c'est du secteur public, aussi bien au niveau de l’État, on a travaillé et on travaille pour d'assez nombreux ministères ou établissements publics de l’État, qu’au niveau des collectivités territoriales, on a travaillé, on travaille pour beaucoup de collectivités territoriales.
Au-delà du secteur public, il nous arrive, mais c'est plus ponctuel, de travailler soit pour des entreprises, ça va depuis la TPE jusqu’à du très grand groupe.
Sur le secteur privé, ce sont aussi assez souvent des associations ou des ONG, ce type d'acteur. Il nous est arrivé assez régulièrement de bosser sur des sujets de plaidoyer, par exemple, des choses comme ça, mais pour l'essentiel c'est quand même du secteur public.
Josquin Debaz : On l’entrevoit dans l'anecdote que tu as faite tout à l'heure, vos clients sont aussi vos fournisseurs.
Joël Gombin : Oui, d'une certaine manière, des fournisseurs de données. Pas nos fournisseurs dans un sens marchand, parce qu’on ne leur achète rien, mais oui, effectivement, nous sommes des clients. Quelque chose qu’on aime bien et, je pense, qu'on va essayer de développer, de creuser de plus en plus, effectivement les considérer comme des partenaires autant que comme des clients. Certes, il y a une relation contractuelle, il y a une relation marchande, mais, au-delà, il y a surtout une volonté commune d'aller dans une certaine direction. Comme nous sommes une coopérative, on a aussi eu cette chance, finalement, de pouvoir se dire « OK, ça ce sont des choses qu'on a envie de faire, ça ce sont des choses qu'on n'a pas envie de faire », d'ailleurs, je pense qu'à l'avenir on sera de plus en plus en plus sélectifs, quelque part, sur ce qu’on accepte de faire ou pas.
Josquin Debaz : Comment votre métier s'inscrit-il entre la la science des données en général et le data journalisme ?
22’ 47
Joël Gombin : C'est une bonne question. En fait, on a plusieurs métiers.
Le cœur de notre métier c’est quand même plutôt un métier d'accompagnement et de conseil, on est essentiellement un cabinet de conseil. Mais effectivement, dans ce cadre-là, on est quand même amenés régulièrement à devoir traiter des données pour le compte de nos clients, parfois pour notre propre compte. Dans certains cas, ça peut effectivement relever de la data science, on met des choses assez diverses derrière ce terme de data science et parfois ça en relève vraiment, y compris dans un sens assez fort de data science, soit pour le compte de clients, mais plutôt pour notre propre compte.
Par exemple, on a développé un prototype dans le cadre de notre recherche et développement, un prototype de ce qu'on a appelé une conciergerie de données, en fait un chatbot qui permet de trouver plus facilement des données. Aujourd’hui, l'un des gros enjeux de l'open data, et c'est un enjeu qui ne sera que croissant à mesure que de plus en plus de données seront ouvertes, c’est la découvrabilité des données. Il y a de plus en plus de données ouvertes, mais, finalement, pour trouver les données qu'on cherche, c'est aussi de plus en plus difficile, en particulier – on a constaté, on l'a documenté -,parce que la qualité des métadonnées des données ouvertes est très faible, en fait on a très peu de métadonnées et, généralement, et c'est assez logique, ces métadonnées sont rédigées dans un langage, dans un jargon, qui est celui des producteurs de données et qui n'est pas nécessairement le même que celui des réutilisateurs.
Par exemple, tu vas vouloir chercher la localisation de tous les barrages en France, tu vas chercher « barrages » sur ton portail de données préféré, mais, en fait, pour les producteurs, ce ne sont pas des barrages ce sont des « usines de production hydroélectrique », donc, si tu cherches barrage, tu ne vas rien trouver. Donc, le prototype de conciergerie de données qu'on a produit est, en fait, un chatbot qui est capable, à partir du terme barrage, de savoir-faire une extrapolation en disant « barrage est un terme qui est proche de celui d'usine hydroélectrique, usine de production électrique, donc je fais aussi la requête sur ce sur ce mot-clé », ce qu’on appelle de l'expansion de requête. C'est vraiment de la data science, c’est du traitement automatique du langage. On a un collègue qui fait ça.
Et puis, dans d'autres cas, il s'agit plutôt, effectivement, de mettre en récit des données, de les valoriser, donc, en général on est plutôt là pour faciliter la valorisation par d'autres des données, mais il nous arrive, assez régulièrement, de la faire vous-même ou de la centraliser.
Par exemple, on est en train de finir une mission pour la Métropole européenne de Lille qui voulait un petit peu explorer le potentiel de l'analyse et de la visualisation de données en interne, pour ses services, et on a travaillé sur les données RH, super intéressant, donc essentiellement sur les compétences, les métiers, les fiches de poste d'une grosse institution, d'une grosse collectivité territoriale comme la Métropole européenne de Lille. On a construit un outil d'exploration, de visualisation de ces données sur des logiques d'analyse de réseaux, d'analyse de graphes, à vocation interne, pour pouvoir, justement, naviguer un peu dans tous les ensembles de compétences, les liens avec les métiers, etc. Pour cela, on a des compétences en interne, on a plusieurs collègues qui sont d'anciens data journalistes et qui le sont encore un petit peu.
C'est intéressant que tu évoques ce terme-là, parce que le data journaliste a été vraiment l'une des figures tutélaires de la réutilisation de données ouvertes, notamment dans la version de l'open data qui se met en place en France à partir de 2013 quand Henri Verdier devient directeur d’Etalab puis directeur de la direction interministérielle du numérique. On a un open data qui est très orienté vers la transparence, vers l'intérêt général, etc., « par opposition », entre guillemets à l'open data qui est pensé plutôt par l'équipe Fillon en 2011, au tout début quand Etalab est créée en 2011 où on a plutôt un open data qui est très pensé vers l'innovation, la création de valeur économique, les start-ups, etc. Cette dimension-là ne disparaît pas ensuite, mais elle passe un peu au second plan. C'est vrai que dans la version de 2013, c'est vraiment le data journaliste qui est un peu la figure centrale de l’utilisateur.
Je pense qu'on en revient un petit peu aujourd'hui, même si même ça existe toujours, mais c'est vrai que ça a eu ses grandes heures, y compris parce qu’il y avait aussi une production éditoriale qui était très riche à une époque, je pense, par exemple, à l'époque d'Owni qui a été vraiment une espèce d'incubateur de la data visualisation et du data journalisme en France, qui a formé des tas de gens. Chez Datactivist, on a la chance d'avoir un ancien d'Owni en la personne de Sylvain Lapoix. Donc oui, on a un petit peu tout ça, même si nous ne sommes ni une boîte de data scientistes ni de data journalistes, on en a dans les deux cas, mais ce n'est pas le cœur de notre métier. À côté de ça, il y a des boîtes de data science et de data journalisme qui existent.
Josquin Debaz : Vous êtes une vingtaine, disais-tu, avec des profils variés, qui viennent d'un peu partout.
Joël Gombin : C'est vrai que ça fait aussi un peu partie de l’ADN de Datactivist. Nous sommes un peu une équipe de moutons à cinq pattes, pas au sens de dire où nous sommes tous des gens incroyables et hyper rares, ce n’est pas ça que je veux dire, mais on a quasiment tous, je crois dans l'équipe, des trajectoires qui ne sont pas rectilignes, qui sont assez riches de leur diversité et de leur transversalité. Je crois que c'est vraiment quelque chose qu’on apprécie tous et qui nous rend heureux aussi dans notre travail. On est un certain nombre à avoir fait un passage significatif dans le monde académique, à en être sortis ensuite ou pas complètement sortis d'ailleurs pour certains, puisqu’on continue de faire de la R&D ; Samuel Goëta, avec qui j’ai cofondé Datactivist, est maître de conf associé à Sciences Po, il a beaucoup travaillé dans le monde académique. On a des anciens agents publics qui sont venus, on a une collègue qui a été archiviste, puis DPO, puis qui a travaillé chez nous ; on a une collègue qui est une ancienne archéologue reconvertie en géomaticienne ; effectivement plusieurs anciens data journalistes ; l’une de nos dernières recrue a fait une thèse en histoire moderne puis a bossé dans un labo de physique ; la toute dernière arrivée, qui est arrivée avant-hier, a fait de l'imagerie médicale. On a vraiment des parcours très variés.
Josquin Debaz : On a l'impression que vous cherchez à avoir des gens qui ont appris à travailler les données de toutes les façons possibles. Y a-t-il une filière qui amène à ça ou c'est justement le fait de ne pas se cantonner à une filière qui crée vraiment la richesse chez vous ?
Joël Gombin : Pendant longtemps, il n'y avait pas vraiment de filière, il commence effectivement à y avoir des filières de formation un peu spécialisées sur ces sujets-là, plusieurs universités ou écoles ont créé des masters, par exemple, dans ce domaine-là, d’ailleurs on prend régulièrement des apprentis ou des stagiaires, etc., dans ce domaine-là. C'est vrai que dès que tu recherches un petit peu plus de séniorité, forcément il n’y avait de sites de formation spécifiques là-dessus.
Au-delà de ça, je crois que ça fait vraiment partie de notre ADN de ne pas vouloir s'enfermer dans des silos ou dans des choses très rectilignes et de plutôt valoriser ce genre de trajectoire, parce qu’elles nous paraissent très riches, elles sont, souvent, aussi, la preuve d'une grande capacité d'adaptation qui est utile et nécessaire dans notre métier. Je crois que c'est quelque chose que nos clients et partenaires apprécient chez nous. Pour le dire clairement, nous ne sommes pas une boite de consultants en costard cravate, tous sortis d'écoles de commerce ou d'ingénieurs et qui n’ont fait ça. On a des collègues qui sont sortis d'écoles d'ingénieurs, ce n'est pas du tout le sujet, mais on n’est pas dans cet univers-là et ce n’est pas quelque chose dans lequel on a on a envie de rentrer.
Josquin Debaz : Et vous avez des façons de travailler particulières, du coup ?
Joël Gombin : Oui. D'abord je pense qu'on aime bien explorer et inventer des trucs, peut-être un peu trop parfois. C'est vrai que quand tu passes beaucoup de temps à explorer, à inventer, à créer des nouveaux trucs et tout, ce n'est pas forcément la manière de faire qui est la plus la plus rentable, tu ne capitalises pas forcément suffisamment sur ton travail, etc., mais c'est ce à quoi on prend plaisir et c'est aussi, souvent, pour ça qu'on vient nous chercher, parce qu’on va venir avec des cahiers des charges, des expressions de besoins très spécifiques, très nouvelles, très exploratoires, etc., et ça nous plaît bien.
Autre spécificité, je pense qu'on travaille de manière très horizontale, très décloisonnée et parfois à la limite de l'autogestion. C'est à la fois une force et, sans doute, à certains égards, une faiblesse.
Et puis on apprend aussi en marchant. On a commencé à deux, aujourd'hui nous sommes plus d'une vingtaine, donc, forcément, ce n’est pas exactement la même manière de travailler.
Un truc aussi : dès qu'on a créé Datactivist, avec Samuel, en 2016, on a tout de suite créé la boîte en fonctionnant en remote, donc en travaillant à distance de manière très asynchrone, en communiquant beaucoup par écrit. Aujourd'hui, c'est sans doute moins original depuis le Covid. La manière dont beaucoup de boîtes ont appris à travailler après le Covid, souvent un peu contraintes et forcées, eh bien nous le faisions depuis 2016 assez nativement, ce qui veut dire aussi que les 20 et quelques collègues que j'évoquais tout à l'heure, sont dans toute la France, même parfois à l'étranger, on a une collègue qui est à Valence, en Espagne.
C'est une manière intéressante de travailler, certes un peu moins originale, un peu moins rare aujourd'hui qu'il y a quelques années, encore que, on voit quand même qu’il y a une sorte de backlash, une sorte de retour à l'ordre, je dirais, sur le fait d'être au bureau, de travailler en présentiel, importante dans pas mal d'organisation.
Josquin Debaz : Et vos travaux, vos publications, les services que vous pouvez éventuellement mettre à disposition, on les retrouve facilement ?
36’ 09
Joël Gombin : Oui. On essaie, évidemment, de publier tout ce qu'on peut. Il y a une petite difficulté qui est liée au fait que dans le modèle du conseil ou la prestation intellectuelle manière générale, la propriété intellectuelle délivrable appartient à ton client, elle ne t'appartient pas, mais bon ! On essaie de jouer avec ça et on essaie soit de convaincre nos clients de publier les productions qu'on réalise pour leur compte sous licence ouverte, soit, à chaque fois qu'on le peut, nous-mêmes de les publier directement sous licence ouverte.
Sur notre site il y a pas mal de choses, il y a pas mal de choses aussi sur notre dépôt Github. Nous ne sommes pas très bons pour le faire savoir, on est pas hyper forts en comm’ et en valorisation de tout ce qu'on a fait. On y travaille en ce moment pour pouvoir mieux valoriser, mieux capitaliser sur tout ça. Il y a pas mal de choses qui se baladent. D'ailleurs, je regarde de temps en temps les stats des visites de notre site et je m’aperçois que des trucs qu'on a créés il y a longtemps, au tout début de Datactivist, continuent d'être parmi les plus visités, alors qu’on n’en fait absolument plus la promotion, voire on ne l'a jamais faite. Par exemple, on a des supports de formations à R qu'on a créés en 2017, qui continuent de vivre leur vie et qui sont parmi les trucs les plus visités qu'on a en ligne, c'est assez rigolo !
Josquin Debaz : C'est vrai que R est en train de trouver une nouvelle vie aussi avec l'Insee, dont tu parlais, qui est en train de se mettre à R par exemple.
Joël Gombin : Oui. Ça fait même des années qu’ils sont dans ce mouvement-là. En fait, tous les jeunes qui sortent de l'ENSAE [École nationale de la statistique et de l'administration économique de Paris] sont maintenant sont formés à R, ils n’ont plus du tout envie de bosse avec SAS [tatistical Analysis System], donc oui, ça fait quelques années, mais ça monte pas mal en puissance. C'est intéressant, je suis depuis assez longtemps ce qui se passe en termes de pratiques à l'Insee, de rapport à R, etc. J'ai commencé R assez tôt, en 2008/2009, il y avait assez peu de gens en France qui le faisaient, en tout cas c'était clairement restreint au monde académique et à certains segments du champ académique.
Par exemple à l'Insee, pendant longtemps, ceux qui faisaient du R c’était vraiment sous le manteau, etc., et puis, maintenant, l'Insee a une politique assez proactive en fait de soutenir ça, de réserver du temps au développement de paquets ou d'outils, voire sur de l'infra. Je ne sais pas si tu as suivi ce qu’a fait l’Insee avec Onyxia, par exemple, c'est un truc assez incroyable, vraiment très cool, qu'ils ont développé.
Donc oui, c'est sûr que tout ça se développe. Le support dont je te parlais date de 2017, je pense qu’il n'est plus du tout à jour, qu’il y a des trucs qui ne sont plus du tout au goût du jour, mais voilà !
On croit beaucoup au pouvoir de l'ouverture, on essaie de se l'appliquer à nous-mêmes autant que possible, avec les mêmes contradictions de tout le monde, sans aucun doute.
Du coup, c’est vrai que parfois les gens nous regardent un peu avec des grands yeux. Je me souviens d’une collègue, à un moment donné, qui est repartie assez vite, qui voulait absolument nous convaincre, quand on mettait des contenus librement accessibles, de mettre la page d'inscription avant où tu récoltes l'e-mail des gens et tout avant qu’ils puissent télécharger le truc, ça s’appelle le content marketing. On a carrément dit « non, on ne fait pas ça, no way. Elle était désespérée parce que, à l'époque, on voulait développer une offre pour le secteur privé, c’était son boulot de développer, elle voulait générer des leads. On lui a dit « non, on ne fait pas ça, désolés ! »
Josquin Debaz : Tu disais que le mouvement de l’open data était sans doute encore à ses débuts et qu’il y a encore beaucoup d'enjeux qui vont naître ou qui sont en train de naître. En particulier, on parle énormément, en ce moment, des algorithmes, des algorithmes des institutions publiques. Est-ce que c'est quelque chose auquel vous pensez beaucoup ?
Joël Gombin : Pour clarifier, je pense que ce n'est pas simplement le mouvement de l'open data qui est à ses débuts, je pense que c'est plus largement la révolution des données et la question du statut des données qui n'en est qu'à son début, en particulier ne serait-ce que du point de vue des images mentales. En fait, on utilise des métaphores, on continue encore de parler de propriété des données, je pense que c'est une image, une métaphore, qui très est mal adaptée à la question de la donnée pour plein de raisons, parce que c'est un bien qui est qui non rival, parce que c'est un bien dont la valeur augmente à mesure qu’on l'utilise et ne diminue pas. Du coup, ça s'impose d'avoir des représentations mentales mais aussi un encadrement juridique. Aujourd'hui on n’a pas vraiment de définition juridique de ce qu’est une donnée, il y a des bouts sur la donnée personnelle, par exemple, ce qui montre bien, justement, que cette question de la propriété, le fait d'appréhender la question des données par la propriété intellectuelle n’est pas forcément le bon bout. La réglementation européenne qui est en train d'arriver, le Data Governance Act, est très intéressante de ce point de vue-là, parce que, justement, elle crée des nouveaux statuts autour de la donnée et de la circulation de la donnée, sur la notion de l'espace commun de données, sur la notion d'altruisme de données, etc. Là il y a des vrais enjeux sur comment tout ça va prendre place dans la durée.
Pour en revenir à ta question, il y a effectivement les données et puis ce qu'on en fait. Aujourd'hui se pose de plus en plus la question algorithmique.
Comme souvent, en France, on est dans un paradoxe qui est qu’on a une réglementation qui est très en avance, très en pointe, puisque la loi pour une République numérique, dès 2016, crée un véritable cadre juridique autour de l'emploi, par l'administration, d'algorithmes, créée un cadre qui est à la fois protecteur pour les individus, puisqu’elle crée un certain nombre de droits pour les individus, assez calqué du droit CADA, en fait, du droit autour de l'accès aux documents administratifs, la redevabilité que l'administration doit aux individus. La loi dit que chaque fois que l'administration utilise un algorithme pour prendre une décision individuelle, que ce soit à l'égard d'une personne physique ou d'une personne privée, elle doit être capable d'expliquer quel algorithme elle a utilisé, comment, avec quelles données en entrée, quel traitement, etc.
C'est donc très ambitieux et, d'un autre côté, la mise en œuvre de tout cela est aujourd'hui extrêmement faible, pour ne pas dire existante. Dire que c'est inexistant serait faux et ce ne serait pas juste pour tous ceux qui ont fait des efforts, en tout cas il y a encore un gap énorme entre l'ambition politique posée par la loi Lemaire en 2016 et la réalité aujourd'hui.
C'est quelque chose auquel on s'est aussi intéressé, à peu près depuis deux ans je dirais, et sur lequel on a fait une mission, toujours pour la Métropole européenne de Lille. On a justement un peu exploré comment ça peut se passer, concrètement, dans une collectivité territoriale de vouloir identifier les algorithmes qui sont utilisés, de vouloir les documenter, etc. Mais, aujourd'hui, force est de reconnaître que c'est un sujet sur lequel, pour l’instant, on observe qu'il y a peu de traction, il y a peu de demandes.
Quand on regarde ce qui s'est passé dans d'autres pays, c'est assez intéressant. Je crois qu'il n’y a pas tellement d'autres pays qui ont une réglementation sur le sujet aussi forte que la nôtre. Par contre, il y a souvent plus de choses qui sont faites, beaucoup via le point d'entrée de l'intelligence artificielle, qu'on regarde à Londres, à Amsterdam, en Finlande qui sont un peu les cas les plus avancés qu'on a aujourd'hui sur la transparence algorithmique. Ce sont des algorithmes plutôt au sens IA, avec toute l'ambiguïté ou le flou sémantique qu’il peut y avoir derrière ce terme et ce que ça recouvre exactement. En tout cas, disons que ce sont des algorithmes assez complexes, là où en France, finalement, on a plutôt tendance à commencer par des algorithmes assez simples, qui sont souvent des algorithmes assez mécaniques, assez déterministes, qui vont traduire, de manière informatique, des critères posés par la loi ou par des règlements.
Je trouve qu’en France la société civile s'est assez peu emparée de ce sujet-là, à quelques exceptions notables près, genre Parcoursup qui a une visibilité, etc. Au-delà de deux ou trois algos très emblématiques, comme ça, c'est un sujet sur lequel la société civile, aujourd'hui en France, est assez faible, alors que dans d'autres pays européens ou même aux États-Unis, les débats démocratiques me semblent plus vifs sur ces sujets-là.
Josquin Debaz : Une dernière question : qui trouve les idées pour vous pour vos stickers ?
Joël Gombin : Merci de poser cette question. C'est un sujet qui nous tient beaucoup à cœur. Nous sommes très fiers de nos stickers. Parfois on dit en plaisantant qu’on fait Datactivist principalement pour pouvoir faire les stickers et que tout le reste est juste une couverture.
C'est c'est très collectif. Je dois à l'honnêteté de dire que Samuel a une capacité assez forte. à sortir des blagues pourries Il est à l'origine d'un certain nombre d'entre eux, sinon c'est très collectif. On fait soit des séances de brainstorming, soit, dès que quelqu’un a une idée, il la note quelque part. Ça vient un peu de tout le monde.
Josquin Debaz : Merci beaucoup Joël Gomin.
Joël Gombin : Merci beaucoup de l'invitation, c'était chouette.
Voix off : Cet épisode touche à sa fin. Nous espérons qu'il vous aura intéressé. Envoyez-nous vos questions, commentaires et propositions par e-mail à coucou@lacantine-brest.net ou via Twitter. À très bientôt.