Différences entre les versions de « Émission Libre à vous ! diffusée mardi 1er mars 2022 sur radio Cause Commune »

De April MediaWiki
Aller à la navigationAller à la recherche
Ligne 91 : Ligne 91 :
  
 
<b>Étienne Gonnu : </b>Nous allons poursuivre par notre sujet principal qui porte aujourd’hui sur Software Heritage, un projet dont la modeste ambition est de « collecter, préserver et partager tous les logiciels disponibles publiquement sous la forme de code source ».<br/>
 
<b>Étienne Gonnu : </b>Nous allons poursuivre par notre sujet principal qui porte aujourd’hui sur Software Heritage, un projet dont la modeste ambition est de « collecter, préserver et partager tous les logiciels disponibles publiquement sous la forme de code source ».<br/>
Si vous êtes une fidèle auditrice ou un fidèle auditeur, vous vous rappellerez peut-être que nous avions déjà parlé de ce projet en février 2019 avec un de ses fondateurs, Roberto Di Cosmo. Trois plus tard, donc 100 émissions après, nous avons pensé qu’il serait intéressant de faire un point sur cet incroyable projet, une sorte de bibliothèque d’Alexandrie des logiciels, pour savoir bien sûr où il en est et permettre à de nouvelles personnes de le découvrir.<br/>
+
Si vous êtes une fidèle auditrice ou un fidèle auditeur, vous vous rappellerez peut-être que nous avions déjà parlé de ce projet en février 2019 avec un de ses fondateurs, Roberto Di Cosmo. Trois plus tard, donc plus de 100 émissions après, nous avons pensé qu’il serait intéressant de faire un point sur cet incroyable projet, une sorte de bibliothèque d’Alexandrie des logiciels, pour savoir bien sûr où il en est et permettre à de nouvelles personnes de le découvrir.<br/>
 
Pour cela, j’ai le plaisir de recevoir avec moi en studio une membre l’équipe de Software Heritage, Morane Gruenpeter, ingénieure en informatique et spécialiste des <em>metadata</em>.<br/>
 
Pour cela, j’ai le plaisir de recevoir avec moi en studio une membre l’équipe de Software Heritage, Morane Gruenpeter, ingénieure en informatique et spécialiste des <em>metadata</em>.<br/>
 
Bonjour Morane.
 
Bonjour Morane.
Ligne 154 : Ligne 154 :
 
<b>Morane Gruenpeter : </b>On a une autonomie aussi par rapport à l’Inria, mais on est aussi dans une prospective de se déterminer, de sortir et créer une fondation, mais le chemin est long. Pour l’instant, comme vous l’avez dit, il faut beaucoup de ressources pour faire ce projet. On marche pas à pas vers la destination pour avoir une stratégie le plus long terme possible. Effectivement l’Inria est une bonne maison pour y être actuellement, aussi parce que c’est un institut public. Après,. on se prépare pour un avenir vraiment de long terme pour ce projet.
 
<b>Morane Gruenpeter : </b>On a une autonomie aussi par rapport à l’Inria, mais on est aussi dans une prospective de se déterminer, de sortir et créer une fondation, mais le chemin est long. Pour l’instant, comme vous l’avez dit, il faut beaucoup de ressources pour faire ce projet. On marche pas à pas vers la destination pour avoir une stratégie le plus long terme possible. Effectivement l’Inria est une bonne maison pour y être actuellement, aussi parce que c’est un institut public. Après,. on se prépare pour un avenir vraiment de long terme pour ce projet.
  
<b>Étienne Gonnu : </b>Peut-être une dernière question sur cette idée d’autonomie. Vous parliez plutôt de l’importance d’avoir une plateforme pérenne dans le temps, donc je pense qu’il y a ces enjeux de où est-ce  vous êtes hébergés. Qui va avoir accès à ces sources et comment garantir une stratégie qui est déterminée pour préserver cela dans le temps?
+
<b>Étienne Gonnu : </b>Peut-être une dernière question sur cette idée d’autonomie. Vous parliez plutôt de l’importance d’avoir une plateforme pérenne dans le temps, donc je pense qu’il y a ces enjeux de où est-ce  vous êtes hébergés. Qui va avoir accès à ces sources et comment garantir une stratégie qui est déterminée pour préserver cela dans le temps ?
  
 
<b>Morane Gruenpeter : </b>Actuellement on a deux copies chez Inria, mais dans deux lieux différents. On a une copie sur Azure, qui est effectivement un <em>cloud</em> Microsoft. On travaille sur un réseau de miroirs où on pourra trouver, à l’avenir, des copies dans différents instituts qui seront des miroirs de Software Heritage. Ça c’est aussi pour la stratégie à long terme au cas où quelque chose arrive sur une des archives qui existent actuellement, vraiment pour sauvegarder sur le long terme et aussi pour ne pas avoir de risques qu’il arrive quelque chose à une des copies.
 
<b>Morane Gruenpeter : </b>Actuellement on a deux copies chez Inria, mais dans deux lieux différents. On a une copie sur Azure, qui est effectivement un <em>cloud</em> Microsoft. On travaille sur un réseau de miroirs où on pourra trouver, à l’avenir, des copies dans différents instituts qui seront des miroirs de Software Heritage. Ça c’est aussi pour la stratégie à long terme au cas où quelque chose arrive sur une des archives qui existent actuellement, vraiment pour sauvegarder sur le long terme et aussi pour ne pas avoir de risques qu’il arrive quelque chose à une des copies.

Version du 3 mars 2022 à 16:18


Titre : Émission Libre à vous ! diffusée mardi 1er mars 2022 sur radio Cause Commune

Intervenant·e·s : Jean-Christophe Becquet - Morane Ottilia Gruenpeter - Véronique Bonnet - Frédéric Couchet - Étienne Gonnu - Isabella Vanni à la régie

Lieu : Radio Cause Commune

Date : 1er mars 2022

Durée : 1 h 30 min

Podcast PROVISOIRE

Références concernant l'émission

Licence de la transcription : Verbatim

Illustration : Déjà prévue

NB : transcription réalisée par nos soins, fidèle aux propos des intervenant·e·s mais rendant le discours fluide.
Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas nécessairement celles de l'April, qui ne sera en aucun cas tenue responsable de leurs propos.

Transcription

Voix off : Libre à vous !, l’émission pour comprendre et agir avec l’April, l’association de promotion et de défense du logiciel libre.

Étienne Gonnu : Bonjour à toutes. Bonjour à tous.
Imaginez un instant une archive mondiale qui conserverait tous les codes sources disponibles publiquement, une véritable bibliothèque d’Alexandrie des programmes informatiques. Depuis plus de cinq ans ce projet fou existe, il s’appelle Software Heritage et c’est le sujet principal de l’émission du jour. Avec également au programme Jean-Christophe Becquet qui nous emmènera du côté des musées de Paris pour découvrir une nouvelle pépite libre et, en fin d’émission, nous écouterons une nouvelle chronique « Partager est bon » de Véronique Bonnet, présidente de l’April et professeur de philosophie, dont le thème est « logiciel libre et ouverture sociale ».
Voilà le programme de cette 134e édition de Libre à vous !, l’émission qui vous raconte les libertés informatiques, proposée par l’April, l’association de promotion et de défense du logiciel libre.
Je suis Étienne Gonnu, chargé de mission affaires publiques pour l’April. Soyez les bienvenus.

Le site web de l’émission est libreavous.org. Vous pouvez y trouver une page consacrée à l’émission du jour avec tous les liens et références utiles et également les moyens de nous contacter. N’hésitez pas à nous faire des retours ou à nous poser toute question.

Nous sommes le mardi 1er mars 2022, nous diffusons en direct, mais vous écoutez peut-être une rediffusion ou un podcast.
À la réalisation de l’émission ma collègue Isabella. Salut Isa.

Isabella Vanni : Salut Étienne. Bonne émission.

Étienne Gonnu : Merci. Nous vous souhaitons une excellente écoute.

[Jingle]

Chronique « Pépites libres » de Jean-Christophe Becquet, vice-président de l’April, sur le thème des contenus ouverts des musées de Paris

Étienne Gonnu : Nous allons commencer par la chronique « Pépites libres » de Jean-Christophe Becquet.
Salut Jean-Christophe. Quelle pépite libre as-tu trouvé pour nous aujourd’hui ?

Jean-Christophe Becquet : Bonjour Étienne. Bonjour à tous. Bonjour à toutes.
Je vous parle aujourd’hui des contenus ouverts des musées de Paris.
Les musées de la ville de Paris partagent, sur leur site web Paris Musées, des images en haute définition représentant des œuvres appartenant au domaine public. Ces fichiers numériques sont mis en ligne sous licence CCØ, Creative Commons Zero. Cette licence permet l'ouverture la plus large possible des données. Elle garantit le libre accès et la réutilisation par tous, sans restriction technique, juridique ou financière. Elle autorise également l'usage commercial.

Ce type de démarche en faveur d’un meilleur accès à l’art et à la culture est souvent désigné sous l’anglicisme Open Content. L'ouverture vise à favoriser la visibilité des œuvres et la connaissance des collections municipales en France et dans le monde. Un moteur de recherche nous invite à naviguer à travers ce patrimoine par institutions, par auteurs, par siècles… J'ai testé aussi la recherche par couleur. Elle semble assez bien fonctionner. Il faut toutefois rester vigilant, car la base de données comporte aussi des œuvres non libres. Un des critères de recherche « Images libres de droit » permet de filtrer uniquement celles sous licence CCØ.

On rencontre très souvent cette formulation « libre de droit ». Je la trouve inappropriée. En effet, les licences libres s'appuient sur le droit d'auteur pour accorder certaines libertés. C'est le monopole réservé à l'auteur sur sa création qui lui octroie le privilège de décider quels usages il souhaite accorder et à qui. Le principe d'une licence libre c'est qu'elle permet à l'auteur d'exprimer sa volonté d'offrir à tous la liberté d'utiliser, de copier, de modifier et de redistribuer l'œuvre y compris à des fins commerciales. Je préfère donc parler d'œuvre « libre » ou, si l'on veut insister sur l'assise juridique, « libre par le droit ».

À ce jour, presque 200 000 ressources numériques libres sont mises à disposition par 14 musées parisiens. L'ajout d'un filtre dans le moteur de recherche prend parfois beaucoup de temps pour s'appliquer. Il existe une possibilité d'exporter une sélection de résultats sous la forme d'une fiche au format PDF ou d'un tableur. Dommage, pour cette dernière fonctionnalité, de proposer uniquement le format XLS. Le choix du format ouvert OpenDocument dont les spécifications sont lisibles et réutilisables par tous aurait été plus cohérent avec les principes d'Open Content affichés par le site.

La fourniture des images s'accompagne d'un fichier texte qui contient les métadonnées, c'est-à-dire les caractéristiques de l'œuvre : auteur, titre, date, etc. Une charte de bonne utilisation précise les libertés accordées par la licence CCØ. Elle rappelle l'importance du respect du droit moral de l’auteur, notamment son droit de paternité, c'est-à-dire l'obligation de citer l'auteur. Elle encourage les utilisateurs à envoyer à Paris Musées, par courrier ou par mail, les produits réalisés avec les œuvres sous licence CCØ. Elle indique que toute vente du fichier est interdite. Ce dernier point me semble inutile voire abusif. En effet, la licence CCØ permet toute réutilisation, y compris à des fins commerciales, donc pourquoi pas la vente d'une copie du fichier ? Cependant, qui voudrait acheter un fichier par ailleurs disponible gratuitement et sans restriction d'accès ? Rappelons en effet que les ressources numériques sont non rivales, c'est-à-dire que la copie pour un utilisateur ne retire rien aux autres. Il me semble dès lors difficile de vendre une simple copie du fichier sans aucune autre valeur ajoutée.

Le communiqué de presse diffusé en janvier 2020 faisait état de plus de 100 000 reproductions numériques d'œuvres en libre accès. Deux ans après, il y en a presque le double. Grâce à un partenariat avec l'association Wikimédia France, les images sont également disponibles dans la médiathèque libre Wikimedia Commons. Cela permet notamment d'illustrer les articles Wikipédia avec des images libres de bonne qualité.
Espérons que cette démarche continuera à s'étendre et inspirera d'autres institutions culturelles pour libérer leurs collections.

Étienne Gonnu : Merci pour cette belle chronique Jean-Christophe. Bien sûr, le mouvement du logiciel libre est avant tout une lutte pour les libertés informatiques, mais il s’inscrit évidemment dans un idéal plus large de libre accès, de libre circulation de l’ensemble des connaissances. Ce que tu viens de nous décrire est très important avec les limites que tu évoques. D’ailleurs ça tombe bien car après la pause musicale nous allons parler d’un autre projet qui s’inscrit résolument dans cette éthique, Software Heritage, la bibliothèque d’Alexandrie des codes sources.
Un grand merci Jean-Christophe et je vais te dire au mois prochain.

Jean-Christophe Becquet : Exactement au mois prochain et après avoir parlé de patrimoine culturel et artistique, bonne émission pour parler de patrimoine logiciel. À bientôt. Au revoir.

Étienne Gonnu : Merci. Salut Jean- Christophe. Bonne journée.
Nous allons faire à présent une pause musicale.

[Virgule musicale]

Étienne Gonnu : Puisque nous parlions de pépites libres, en voici une l’album <em<Swing's not deadpar ZinKaRo dont nous vous proposons aujourd’hui un quatrième morceau. Nous avons découvert cet album et ce groupe grâce au site Ziklibreenbib que je vais citer ici : « Venus tout droit du Béarn, les 6 gadjos de Zinkaro couchent enfin leurs chansons à la sauce manouche sur un premier album qui se faisait attendre depuis 2017/2018, époque où Charlène puis Aurel ont rejoint Alex, François, Benoît et Arnaud (qui officiaient depuis 2014). Avec leurs morceaux qui semblent traverser les âges, ils chantent le quotidien avec une gouaille chaleureuse et authentique qui est loin de laisser insensible ! »
Après L’air de rien, après Drôle de cadence et aprèsTrop facile, je vous propose aujourd’hui de découvrir La ville par ZinKaRo. On se retrouve juste après. Belle journée à l’écoute de Cause Commune, la voix des possibles.

Pause musicale : La ville par ZinKaRo.

Voix off : Cause Commune, 93.1.

Étienne Gonnu : Nous venons d’écouter La ville par ZinKaRo, disponible sous licence libre Creative Commons Partage dans les mêmes conditions, CC By SA.

[Jingle]

Étienne Gonnu : Passons à présent à notre sujet suivant.

[Virgule musicale]

Software Heritage, projet dont l’ambition est « de collecter, préserver et partager tous les logiciels disponibles publiquement sous forme de code source », avec Morane Ottilia Gruenpeter, ingénieure en informatique et spécialiste des metadata

Étienne Gonnu : Nous allons poursuivre par notre sujet principal qui porte aujourd’hui sur Software Heritage, un projet dont la modeste ambition est de « collecter, préserver et partager tous les logiciels disponibles publiquement sous la forme de code source ».
Si vous êtes une fidèle auditrice ou un fidèle auditeur, vous vous rappellerez peut-être que nous avions déjà parlé de ce projet en février 2019 avec un de ses fondateurs, Roberto Di Cosmo. Trois plus tard, donc plus de 100 émissions après, nous avons pensé qu’il serait intéressant de faire un point sur cet incroyable projet, une sorte de bibliothèque d’Alexandrie des logiciels, pour savoir bien sûr où il en est et permettre à de nouvelles personnes de le découvrir.
Pour cela, j’ai le plaisir de recevoir avec moi en studio une membre l’équipe de Software Heritage, Morane Gruenpeter, ingénieure en informatique et spécialiste des metadata.
Bonjour Morane.

Morane Gruenpeter : Bonjour Étienne.

Étienne Gonnu : Est-ce que vous voudriez vous présenter s’il vous plaît ?

Morane Gruenpeter : Oui, bien sûr.
Premièrement merci beaucoup de m’avoir invitée, d’avoir invité Software Heritage à présenter le projet et aussi voir où on en est du projet.
Je suis arrivée sur le projet en 2017. J’ai commencé avec un stage après des études en informatique au CNAM et à l’UPMC [Université Pierre-et-Marie-Curie], qui est aujourd’hui Sorbonne Université. Je me suis intéressée au logiciel assez tardivement dans ma vie. J’étais harpiste avant de devenir informaticienne. Quand je me suis reconvertie dans l’informatique j’ai découvert le Libre. Avec ce stage, j’ai eu le plaisir de travailler avec une équipe formidable sur ce grand projet, Software Heritage, qui me passionne tous les jours.

Étienne Gonnu : Intéressant comme reconversion, quand on parle de reconversion celle-ci est particulièrement... On va parler de code source, je crois qu’une des illustrations de ce qu’est un code source est celle de la partition musicale, on pourra peut-être l’évoquer.
J’ai oublié de dire que vous pouvez bien sûr participer à notre conversation au téléphone en nous appelant au 09 72 51 55 46 ou directement sur le salon web dédié à l’émission, sur le site causecommune.fm, bouton « chat ».
Donc vous avez rejoint ce projet, Software Heritage, en 2017, donc vous êtes quasiment depuis le début, je crois que ça a commencé en 2016 officiellement.

Morane Gruenpeter : Annoncé en 2016. Roberto Di Cosmo et Stefano Zacchiroli, les fondateurs du projet, commençaient déjà à réfléchir à cette idée en 2014. En 2016 il a été annoncé par le centre de recherche Inria. Quand je suis arrivée c‘était vraiment le début, il n’y avait pas encore de plateforme web pour aller chercher les logiciels, beaucoup de fonctionnalités qu’on a aujourd’hui n’étaient pas du tout développées. J’ai suivi ce projet presque du début et vraiment il a grandi, l’équipe aussi a grandi, c’est magnifique à voir de l’intérieur.

Étienne Gonnu : Vous allez pouvoir nous en parler. Je pense que tout le monde n’a pas forcément écouté cette première émission, ne connaît pas forcément Software Heritage. J’aime bien cette image de la bibliothèque d’Alexandrie des logiciels. Est-ce que cette image est opérante ? Est-ce que vous pouvez nous décrire ce qu’est ce projet ?

Morane Gruenpeter : C’est parfaitement opérant ! C’est vraiment l’archive universelle des codes sources. Ce que ça veut dire c’est que Software Heritage va aller récupérer tous les codes sources qui sont disponibles sur Internet via certains protocoles et va les sauvegarder. Il n’y a aucun projet dans le monde qui soit aussi grand ou qui possède autant de code. Là actuellement, si on peut citer quelques chiffres, on a plus de 12 milliards de fichiers sources et plus de 173 millions de projets. Ce sont vraiment des chiffres qui explosent, mais c’est bien, ça veut dire qu’on arrive à maintenir cette ambition d’avoir et de collecter tous les logiciels. Ça veut dire qu’on va aller chercher ces codes qui sont sur des plateformes de distribution, des plateformes de développement collaboratif, des forges type GiHub, GitLab, BitBucket, etc.

Étienne Gonnu : On est peut-être plus familier de cette notion de forges logicielles qui sont, on va dire, des plateformes où des développeurs et développeuses vont pouvoir développer ensemble des projets informatiques. Là ce n’est pas la même chose, on parle vraiment d’une plateforme d’archivage.

Morane Gruenpeter : Exactement. En fait, ce qui manquait dans le panorama des logiciels c’est vraiment cette plateforme d’archivage et ce n’est pas la même chose. Les plateformes collaboratives peuvent disparaître. En tant qu’utilisateur on a aussi le droit d’effacer, de changer ou de modifier les codes qui sont en ligne et c’est très important de garder cette trace et surtout souligner que le code c’est quelque chose de fragile qui peut disparaître, comme les sites web. Je ne sais pas si vous savez que la durée de vie d’un lien URL est assez courte, elle est en moyenne de cinq ans. Qu’est-ce qui se passe après ? On ne sait pas ! Il y a aussi un autre projet très important pour sauvegarder les pages web qui s’appelle archive.org et, comparable à ce projet-là nous réussissons à faire l’équivalent pour le code source, pour que ce code source qui est fragile soit sauvegardé.

Étienne Gonnu : Internet archive n‘est pas notre sujet, mais c‘est effectivement un projet absolument indispensable et fabuleux. Si les gens ne le connaissent pas, on rajoutera la référence. Je leur recommande d’aller le découvrir. C’est assez intéressant parce qu’il y a des photographies d’anciennes pages web qui ne sont plus accessibles maintenant mais qui ont été conservées là et ça permet de voir les évolutions, de voir comment des pages web ont pu être avant. C’est une archive historique très importante.
Une notion va être importante. On parle de logiciel, de code source. Je pense que les gens imaginent qu’on lance un logiciel, les choses s’exécutent sur nos machines. Du coup quelle est la différence avec un code source ? Qu’est-ce qu’un code source ?, parce que c'est ça que vous conservez dans Software Heritage. Est-ce que vous pouvez nous préciser tout cela Morane ?

Morane Gruenpeter : Bien sûr. Pour les personnes qui ne codent pas, qui ne sont pas informaticiennes, c’est effectivement assez difficile d’avoir cette appréhension de ce qu’est un code source.
Le logiciel ce sont les instructions qui sont données à la machine pour être exécutés, pour faire toutes les activités, les actions qu’on a tous les jours avec des machines, avec l’ordinateur, avec le téléphone et même, plus simplement, toute machine qui a un certain processus, une procédure qui faut qu’elle fasse. Le logiciel s’occupe de cette procédure avec la machine, mais, pour donner ces instructions à la machine qui sont décrites en langage machine, il faut, dans un premier temps, qu’elles soient écrites en langage humain. Ce langage, ces langages sont écrits dans des fichiers de code source qui sont lisibles par un humain, mais ne sont pas lisibles par la machine. Ces fichiers-là vont être traduits pour la machine, pour qu’elle puisse les exécuter. Sauf que quand ils sont traduits, ils deviennent le paquet, le logiciel qui est exécuté par la machine, ils ne sont plus lisibles par les humains. Donc il faut garder le code source qui est vraiment le savoir, la connaissance, vraiment les idées qui sont derrière ces logiciels qui font les actions des machines. ???

Étienne Gonnu : Peut-être pour reprendre cette image que j’avais commencée à tirer : par exemple on va entendre une harpiste interpréter un morceau, on va recevoir la musique. À moins d’avoir une oreille très experte pour pouvoir la reproduire soi-même, à un niveau de compétence qui sera propre à chacun il nous faut une partition musicale.

Morane Gruenpeter : Effectivement, il y a cette comparaison avec une partition. Je pense que la comparaison est bien sur un niveau culturel. Garder la partition c’est comme garder aussi le scénario et on peut retrouver ça dans plusieurs domaines de la culture. La création humaine est décrite dans ces fichiers de code source. Comme le compositeur compose un morceau de musique, l’informaticien ou l’informaticienne compose cet algorithme qui va être implémenté dans un fichier de code source et qui peut être, après, exécuté. Ça peut être magnifique, ça peut être aussi de l’art qui est composé dans un fichier de logiciel et après visualisé et exécuté par une machine.

Étienne Gonnu : Moi qui ne suis pas du tout informaticien, ce que je trouve intéressant quand on entend parler de ces codes sources et de la création d’un logiciel, un algorithme sert effectivement à trouver une réponse à un problème, mais, en fait, il y a autant de manières de répondre à un problème qu’il peut y avoir d’imaginations différentes. Donc d’une personne à l’autre le code source, le logiciel, sera différent. C’est là où le génie humain, la créativité humaine va pouvoir s’exprimer, donc c‘est de l’art, de l’artisanat dans le sens le plus noble du terme.

Morane Gruenpeter : Exactement. Je veux aussi souligner une chose. Il y a l’objet lui-même qui est l’implémentation d’une certaine idée, peut-être une implémentation d’un certain algorithme, mais l’idée ou le projet lui-même ne sont pas des objets digitaux, ceux-là ne peuvent pas être archivés comme les objets digitaux que sont les fichiers de texte, que sont les fichiers code source. Il faut garder cette notion de dimension humaine qui est autour du logiciel, mais qui ne sont pas les objets eux-mêmes. Software Heritage préserve les objets digitaux dans lesquels sont décrites ces solutions, donc sont implémentées, tout l’historique de développement de ces projets. On garde cette enveloppe où on a tout le développement de ce logiciel et l’évolution de ce logiciel. On essaye vraiment de maintenir un archivage complet et pérenne d’un projet logiciel.

Étienne Gonnu : D’accord. Peut-être une question d’apparence toute simple et vous avez commencé à y répondre : pourquoi ? Pourquoi conserver tous ces codes sources finalement ?

Morane Gruenpeter : Une réponse effectivement simple. Déjà parce que le code est fragile et c’était assez surprenant quand Roberto et Stefano ont commencé à travailler sur ce projet, il n’existait pas d’archive qui fasse ce travail de collecte et de préservation du logiciel. C’était surprenant parce 2014 c’est assez tard. Les logiciels ont commencé bien avant 2014 et le fait qu’il n’y avait aucune initiative qui cherche à les préserver, préserver les codes sources, pas les logiciels. Il y avait des solutions d’archivage de logiciels, mais si on n’a pas tout l’environnement d’exploitation de ce logiciel, les machines et l’environnement, ils ne sont pas lisibles par les humains, ils ne sont lisibles que par les machines. Il y a un certain intérêt à le faire, mais c’est encore plus intéressant d’archiver la connaissance, donc d’archiver le code source.
Pour répondre à la question, le code source est fragile et c’est vraiment surprenant qu’il y avait rien avant Software Heritage et je pense que maintenant la communauté mondiale a compris qu’il fallait archiver ces objets qui sont fragiles et qu’il faut préserver cette connaissance.

Étienne Gonnu : Effectivement et vous aviez des soutiens, on va y revenir rapidement. Juste pour finir sur cette notion d’objet code source, ce qu’est cet objet digital, du coup vous récupérez les fichiers textes, je pense qu’il y a des informations, un code source peut avoir des commentaires pour expliquer comment le code fonctionne, les questions de licence peuvent être, j’imagine, associées aux codes sources. Tout ça est très important pour savoir ce que l’on peut faire. Vous ne récupérez que les codes publiquement accessibles et ceux qu’on vous transmet, j’imagine. Du coup est-ce que vous avez des exigences ? Est-ce que vous appliquez des traitements sur ces fichiers que vous allez recevoir ou est-ce que vous les prenez tels quels ?

Morane Gruenpeter : On n’a pas d’exigences, on collecte tout ce qu’on trouve pour des questions de transparence et pour avoir vraiment ce qui existe. Il faut tout archiver parce qu’on ne sait pas, aujourd’hui, quelle valeur a un code source, s’il va devenir un grand projet ou s’il va rester un petit projet, donc on ne fait pas d’arbitrages, on préserve tout.
Sur la question de qu’est-ce qu’il y a dans le code source ? Pour expliquer un peu à quoi ressemble un code source, c’est un dossier avec des sous-dossiers et des fichiers. Il peut contenir des fichiers qui sont les procédures elles-mêmes, le code qui va être exécuté par la machine, mais il peut aussi contenir des fichiers que nous appelons des fichiers de métadonnées qui décrivent ce qui se passe. Il peut y avoir une description du projet, même un guide, comment installer le logiciel, comment utiliser le logiciel. Et puis dans les commentaires c’est plutôt des instructions : comment aider une future personne à relire le code, même si la future personne est soi-même. Si aujourd’hui j’ai codé quelque chose, pour comprendre ce que j’ai fait dans un mois ou dans un an, je préférerais mettre un commentaire pour mieux comprendre les utilisations que j’ai faites dans ce fichier spécifique.

Étienne Gonnu : Très bien. Vous avez évoqué une communauté internationale qui se développe. Software Heritage a eu des soutiens très importants notamment l’UNESCO, d’ailleurs assez rapidement historiquement. Est-ce que vous pourriez nous présenter un rapide rappel historique des soutiens et comment se sont développés ces soutiens à Software Heritage ?

Morane Gruenpeter : Faire un rappel de ce qui s’est passé dans le temps ce serait difficile pour moi. Je peux déjà dire qu’on est hébergés par le centre de recherche Inria qui nous soutient et qui s’occupe de toute la partie administrative de l’équipe. C’est très bien d’être dans ce centre de recherche aussi parce qu’on est auprès des chercheurs qui sont eux-mêmes des informaticiens. Il y a cette partie de préservation du logiciel de recherche qui est proche de nous physiquement parce qu’on est dans le centre de recherche. Il y a le support de l’UNESCO sur la partie culturelle et patrimoine, donc préserver ce patrimoine logiciel. En 2019 il y a eu la signature qui s’appelle le ???, qui était une signature de plusieurs membres de la communauté de préservation digitale sur l’importance de préserver le code source spécifiquement et la reconnaissance du code source en tant que patrimoine culturel. Avec ça on a des partenaires, des sponsors de l’industrie, mais aussi l’Éducation nationale et beaucoup de sponsors à l’international. On peut nommer le CEA, Intel, Microsoft et plusieurs partenaires. Je ne vais pas tous les nommer parce qu’il y en a beaucoup.

Étienne Gonnu : C’est vrai que les personnes qui avaient suivi avaient été un peu étonnées de voir Microsoft qui est finalement plutôt perçu au début comme l’adversaire des libertés informatiques. En tant que producteur de logiciels on peut imaginer, quelque part, qu’elle a intérêt à avoir une archive saine.
On imagine qu’un tel projet a de grands besoins pour pouvoir atteindre ses très belles et grandes ambitions. On imagine aussi que c'est important d’avoir une certaine indépendance pour ne pas dépendre non plus, parce que sur les notions d’archivage, de mémoire, il peut y avoir notamment des enjeux politiques. Comment cette indépendance est-elle envisagée ?

Morane Gruenpeter : Je pense que la stratégie est faite d’une telle manière que nous gardons notre indépendance, parce qu’on a beaucoup d’acteurs qui soutiennent, qui ne sont pas forcément du même domaine, de la même discipline. L’indépendance est dans les mains de Roberto Di Cosmo, le directeur de l’équipe. J’ai l’impression et je sais aussi que le soutien vient comme un soutien naturel à un projet qui est vraiment d’ampleur mondiale, sans arrière-pensée de besoins personnels, mais vraiment un besoin mondial de cet archivage qui est vraiment nécessaire pour tout le monde, pas juste pour une communauté spécifique.

Étienne Gonnu : D’accord. Pour bien comprendre, vous êtes structurellement dépendants de l’Inria qui est donc un institut public, qui vous finance en partie, mais vous avez aussi, du coup, des financements privés et vous avez un équilibre de cette façon. Vous avez une certaine autonomie d’action ou de définition de vos stratégies ? Ou c’est l’Inria qui…

Morane Gruenpeter : On a une autonomie aussi par rapport à l’Inria, mais on est aussi dans une prospective de se déterminer, de sortir et créer une fondation, mais le chemin est long. Pour l’instant, comme vous l’avez dit, il faut beaucoup de ressources pour faire ce projet. On marche pas à pas vers la destination pour avoir une stratégie le plus long terme possible. Effectivement l’Inria est une bonne maison pour y être actuellement, aussi parce que c’est un institut public. Après,. on se prépare pour un avenir vraiment de long terme pour ce projet.

Étienne Gonnu : Peut-être une dernière question sur cette idée d’autonomie. Vous parliez plutôt de l’importance d’avoir une plateforme pérenne dans le temps, donc je pense qu’il y a ces enjeux de où est-ce vous êtes hébergés. Qui va avoir accès à ces sources et comment garantir une stratégie qui est déterminée pour préserver cela dans le temps ?

Morane Gruenpeter : Actuellement on a deux copies chez Inria, mais dans deux lieux différents. On a une copie sur Azure, qui est effectivement un cloud Microsoft. On travaille sur un réseau de miroirs où on pourra trouver, à l’avenir, des copies dans différents instituts qui seront des miroirs de Software Heritage. Ça c’est aussi pour la stratégie à long terme au cas où quelque chose arrive sur une des archives qui existent actuellement, vraiment pour sauvegarder sur le long terme et aussi pour ne pas avoir de risques qu’il arrive quelque chose à une des copies.

Étienne Gonnu : C’est effectivement essentiel.
Je vais relayer une question. Effectivement vous n’archivez pas que du logiciel libre, mais bien tous les codes disponibles et s’il y a la licence libre, très bien, mais effectivement ce n’est pas votre mission.

Morane Gruenpeter : Je vais préciser. On préserve tout le logiciel libre s’il est publiquement accessible sur le Web. Comme on préserve tout ce qui est sur des plateformes de développement collaboratif, on a vu qu’il y a aussi beaucoup de logiciels, de projets, qui ne mettent pas de licence, c’est une très mauvaise pratique, mais ils se retrouvent à la fin dans Software Heritage. C’est aux utilisateurs qui viennent voir le code sur Software Heritage à se demander s’il y a une licence, s’ils ont le droit d’utiliser ce code.
Cela dit il y a aussi une autre perspective c’est dans le temps un logiciel propriétaire va devenir libre au sens où il va revenir…

Étienne Gonnu : Dans le pot commun. Effectivement, quand un auteur décède, au bout de 70 ans l’œuvre est versée dans le domaine public.

Morane Gruenpeter : Exactement. Il faut imaginer vraiment le long terme. Si aujourd’hui ou il y a 20 ans ou 30 ans un logiciel était propriétaire, il faut juste attendre pour qu’il devienne libre.

Étienne Gonnu : Effectivement. Des questions d’ordre technique, je pense qu’elles seront vite répondues. Vous avez évoqué la notion de miroir. C’est quoi ? C’est une copie ?

Morane Gruenpeter : Oui, c’est une copie qui reste à jour. C’est un miroir de ce qu’on collecte dans l’archive principale. En ayant ce réseau, les miroirs eux-mêmes vont avoir la possibilité de se mettre à jour régulièrement pour être le plus près possible de la première archive, l’original.

Étienne Gonnu : Une autre question qui est effectivement importante : quel est le poids d’une copie ? Vous avez parlé de plusieurs milliards de fichiers. Quel peut-être le poids total des codes que vous conservez ? Avez-vous une idée ?

Morane Gruenpeter : Je ne l’ai pas notée, donc je ne l’ai pas en tête. Allez sur notre site web, il y a la page des miroirs et, depuis cette page, il y a un lien vers la documentation où ce sujet-là est vraiment détaillé. Même si j’avais tout noté, c’est assez technique. Il faut un conteneur d’objet pour les contenus et quelque chose qui puisse supporter le graphe ; le graphe ce sont les liaisons entre tout l’historique de développement. Donc on a plusieurs objets de niveaux différents qui nous amènent jusqu’au contenu lui-même.

Étienne Gonnu : Ça me paraît clair.
Je vous propose de passer à une autre thématique qui est celle de votre organisation. Vous êtes une équipe, vous m’avez dit avant l’émission que vous êtes 15 voire 16 personnes. C’est une équipe qui s’est étoffée dans le temps. J’imagine que les personnes ont plusieurs profils. Est-ce que vous pouvez parler un peu de l’équipe qu’il y a derrière ?

Morane Gruenpeter : Déjà premièrement il faut que je dise qu’on est une équipe formidable. Chaque personne est vraiment intéressante. La plupart des personnes viennent du Libre, soutiennent le Libre. Nos deux cofondateurs, Roberto Di Cosmo et Stefano Zacchiroli, sont des défenseurs du logiciel libre, des chercheurs, ils sont tous les deux chercheurs en détachement à l’Inria. On a 11 ingénieurs, deux chercheurs et une chargée de communication, c’est un peu le type de profils. On est à la recherche de trois nouveaux profils à intégrer dans cette équipe, un dev ou une dev, un ou une sys-admin et un ou une animatrice de la communauté science ouverte. On est toujours à la recherche de personnes qui souhaitent rejoindre notre projet et créer cette archive, maintenant ce n’est plus créer, mais continuer ce projet ambitieux.

Étienne Gonnu : Parfait. On mettra bien sûr les liens vers ces fiches de poste. On va préciser rapidement dev, ce sont les personnes qui font du développement informatique et sys-admin ce sont plus les personnes qui font plus du support technique.

Morane Gruenpeter : Sys-admin ce sont les administrateurs système. Ils peuvent aussi être des développeurs, mais ils sont plutôt sur la partie de l’infrastructure.

Étienne Gonnu : Très clair. Très bien. On a parlé de ces différents profils. Puisque vous êtes là, vous que faites-vous à Software Heritage ?

Morane Gruenpeter : Bonne question ! J’ai plusieurs casquettes chez Software Heritage. Comme vous m‘avez présentée au départ je suis venue pour ce stage en 2017 sur le sujet des métadonnées, pour créer le web sémantique du logiciel libre et vraiment retrouver les métadonnées descriptives depuis le logiciel, depuis les codes sources parce que, ayant tellement de projets et de fichiers, on se perd. Pour trouver quelque chose, il faut avoir des métadonnées pour rechercher dans cette grande structure.
Donc je suis arrivée pour ça. Un autre collègue, Valentin, a repris mon travail, a fait un très beau travail sur la question d’indexation de ces métadonnées. Actuellement mon travail est plutôt divisé sur trois pôles : un sur Deposit qui est le dépôt de logiciels dans le milieu de la recherche. On peut faire des dépôts depuis des journaux ou l’archive ouverte HAL qui est une archive nationale de publication mais aussi d’autres objets. Donc on a commencé cette collaboration avec eux et moi je suis au milieu de cette collaboration, c’est un pôle.
Avec une autre casquette, je coordonne le programme des ambassadeurs, on peut y revenir un peu plus tard.
Et Finalement je suis aussi sur le sujet des histoires de logiciels par rapport aussi aux métadonnées, mais dans un contexte de logiciel historique, de raconter l’histoire d’un logiciel, l’historique, et comment le faire de manière ludique sur une interface d’histoire.

Étienne Gonnu : On a un petit peu parlé avant l’émission tout simplement pour préparer le sujet. Ce que je trouve intéressant dans cet exemple c’est qu’il montre aussi, dans une logique de mémoire, que Software Heritage n’est pas qu’un projet tourné vers les spécialistes de l’informatique. Vous vous inscrivez vraiment aussi dans une démarche de diffusion du savoir accessible à tous et toutes.

Morane Gruenpeter : Exactement, pour rendre le logiciel ou les codes sources accessibles à tous, mais c’est vrai que c’est difficile de lire du code si on n’a jamais appris. L’importance d’un logiciel ce n’est pas seulement la lisibilité du code, c’est comprendre son contexte, comprendre où il a été créé, par qui il a été créé, voir pour quelles raisons il a été créé et comment il gère une solution, qu’est-ce qu’il essaye de résoudre. Dans ce nouveau projet qu’on appelle Software Stories – c’est une interface qui est en bêta actuellement donc c’est juste un prototype – un des logiciels qui est ??? qui est un logiciel de l’université de Pise des années 70. C’est un synthétiseur de musique où sur l’interface on écoute, on peut voir des vidéos de la production musicale de cette machine et aussi du code source qui a été utilisé pour produire cette musique. C’est vraiment très intéressant même pour quelqu’un qui n’a aucun savoir informatique quelconque.

Étienne Gonnu : J’ai commencé à aller voir un petit peu. On sent effectivement que c'est un travail encore en cours mais ça donne envie de voir où ça peut nous conduire en termes d’exploration.
On va faire une pause musicale pour s’aérer un peu l’esprit. Je vous propose d’écouter Solenopsis par Radio Déserte. On se retrouve dans environ trois minutes. Belle journée à l’écoute de Cause Commune, la voix des possibles.

Pause musicale : Solenopsis par Radio Déserte

Voix off : Cause Commune, 93.1.

Étienne Gonnu : Nous venons d’écouter Solenopsis par Radio Déserte disponible sous licence libre Creative Commons Partage dans les mêmes conditions, CC By SA.

[Jingle]

Deuxième partie

Étienne Gonnu : Je suis Étienne Gonnu de l’April. Nous échangeons avec Morane Gruenpeter, ingénieure en informatique et spécialiste des metadata, membre de l’équipe du projet Software Heritage.
N’hésitez pas à participer à notre conversation en nous appelant au 09 72 51 55 46 ou sur le salon web dédié à l’émission, sur le site causecommune.fm, bouton « chat ».
Puisque nous parlions juste avant la pause de la formidable équipe de Software Heritage, notamment d’un des cofondateurs, Stefano Zacchiroli que nous recevrons le 12 avril avec Isabelle Collet sur le thème de la diversité des genres dans l’informatique et les projets libres. Il vient justement de publier une étude sur ce sujet [Worldwide Gender Differences in Public Code Contributions: and how they have been affected by the COVID-19 pandemic ]. Nous le recevrons donc le mardi 12 avril dans Libre à vous !
Vous évoquiez, et je crois que ça fait aussi partie de votre champ de compétences, les logiciels de recherche dans cette notion plus large de science ouverte aussi. Je crois que c'est un sujet qui vous tient à cœur. Est-ce que vous pouvez nous en dire un petit plus sur la spécificité de ces logiciels et sur l’enjeu de la science ouverte dans lequel s’inscrirait Software Heritage ?

Morane Gruenpeter : Oui. Je peux bien sûr parler de la science ouverte et du logiciel dans la recherche. C’est un sujet qui me passionne vraiment parce que les logiciels sont très importants pour faire de la recherche, dans plusieurs rôles. Déjà comme outils pour vraiment faire de la recherche, mais ils peuvent aussi être des productions de recherche, donc produits par les équipes de recherche pour faire avancer la recherche et ils sont les résultats de recherche. On voit ça très spécifiquement dans l’institut dans lequel on est hébergés, Inria. Puis finalement un troisième rôle, ils peuvent être aussi un objet de recherche sur lequel on fait des études. On pourrait, par exemple, faire de la recherche historique sur les jeux vidéo, donc rechercher sur ces codes sources. Leur place est donc très importante dans la recherche à cause de ces trois rôles-là, mais aussi parce qu’ils ne sont pas suffisamment reconnus en tant que production de recherche. Ça commence à arriver, surtout ici en France. La France est un pays vraiment précurseur sur ce sujet-là et c’est formidable de voir comment la France a pris le devant avec son plan national, son deuxième plan national pour la science ouverte qui met le logiciel au même niveau que les publications et les données mais recommande aussi et va vers le logiciel libre. C’est très beau à voir !

Étienne Gonnu : Super. J’en profite pour rappeler que nous avons fait une émission dédiée justement à la science ouverte, Libre à vous ! 130, et nous avions reçu Mélanie Clément-Fontaine et Alexandre Hocquet qui sont des spécialistes de cette question. Software Heritage a, du coup, une part importante dans cet enjeu.

Morane Gruenpeter : Software Heritage a pris une part important dans ce sujet-là parce que si on fait de la recherche et on crée des logiciels, mais on ne les archive pas, on perd de la connaissance et ce corpus de connaissance est très important à archiver. Donc la place de Software Heritage aussi dans ce domaine-là est vraiment indispensable.

Étienne Gonnu : Ça me paraît effectivement évident vu comme ça.
Vous évoquiez aussi le logiciel libre. Je pense qu’une question qui nous intéresse à l’April mais qui pourra intéresser aussi nos auditeurs et nos auditrices c‘est quel rapport entretient Software Heritage justement avec les communautés diverses du logiciel libre ? Vous avez déjà des libristes, il me semble, Roberto Di Cosmo et Stefano Zacchiroli sont d’éminents libristes, ils sont reconnus pour leur défense des libertés informatiques. Vous travaillez aussi avec des projets, je crois que dans cela que s’inscrit ce que vous appelez les ambassadeurs.

Morane Gruenpeter : Avant d’arriver aux ambassadeurs pour le Libre, pour la communauté du libre, le projet lui-même est déjà un projet libre. Tout le code qui est derrière l’archive est développé publiquement, il est libre et on cherche, on est heureux quand on voit des contributeurs de la communauté du Libre qui contribuent au projet sur notre forge. Peut-être que le code est un peu compliqué, il y a plusieurs modules, mais c’est vraiment un endroit où des personnes qui souhaitent contribuer peuvent venir et échanger avec nous. Nous seulement Roberto et Stefano sont des libristes, mais la plupart des membres de l’équipe le sont et ils travaillent sur d’autres projets, ils contribuent sur d’autres projets, ils participent à des évènements du Libre, FOSDEM, LibrePlanet et d’autres grands évènements où le Libre est au centre.

Étienne Gonnu : Je pense qu‘il y a des projets du Libre qui sont particulièrement connus, qui produisent du code, vous avez peut-être des d’échanges avec ces projets pour qu’ils viennent aussi déposer leur code.

Morane Gruenpeter : Comme toutes les distributions, en tout cas tout ce qu’on arrive actuellement à faire, qui sont publiques, la plupart du Libre est public et accessible en ligne. Effectivement on n’a pas encore toutes les forges encore dans Software Heritage parce que ça demande un travail technique pour élargir la couverture de l‘archive. Actuellement on a des grants, des subventions pour des équipes externes pour permettre d’agrandir cette couverture où on pourra vraiment aller récupérer le code de toute la planète.

Étienne Gonnu : C’est vous qui donnez ces subventions pour que les projets puissent faire les démarches nécessaires ?

Morane Gruenpeter : On a deux partenaires ??? et NLnet qui sont la source de ces subventions. Nous sommes l’intermédiaire, on accepte ou on n’accepte pas les différents projets. On a différentes équipes qui sont passées par ce biais pour faire des contributions, qui sont toutes libres, sur Software Heritage.

Étienne Gonnu : Entendu. Je pense que c’est un point important, vous avez commencé à l’évoquer, on reviendra sur les ambassadeurs après sauf si vous pensez que c’est pertinent le faire tout de suite. Comment concrètement récupérez-vous ces codes ? Il y a peut-être des personnes qui viennent vous les donner spontanément ? D’autre part vous vous connectez sur des forges existantes pour les récupérez ? J’imagine qu’il y a une diversité de manières de faire.

Morane Gruenpeter : Effectivement il y a une diversité. La deuxième manière est la plus répandue, c’est nous allons chercher, collecter le code vraiment dans une stratégie de collecte, parce que si on attend les développeurs, ils vont se dire « ah non !, notre code n’est pas encore bon, on ne va pas l’archiver maintenant, on va l’archiver plus tard », mais c’est très important de l’archiver au fur et à mesure pour ne pas le perdre. Un code peut être perdu, peut être supprimé, peut disparaître, donc c'est très important de collecter ce code. On a ce mécanisme aussi de dépôt de logiciels surtout pour la partie science ouverte avec HAL et on a une fonctionnalité qui s’appelle « Save code now », « sauvegardez votre code maintenant », qui permet à des utilisateurs de signaler une URL d’une forge qu’on veut sauvegarder et on la met sur la plateforme Software Heritage, c’est https://archive.softwareheritage.org/save/.

Étienne Gonnu : On mettra le lien en référence sur la page de l’émission.

Morane Gruenpeter : Il y a cette fonctionnalité pour aller sauver un code qui est en ligne. Parfois, si c’est une forge sur laquelle on collecte régulièrement, ça peut être parce que la copie qu’on a est un peu ancienne et qu’on veut la mettre à jour, mais ça peut être aussi sur une autre plateforme où on n’a pas encore fait la collecte et quelqu’un aimerait bien que ce code soit archivé.

Étienne Gonnu : Je vais préciser à nouveau si des personnes ne connaissent pas le terme, on l’a déjà évoqué en début d’émission mais ce n’est pas grave, une forge c’est une plateforme où des gens vont développer du code ensemble, ce sont des archives temporaires mais qui n’ont pas la même vocation de longue durée que celle que vous avez.

Morane Gruenpeter : Exactement. C’est une plateforme de développement collaboratif. On a vu des plateformes comme ça qui ont fermé ou qui ont arrêté le service pour certains types de système de contrôle de version.

Étienne Gonnu : Ou être rachetées par d’autres entreprises qui peuvent avoir des intérêts divergents. Ce sont des questions qui sont en effet importantes si on veut de l’archive dans la longue durée.
J’imagine que pour certains projets, des projets libres, est-ce que le fait qu’il y ait des fondations, je pense par exemple à l’Open document Foundation, une fondation structurée, j’imagine que ça facilite la récupération du code avec eux, ou ça dépend ?

Morane Gruenpeter : Je ne pense pas que ça facilite ou que ça crée des difficultés. Effectivement il y a une partie de légalité, mais comme pour l’instant on se préoccupe de ce qui est public, accessible publiquement et plutôt libre, c'est plus facile légalement d’aller récupérer le code. Après, la mission du projet est beaucoup plus large que ce qu’on fait techniquement aujourd’hui. On n’a que cinq ans au final.

Étienne Gonnu : Un point important puisque vous invitez des développeurs et des développeurs à venir déposer leur code via le « Save code now », j’imagine que tant qu’à faire c’est mieux si les codes sont, on va dire, propres, s’ils ont respecté certaines bonnes pratiques. J’ai cru comprendre que vous avez un guide de bonnes pratiques.

Morane Gruenpeter : Exactement. On a un guide de bonnes pratiques sur le site. On mettra le lien plus tard. Ce sont surtout des bonnes pratiques de comment bien curer ou faire une curation du code, ce ne sont pas des bonnes pratiques de développement. Il y a des bonnes pratiques de développement, on peut les trouver en ligne. Là c’est vraiment pour avoir toutes les informations nécessaires pour l’archivage avec le contexte. Dans ces bonnes pratiques on propose plutôt d’ajouter un fichier descriptif du projet qui s’appelle un readme, un fichier pour donner l’attribution aux auteurs du logiciel et ça, ça s’inscrit plutôt dans une procédure scientifique et de recherche pour donner crédit aux auteurs. Finalement c’est aussi très important de mettre un fichier licence ou un dossier licence avec plusieurs fichiers de licence, ça dépend s’il y a différentes licences sur différents composants du logiciel. Finalement on a aussi un quatrième fichier ; aucun des fichiers n’est obligatoire, mais c’est un intéressant de le mettre, c’est un fichier de métadonnées qui s’appelle ???, qui est très facile à créer, c’est un fichier texte avec différentes propriétés qui permet à Software Heritage d’indexer ces métadonnées et d’avoir plus de visibilité de ce logiciel dans la recherche sur Software Heritage.

Étienne Gonnu : Entendu. Une question que j’ai oublié d’évoquer, vous récupérez ce qui est disponible. C‘est la dernière version à jour du code et des logiciels ou vous avez tout l’historique aussi ?

Morane Gruenpeter : Tout ! Tout ! Tout !

Étienne Gonnu : Ce qui paraît cohérent avec la démarche.
J’ai évoqué plusieurs fois, en me coupant un peu l’herbe sous le pied, les ambassadeurs. Du coup quel est ce projet ? C’est un projet récent ?

Morane Gruenpeter : C’est un projet vraiment très intéressant qui a commencé seulement l’année dernière, en 2021. On a ouvert un programme des ambassadeurs que je coordonne moi-même. Actuellement on a 19 ambassadeurs. Ces 19 ambassadeurs sont vraiment internationaux. On a des ambassadeurs français, italiens, américains. Ce n’est vraiment pas seulement français-francophone. Ils viennent de domaines différents, de la recherche, de l’industrie, de l’administration et de la culture. Il y a deux, même trois ambassadeurs, qui viennent de différents musées et d’activités culturelles.

Étienne Gonnu : Intéressant. Puisque c’est un peu aussi l’idée de cette émission, est-ce qu’il y a d’autres projets récents, qui sont développés depuis 2019, qui étaient dans les tiroirs en 2019 et qui ont trouvé traduction ? Est-ce que vous avez d’autres exemples à nous donner ?

Morane Gruenpeter : Depuis 2019 beaucoup de choses sont apparues sur le site que vous pouvez aller voir si vous ne l’avez pas visité depuis 2019. Récemment on a ouvert un tour guidé. Si on clique sur le point d’interrogation sur l’archive on peut être vraiment guidé dans l’archive. Donc des personnes qui ne sont pas informaticiennes et qui ne savent pas vraiment comment lire le code, peuvent suivre ce guide et mieux comprendre la structure d’un logiciel y compris l’origine, l’origine c’est d’où vient le code après les visites qu’a faites Software Heritage sur ce code, l’historique du code, puis, dans les fichiers eux-mêmes, comment référencer le code, comment vraiment lire un code logiciel sur l’archive Software Heritage.

Étienne Gonnu : Une remarque. Marie-Odile remarque que les fondateurs sont italiens, vous êtes installés en France mais tout est en anglais. Est-ce qu’il y a une réflexion sur la langue utilisée ? C’est vrai que c’est un peu devenu la langue internationale, d’ailleurs selon où on se situe sur la planète.

Morane Gruenpeter : Le site web est en trois langues, français, anglais, espagnol. C’est vrai qu’on est un peu en retard sur les traductions y compris en français et en espagnol. Dans un premier temps on met les informations en anglais, mais la plupart du site est traduit en français. L’archive elle-même est effectivement en anglais parce que la plupart des développements logiciels se font en anglais et même les commentaires dans le code sont en anglais pour avoir ces échanges de communautés internationales. Je pense que c’est un choix naturel d’avoir l’archive en anglais.

Étienne Gonnu : Merci. On est maintenant en 2022, l’ambition étant quand même très grande, est-ce qu’il y a de nouveaux projets qui commencent à se mettre en place aussi. Vous avez parlé de Software Stories, est-ce qu’il y en a d’autres ?

Morane Gruenpeter : Vraiment récemment, en novembre 2021, on a fêté les cinq ans de Software Heritage par un grand évènement à l’UNESCO avec tous les partenaires et toute la communauté. On voit que la communauté grandit et on cherche à l’agrandir encore plus et vraiment la mettre autour d’une table et trouver des solutions à ses grandes difficultés ou les difficultés à venir sur l’archivage du logiciel dans son contexte avec la question des métadonnées. Le projet Software Stories est un projet qui est fait avec des partenaires aux États-Unis, l’équipe Science Stories. Eux travaillent avec Wikidata, donc la plupart des métadonnées sont aussi sur Wikidata, des métadonnées libres. Voilà comment on collabore avec ces instances, ces plateformes libres pour mieux préserver le code dans son contexte.

Étienne Gonnu : Très bien. Vous avez parlé de vos sponsors. J’imagine que vis-à-vis des communautés scientifiques, vis-à-vis des industries – je ne veux pas utiliser le terme de secteur, mais c’est le seul qui me vient qu’importe – est-ce qu’il a des secteurs ou des communautés avec lesquelles vous avez plus facilement construit de relations, d’autres moins, c’est partout pareil ?

Morane Gruenpeter : Je ne sais pas pour les autres mais pour moi typiquement, pour mon parcours, le plus facile c’était vraiment dans le contexte de la recherche et de la science ouverte. C’est aussi parce qu’au départ, en arrivant chez Software Heritage, j’ai commencé à participer à des groupes de travail sur le sujet de la science ouverte, de la citation du logiciel, de la préservation de logiciels mais pas seulement du code source et des questions qui sont revenues sur les métadonnées dans le contexte de la recherche. Donc c‘est vraiment la communauté ou le secteur avec lequel je suis le plus proche actuellement, mais c’est juste une question de temps ! On n’a que 24 heures dans une journée, il faut dormir un peu !

Étienne Gonnu : Du coup vous avez le sentiment que votre projet est bien reçu dans la communauté par exemple scientifique ? Il y avait visiblement ce besoin.

Morane Gruenpeter : Il est très bien reçu. Il y avait vraiment ce besoin. Quand je suis arrivée en 2017 et même maintenant c’est difficile de trouver des citations correctes de logiciel, où on donne le crédit et l’attribution, on valorise le logiciel, et c’est un vrai sujet dans la recherche. Depuis que je suis arrivée avec ce plan national qui a été publié en juillet 2021 et vraiment très récemment un prix science ouverte du logiciel libre de la recherche a été annoncé (remis ???) il y a à peu près deux/trois semaines, début février, on va vers la reconnaissance du logiciel, de l’importance de ce logiciel et l’importance d’avoir du crédit en créant du logiciel dans la recherche.

Étienne Gonnu : On revient à ça. C’est vrai que ce n’est plus seulement ce que j’avais compris quand on me l’avait expliqué, ce n’est plus seulement perçu comme un outil mais comme une production scientifique, une production de connaissance à part entière, du logiciel et de la connaissance. C’est effectivement important à rappeler.
Le temps avance, on a un peu de temps. Est-ce qu’il y a un point qu’on n’a pas abordé sur lequel vous souhaiteriez prendre un peu de temps ?

Morane Gruenpeter : On a abordé tellement de points !

Étienne Gonnu : On a abordé beaucoup de choses !

Morane Gruenpeter : J’ai essaye de voir ce qu’on n’a pas abordé. J’ai l’impression qu’on a abordé vraiment beaucoup de points.

Étienne Gonnu : On sort d’une période assez complexe – on sort… je suis optimiste, je pense –, la période de la crise sanitaire avec le confinement. Vous avez parlé de la solidité de l’équipe de Software Heritage. Comment ça s’est concrétisé pour vous ? Est-ce que ça a mis un frein à vos projets ? Vous avez pu vous organiser ? Comment cela s’est-il traduit ?

Morane Gruenpeter : Franchement, encore une fois je le répète, l’équipe est formidable, mais vraiment ! Comme on avait déjà des processus de travail qui sont vraiment en ligne, on a des chaînes IRC pour discuter le long de la journée, on ne s’est pas quittés de vue même si on ne s’est plus vus en face à face. Pendant vraiment le confinement on a même créé une soirée par semaine où l’équipe se retrouvait pour discuter de choses autres que les sujets du quotidien, les sujets de travail, ce n’étaient pas des réunions de travail. On a créé aussi quelque chose que j’aimais beaucoup, la pause café. On se retrouvait en ligne dans une pièce Jitsi juste pour échanger autour d’un café et pas parler boulot. On a réussi à maintenir cette activité-là pendant ces deux dernières années. Cette année on a aussi fait des minis sprints de documentation. On ne pouvait pas les faire physiquement, se voir au centre de recherche, on les a faits en ligne, donc on a travaillé ensemble virtuellement. C’était remarquable.

Étienne Gonnu : Ce que j’aime bien à chaque fois que j’ai l’occasion d’échanger avec une personne de Software Heritage, c’est qu’il y a l’ampleur de ce projet, mais on sent que c’est un projet très humain et qui accorde beaucoup d’importance à ces liens humains. Je pense que c‘est aussi ce qui en fait un beau projet.
Une question sur le salon web de l’émission : combien y a-t-il de femmes dans l’équipe ?

Morane Gruenpeter : Je vais aller me cacher derrière mes papiers ! Formellement je suis la seule femme. Marla, qui est la chargée de communication, est à son compte, mais elle est très présente avec moi dans l’équipe. Oui, on n’a pas beaucoup de femmes. J’ai remarqué ça aussi pendant mes études. On était trois femmes sur 100 élèves.Chez les informaticiens, c’est très difficile de trouver des femmes. Je suis ravie de dire que pour le programme des ambassadeurs c‘est presque 50/50, peut-être plus de femmes que d’hommes. On a récupéré plusieurs femmes, mais c’est effectivement un sujet…

Étienne Gonnu : Dont Software Heritage ne porte pas seul la responsabilité. C’est sûr que ça s’inscrit dans un système où malheureusement les femmes… C’est effectivement un métier qui est perçu comme très masculin dans les imaginaires ce qui peut repousser aussi. On a fait des émissions sur ce sujet qui est en fait essentiel.

Morane Gruenpeter : Je pense qu’il faut commencer tôt. Là je parle de moi et pas de Software Heritage, je pense que c‘est une stratégie qu’il faut porter très tôt déjà de l’école primaire, donner accès à tous les élèves et mettre un poids ??? sur les étudiantes que ce métier et le logiciel libre est accessible aussi aux femmes. C’est vraiment une stratégie à long terme qui ne peut pas juste se reposer au bout de la course quand il faut chercher un poste. Sur un poste qui va s’ouvrir, il n’y a aura beaucoup de candidatures de femmes et ça sera vraiment dommage et ce n’est pas ce que les industriels et les chercheurs souhaitent. On veut être 50/50. Je vois ça avec mes collègues, ils auraient voulu avoir plus de femmes dans l’équipe, ça aurait fait plus de diversification de tout, mais c’est juste très difficile.

Étienne Gonnu : Il faut revenir à la source. Ça s’inscrit dans des rapports de domination dont on est tous imprégnés malheureusement. Mais bon ! Il n’y a pas de fatalité, au contraire, on peut lutter contre ça. Ce n’est pas notre sujet aujourd’hui.
Une dernière question avant de vous proposer un petit temps de synthèse. Quand on voit l’informatique qui se développe actuellement on a quand même la sensation d’une certaine balkanisation autour de certains îlots technologiques entre Apple d’un côté, Google de l’autre, l’informatique à distance. Finalement l’informatique s’éloigne un petit peu des utilisateurs et des utilisatrices. Est-ce que c’est quelque chose qui impacte un peu Software Heritage ? Comment percevez-vous ça depuis votre prisme, avec votre regard ?

Morane Gruenpeter : Moi je ne vois pas ça de cette manière. Je vois vraiment qu’on avance vers la volonté d’être plus en contrôle de notre utilisation et de nos codes. Que peut-être de plus en plus de personnes souhaitent apprendre à coder et au moins à savoir lire le code. Je pense que Software Heritage vient à un moment où on montre que c’est possible pour tout le monde et que c’est nécessaire pour tout le monde que ce code soit archivé et accessible.

Étienne Gonnu : Je pense qu’on peut difficilement mieux dire. Une chose qu’on dit beaucoup à l’April c’est que le logiciel libre n’est pas qu’un problème pour les informaticiens ou les informaticiennes, ça regarde tout le monde parce que c'est vraiment un enjeu commun.
Merci beaucoup. En deux, même trois minutes, on a un peu de temps, quels sont pour vous les points importants à retenir de notre échange ?

Morane Gruenpeter : Les points importants de notre échange.
Déjà que c’est une mission qui s’inscrit de manière générale dans l’intérêt général de tout le monde. C’est une mission très importante de collecte, de préservation et de partage des codes sources pour permettre l’accès à ces codes sources à tout le monde. Pas seulement pour préserver un patrimoine, ce qui est très important, mais aussi dans la recherche pour garder ce corpus de connaissance et aussi pour l’industrie de pouvoir garder la trace de ce qui a été développé, quand, où, comment et qui est le premier qui l’a fait.
Cette archive est très jeune, cinq ans ça a l’air énorme mais c’est jeune. On cherche à rester dans le temps, à agrandir cette communauté.
Je viens ici et je vous remercie de m’avoir invitée. Je veux vraiment vous inviter à aller voir cette archive, à contribuer à la communauté, pas seulement contribuer à du code, contribuer par votre présence, montrer que c’est important pour vous que le code source soit archivé.

Étienne Gonnu : Parfait. Ça me paraît être une très bonne synthèse.
Merci beaucoup Morane Gruenpeter. Vous êtes ingénieure en informatique spécialiste des metadata, membre de l’équipe du projet Software Heritage, cette bibliothèque d’Alexandrie des programmes informatiques. Merci beaucoup d’avoir passé ce temps avec nous. Nous aimons Software Heritage, c’est un vrai plaisir que de vous recevoir.

Morane Gruenpeter : Merci beaucoup.

Étienne Gonnu : Nous allons maintenant faire une pause musicale.

[Virgule musicale]

Étienne Gonnu : Nous allons à présent écouter Swing Rabbit ! Swing ! par Amarià. On se retrouve juste après. Je vous souhaite une belle journée à l’écoute de Cause Commune, la voix des possibles.

Pause musicale : Swing Rabbit ! Swing ! par Amarià.

Voix off : Cause Commune, 93.1.

Étienne Gonnu : Nous venons d’écouter Swing Rabbit ! Swing ! par Amarià, disponible sous licence libre Creative Commons Attribution, CC By.

[Jingle]

Étienne Gonnu : Nous allons poursuivre avec notre dernier sujet.

[Virgule musicale]

Chronique « Partager est bon » de Véronique Bonnet, professeur de philosophie et présidente de l’April sur le thème du logiciel libre et de l’ouverture sociale

Étienne Gonnu : La chronique