La bibliothèque d'Alexandrie du logiciel - Roberto Di Cosmo

De April MediaWiki
Aller à la navigationAller à la recherche


Titre : La bibliothèque d'Alexandrie du logiciel

Intervenant : Roberto Di Cosmo - Delphine Sabattier

Lieu : Émission Smart Tech, B-Smart

Date : 13 février 2023

Durée : 13 min 29

Vidéo

Licence de la transcription : Verbatim

Illustration : Sa photo sur Wikipédia ? https://commons.wikimedia.org/wiki/File:Roberto_Di_Cosmo_001.jpg

NB : transcription réalisée par nos soins, fidèle aux propos des intervenant·e·s mais rendant le discours fluide.
Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas nécessairement celles de l'April, qui ne sera en aucun cas tenue responsable de leurs propos.

Description

Smart Tech reçoit Roberto Di Cosmo, directeur de Software Heritage.

Transcription

Delphine Sabattier  : Avec moi en plateau ce matin, Alain Goudey, directeur général adjoint en charge du numérique et professeur de marketing à la Neoma Business School. Vous êtes, avec Guillaume Leboucher, fondateur et président de la Fondation L’IA pour l’école. Et tous les deux, vous allez nous aider à comprendre un peu ce qui se passe, là, avec l’arrivée de ChatGPT, de Bard demain. Cette intelligence artificielle qui débarque à l’école, qu’est-ce que ça bouscule, quelle question ça pose et surtout comment on s’organise face à ça ? Ce sera donc notre grand Tech Talk aujourd’hui dans Smart Tech.

D’abord, je propose que l’on se connecte avec Roberto Di Cosmo, qui porte un projet extraordinaire : le projet de créer la bibliothèque d’Alexandrie du logiciel, c’est comme ça que je le présente assez simplement. C’est un projet qui est né en France sous l’impulsion d’Inria [Institut national de recherche en informatique et en automatique] et en partenariat avec l’UNESCO, mais c’est un projet qui a une envergure internationale. Bonjour, Roberto.

Roberto Di Cosmo : Bonjour Delphine.

Delphine Sabattier  : Vous êtes professeur d’informatique de l’université Paris Cité détaché d'Inria depuis que ce projet a émergé, grâce à vous notamment, en 2015. C’est une initiative internationale à but non lucratif dont vous êtes le directeur aujourd’hui.
Il y a quelques jours s’est tenue une grande réunion pour fêter les six ans, sept ans ? Je n’ai pas très bien suivi quelle était la date exacte anniversaire, j’ai vu plusieurs informations non concordantes à ce sujet, Roberto Di Cosmo. La vraie question, c’est : que fêtiez-vous exactement ? Où en est le projet ? Quelle est votre principale réussite ?

Roberto Di Cosmo : Merci. On va essayer de remettre un peu d’ordre dans la chronologie, il n’y a pas de problème. Le projet est né un peu autour de 2014/2015. On a dévoilé Software Heritage au grand public le 30 juin 2016. En 2021, on avait fêté les cinq ans à l’UNESCO, mais c’était en période de Covid, de confinement, c’était assez compliqué.

On a donc décidé, cette année, de transformer l’événement qu’on avait créé pour fêter les cinq ans en une conférence annuelle qui se répète tous les ans. Cette année on a eu la chance, en particulier, de pouvoir faire venir le directeur adjoint de l’UNESCO, monsieur Toufik Jelassi, la directrice de la DINUM [Direction interministérielle du numérique], madame Stéphanie Schaer. Un représentant de la NASA, Steve Crawford, était là, les présidents de l’association EOSC, European Open Science Cloud, Karel Luyben, et d’autres, pour un grand événement le matin. On a essayé de faire le point sur tous les sujets dans lesquels avoir une grande infrastructure internationale, cette grande bibliothèque d’Alexandrie d’un côté, mais qui est aussi un très grand télescope pour observer l’évolution, la galaxie du développement logiciel. C'est important pour le patrimoine culturel, pour la recherche, pour l’industrie et pour l’administration publique. On a essayé de regarder tout ça, ensemble, une très grande communauté qui est en train de se monter autour des collaborateurs, d’ambassadeurs du projet et de collaborateurs de tout type.

Delphine Sabattier  : Et là, aujourd’hui, plus de 14 milliards de fichiers uniques archivés, déjà. Mais ça représente quoi, proportionnellement à la masse existante actuellement ?

Roberto Di Cosmo : Il y a quelques années, je vous aurais dit peut-être qu’on a récupéré un quart de ce qui existe, là, on s’approche pas mal de la totalité : les plus grandes plateformes sont presque entièrement archivées, GitHub qui est la plus populaire, Gitlab, je pense que les auditeurs de votre émission connaissent toutes ces plateformes. On les a toutes archivées et on commence à aller chercher la longue traîne des petits projets, des petites plateformes qui sont éparpillées un peu partout sur Internet, mais ça progresse vraiment pas mal. C’est difficile de dire ce qu’on a par rapport à ce qu’on ne sait pas, mais disons que si on dit 80/90 % du total disponible sur la planète, je pense qu’on n’est pas très loin de la vérité.

Delphine Sabattier  : Donc, aujourd’hui, c’est la plus grande archive mondiale de codes sources de logiciels qui a été créée. Vous avez commencé à nous donner quelques pistes sur l’utilisation. À qui ça sert ? À quoi ça sert déjà aujourd’hui ?

Roberto Di Cosmo : Quand on parle de bibliothèque d’Alexandrie, peut-être que les gens se disent : « Ah oui !, mais la bibliothèque d’Alexandrie a brûlé ! ». Ne vous inquiétez pas, on a pris des mesures pour que ça ne brûle pas ; c’est une version moderne, on a fait des copies. Mais en plus, parfois on a l’idée de quelque chose comme de vieilles archives poussiéreuses où on met des choses qu’on va regarder peut-être dans 50 ans. Non ! Là c’est vraiment complètement différent. C’est une infrastructure dans laquelle, bien sûr, on archive, donc on protège, on préserve tous les codes sources depuis les débuts de l’informatique, les usages de l’informatique. Mais on a aussi ce qui a été développé hier soir par un développeur et on a la trace de qui a modifié quoi, quand, à quel moment et pourquoi, avec tout l’historique de développement des codes sources. Et on est capable aussi de voir si le même bout de code, le même logiciel, est utilisé à plusieurs endroits. Dans le développement moderne, il arrive très souvent qu’on fasse des copies d'un logiciel pour faire des modifications qu'on soumet aux autres, ce qu’on appelle des pull requests aujourd’hui.

Finalement, ce ne sont pas seulement les 14 milliards de fichiers uniques qui viennent des 200 millions de projets différents, c’est aussi un gigantesque graphe qui retrace tous les développements de tous les codes, qui contient aujourd’hui plus de 25 milliards de nœuds et 350 milliards d’arêtes. C’est probablement le plus gros graphe social publiquement disponible aujourd’hui. Il y a d’autres graphes, le Web, etc., mais, disons, publiquement disponible, pas possédé par une multinationale, je pense que ce que nous avons construit est le plus grand. Il y a évidemment des applications pour la cybersécurité, des applications pour la recherche, pour construire l’infrastructure pour la science ouverte — les chercheurs déposent les codes sources qui seront utilisés pour prouver les résultats dans leurs articles —, pour l’administration publique qui a besoin de transparence, de mettre à disposition des codes, et aussi pour reconstruire l’histoire des logiciels marquants de l’informatique.

Delphine Sabattier  : Vous avez évoqué très rapidement la question de la sécurité de l’archive. Quelles sont les technologies d’archivage que vous utilisez ? J'ai vu que lors de votre événement, il y avait tout un thème autour du stockage sur ADN.

Roberto Di Cosmo : Absolument. La nouveauté de cette année c'est qu'on a décidé de mettre une session, passez-moi le terme, un peu plus geek, un peu plus technique dans ces événements qui sont normalement toujours un peu politiques. Donc là, on s’intéresse effectivement à faire en sorte qu’on puisse préserver le code aujourd’hui, c'est-à-dire en faire plusieurs copies de façon à ce qu’on puisse l'analyser plus facilement. S’il y a un accident technique, si on se fait pirater — ça peut arriver à tout le monde, on ne prétend pas être meilleurs que les autres —, qu'il existe des copies ailleurs. Il y avait un haut responsable de l’ENEA [Agence nationale italienne pour les nouvelles technologies, l'énergie et le développement durable], une sorte de CEA [Commissariat à l’énergie atomique et aux énergies alternatives] italien, qui va construire le premier miroir mondial d’un des centres de superordinateurs qui est localisé à Bologne, c’est le 4e ordinateur mondial, en partie italien, en partie européen.

Mais on s’est aussi intéressé à comment on pourrait préserver ces types de connaissances sur le très long terme, avec des coûts très faibles. On a donc eu l’intervention de Marc Antonini qui est le porteur d’un projet spectaculaire ici en France qui s’appelle MoleculArXiv[1] qui vise à utiliser des brins d’ADN ou alors des polymères, si vous voulez, pour stocker des informations sur le très, très long terme. L’ADN a la particularité de pouvoir durer très longtemps et ça ne coûte rien, il suffit que le matériau soit un peu à l’abri de l’humidité : on est encore capable de séquencer aujourd’hui l’ADN des mammouths qui ont existé il y a des centaines de milliers d’années, et les brins d’ADN sont toujours là, on peut le faire. Donc, si on arrive à encoder les logiciels importants — il faudra décider lesquels dans ce type de technologie, on serait capable de les préserver pour 10 000 ans sans aucun problème.

Mais bon !, ça c’est du très long terme. D’un autre côté, on a le court terme, c’est-à-dire avoir des copies sur des superordinateurs qui permettent de faire des analyses massives, effectivement, de trouver des vulnérabilités et de pouvoir suivre... Vous parlez aujourd’hui d’intelligence artificielle, on ne vous cache pas qu’on est contacté par pas mal de gens qui veulent faire l’équivalent d’un ChatGPT, mais en utilisant Software Heritage comme base, plutôt que, allez savoir ce qui a été utilisé pour entraîner les réseaux neuronaux dans ces autres plateformes qui sont fermées.Il y a tous ces types d’applications.

La troisième est une autre technologie portée par un collègue italien, qui est l’un des meilleurs chercheurs dans le domaine, qui est de compresser les archives de sorte que tous les développeurs de la planète puissent avoir sur leur propre machine, sans avoir à passer par un serveur intégré par je ne sais qui, l’ensemble du code développé dans leur propre langage de programmation, avec un moteur de recherche qui les aide à retrouver facilement ce dont ils ont besoin.

Vous voyez qu'il y a un foisonnement de technologies diverses. Parmi les plus fascinantes, celle de l'ADN, évidemment, nous a fait un peu tous rêver, mais c’est plutôt à l’horizon cinq ou dix ans.

Delphine Sabattier  : Oui. Et c’est vrai que se posera la question de quel logiciel mérite d’être archivé sur un brin d’ADN.
Le logiciel prend une place majeure dans notre société numérique. Là, il ne s’agit pas uniquement d’aller créer une archive de logiciels libres : vous travaillez aussi avec des partenaires, des acteurs privés du monde numérique, Roberto Di Cosmo.

Roberto Di Cosmo : Oui, tout à fait. D’abord, il faut bien voir que moi je suis dans ce monde du logiciel libre depuis un peu plus d’un quart de siècle, ce qui ne me rajeunit pas, malheureusement. Disons qu’aujourd’hui toutes les entreprises, même les plus fermées, les plus propriétaires au monde, ont toutes un usage massif du logiciel libre, parce que c’est juste trop difficile de tout reconstruire tout seul, donc on se base sur le travail des autres. C’est là-dedans qu’on a concentré l’essentiel de notre énergie, c’est-à-dire archiver le plus rapidement possible tous les codes des logiciels qui sont publiquement disponibles, ce qui est un peu plus que les logiciels libres : publiquement disponible, ça peut être un logiciel pour lequel on dit, par exemple, « vous pouvez l’utiliser, mais seulement pour un usage de recherche. »

On a donc archivé tout ça, mais on veut aller plus loin, parce qu’effectivement on veut récupérer des logiciels historiques qui étaient fermés. On travaille avec les réseaux des musées de l’informatique au niveau international, il faut aller convaincre, une par une, les entreprises de céder les droits pour qu’on puisse les mettre à disposition de tous. On réfléchit aussi à la possibilité de fournir un service aux entreprises, qu'elles aient une sorte de tiers de confiance dans lequel les codes sources propriétaires aujourd’hui, mais qui pourraient être d’un intérêt global dans le futur, puissent être stockés en sécurité. C’est ce qu’on appelle les escrows[2], une terminologie un peu technique d’aujourd’hui. C’est aussi une piste qu’on suit, mais, pour l’instant, on se concentre sur la grande masse de tout ce qui est ouvert parce que ça grandit très vite. On a observé que la taille de notre propre archive double tous les deux ans. La quantité de nouveaux codes qui sont produits est assez spectaculaire !

Pour revenir à cette question de l’intelligence artificielle, on va vous dire qu’il n’y aura plus besoin de développeurs parce que les robots vont tout faire à leur place. J’ai un certain âge, vous le voyez à la couleur de ma barbe, ça doit être la cinquième ou sixième itération des buzzwords qui vous disent : c’est la fin de la programmation. Il y avait les langages de la cinquième génération, les Prolog, les IDE, les modèles de drilling engineer, tout ça. À chaque fois on vous dit qu’on a besoin de moins de programmeurs puisque c’est fini, tout est automatisé, et, chaque fois, on a plus de développeurs à la fin, parce que ces nouvelles technologies, en réalité, nous permettent d’aller plus vite et de faire plus de choses, donc on fait moins des choses bêtes et plus de choses, entre guillemets, « intelligentes ». C’est comme quand on a pris des calculettes pour aller à l’école : ça ne nous a pas rendu forcément moins intelligents.

Delphine Sabattier  : Roberto Di Cosmo, je pense que mes invités vont acquiescer. Vous avez une réaction ? Vous connaissiez déjà ce projet, Software Heritage ?

Guillaume Leboucher : J’ai un petit peu travaillé dessus, parce que je travaille aussi un petit peu avec Inria. L’idée, c’est vraiment de saluer cette initiative qui est extraordinaire. On parle souvent des Big Tech qui ont des moyens colossaux. Là, il y a beaucoup de moyens universitaires, il y a beaucoup de rassemblement de savoirs on peut dire de l’extrémité de la planète et c’est formidable. Je vois qu’il y a la loi de Moore sur les cartes mères, là on vient de citer la loi de Moore sur le logiciel qui double tous les deux ans. C’est fantastique et je crois qu’on ne peut être qu’émerveillé par ce type d’initiative.

Delphine Sabattier  : Une réaction également ?

Alain Goudey : Oui. C’est vrai que c’est un très beau projet et on voit bien que l’ensemble des fondamentaux du monde d’aujourd’hui sont présents dans ce projet, on l’évoquait : doublement de la donnée ou du nombre de logiciels, enjeux de stockage de cette donnée, avec des explorations de deux technologies extrêmement intéressantes pour le futur.

Delphine Sabattier  : Alain Goudey, Guillaume Leboucher, vous restez avec moi, on va enchaîner sur cette question de l’intelligence artificielle : qu’est-ce que ça bouscule dans le domaine de l’éducation ?
Roberto Di Cosmo, merci encore beaucoup, à la fois pour votre initiative, mais aussi pour venir nous en parler et nous permettre de suivre ce beau projet Software Heritage[3] dont vous êtes le fondateur et le directeur.