La bibliothèque d'Alexandrie du logiciel - Roberto Di Cosmo

De April MediaWiki
Aller à la navigationAller à la recherche


Titre : La bibliothèque d'Alexandrie du logiciel

Intervenant : Roberto Di Cosmo

Lieu : L'interview Smart Tech, sur BSmart, par Delphine Sabattier

Date : 13 février 2023

Durée : 13 min 29

Vidéo

Licence de la transcription : Verbatim

Illustration : Sa photo sur wikipedia ? https://commons.wikimedia.org/wiki/File:Roberto_Di_Cosmo_001.jpg

NB : transcription réalisée par nos soins, fidèle aux propos des intervenant·e·s mais rendant le discours fluide.
Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas nécessairement celles de l'April, qui ne sera en aucun cas tenue responsable de leurs propos.

Description

Smart Tech reçoit Roberto Di Cosmo, directeur de Software Heritage

Transcription

Delphine Sabattier  : Avec moi en plateau ce matin, Alain Goudey, directeur général adjoint en charge du numérique et professeur de marketing à la Neoma Business School. Vous êtes, avec Guillaume Leboucher, fondateur et président de la Fondation L'IA pour l'école. Et tous les deux, vous allez nous aider à comprendre un peu ce qui se passe, là, avec l'arrivée de ChatGPT, de Bard demain. Cette intelligence artificielle qui débarque à l'école, qu'est-ce que ça bouscule, quelle question ça pose et comment on s'organise surtout face à ça ? Ce sera donc notre grand TechTalk aujourd'hui dans Smart-Tech.

Mais d'abord, je propose que l'on se connecte avec Roberto Di Cosmo, qui porte un projet extraordinaire : le projet de créer la bibliothèque d'Alexandrie du logiciel, c'est comme ça que je le présente assez simplement. C'est un projet qui est né en France sous l'impulsion de l'Inria [Institut national de recherche en informatique et en automatique] et en partenariat avec l'UNESCO, mais c'est un projet qui a une envergure internationale. Bonjour, Roberto.

Roberto Di Cosmo : Bonjour Delphine.

Delphine Sabattier  : Vous êtes professeur d'informatique de l'université Paris Cité détaché de l'INRIA depuis que ce projet a émergé grâce à vous notamment, en 2015. C'est une initiative internationale à but non lucratif dont vous êtes le directeur aujourd'hui. Il y a quelques jours s'est tenu une grande réunion pour fêter les six ans ? sept ans ? Je n'ai pas très bien suivi quelle était la date exacte anniversaire, parce que j'ai vu plusieurs informations non concordantes à ce sujet, Roberto Di Cosmo. Mais la vraie question, c'est : que fêtiez-vous exactement ? Où en est le projet ? Quelle est votre principale réussite ?

Roberto Di Cosmo : Merci. On va essayer de remettre un peu d'ordre dans la chronologie, il n'y a pas de problème. Le projet est né un peu autour de 2014, 2015. On l'a dévoilé au grand public le 30 juin 2016. En 2021, vous voyez, on avait fêté les 5 ans à l'UNESCO, mais c'était en période de Covid, de confinement, c'était assez compliqué.

Et donc, cette année, on a décidé de transformer l'événement qu'on avait créé pour fêter les 5 ans en une conférence annuelle qui se répète tous les ans. Et donc cette année en particulier, on a eu la chance de pouvoir faire venir le directeur adjoint de l'UNESCO Toufik Jelassi, la directrice de la DINUM [Direction interministérielle du numérique] Stéphanie Schaer, un représentant de la NASA, Steve Crawford, les présidents de l'association European Open Science Cloud et d'autres, pour un grand événement le matin, dans lequel on a essayé de faire le point sur tous les sujets dans lesquels avoir une grande infrastructure internationale, cette grande bibliothèque d'Alexandrie d'un côté - mais c'est aussi un très grand télescope pour observer l'évolution, la galaxie du développement logiciel - est important. Pour le patrimoine culturel, pour la recherche, pour l'industrie et pour l'administration publique. On a essayé de regarder tout ça, et ensemble, avec une très grande communauté qui est en train de se monter autour des collaborateurs, d'ambassadeurs de projets et des collaborateurs de tout type.

Delphine Sabattier  : Et là, aujourd'hui, plus de 14 milliards de fichiers uniques archivés, déjà. Mais ça représente quoi, proportionnellement à la masse existante actuellement ?

Roberto Di Cosmo : Il y a quelques années, je vous aurais dit peut-être qu'on a récupéré un quart de ce qui existe. Là, on s'approche un peu pas mal de la totalité. C'est à dire : on a vraiment les plus grandes plateformes qui sont presque entièrement archivées. GitHub qui est la plus populaire, Gitlab : je pense que les auditeurs de votre émission connaissent toutes ces plateformes. Donc on les a toutes archivées, et on commence à aller chercher la longue traîne des petits projets, des petites plateformes qui sont éparpillées un peu partout sur Internet, mais ça progresse vraiment pas mal. Donc là, à nouveau, c'est difficile de dire ce qu'on a par rapport à ce qu'on ne sait pas, mais disons que si on dit 80 / 90 % du total disponible sur la planète, je pense qu'on n'est pas très loin de la vérité.

Delphine Sabattier  : Et donc, aujourd'hui, c'est la plus grande archive mondiale de code source de logiciels qui ait été créée. Vous avez commencé à nous donner quelques pistes sur l'utilisation. À qui ça sert ? À quoi ça sert déjà aujourd'hui ?

Roberto Di Cosmo : Effectivement, quand on parle de bibliothèque d'Alexandrie, peut-être que les gens se disent : « ah oui, mais la bibliothèque d'Alexandrie a brûlé ». Ne vous inquiétez pas, on a pris des mesures, ça ne brûle pas : c'est la version moderne, on a fait des copies. Mais en plus, parfois on a l'idée de quelque chose comme de vieilles archives poussiéreuses où on met des choses qu'on va regarder peut-être dans 50 ans. Non non : là c'est complètement différent. C'est une infrastructure d'accueil : bien sûr, on archive, donc on protège, on préserve tous les codes sources depuis les débuts de l'informatique, les usages de l'informatique. Mais on a aussi ce qui a été développé hier soir par un développeur, et on a la trace de qui a modifié : quoi, quand, à quel moment et pourquoi, avec tout l'historique de développement des codes sources. Et on est capable aussi de voir si le même bout de code, le même logiciel, est utilisé à plusieurs endroits. Oui, dans le développement moderne ça arrive très très souvent qu'on fasse des copies de logiciel pour faire des modifications en créant des ??? [5:22] soumis aux autres, ce qu'on appelle des pull request aujourd'hui.

Donc, finalement, ce n'est pas seulement les 14 milliards de fichiers uniques, qui viennent des 200 millions de projets différents, mais c'est aussi un gigantesque graphe qui retrace tous les développements de tous les codes, qui contient aujourd'hui plus de 25 milliards de noeuds et 350 milliards d'arêtes. Donc c'est probablement le plus gros graphe social publiquement disponible aujourd'hui. Il y en a d'autres, des graphes, hein, le web, etc. Mais disons : publiquement disponible, pas possédé par une multinationale. Je pense que ce que nous avons construit est le plus grand. Évidement, il y a des applications à la cybersécurité, des applications pour la recherche, pour construire l'infrastructure pour la science ouverte : les chercheurs déposent les codes sources qui seront utilisés pour prouver les résultats dans leurs articles, vous voyez. Pour l'administration publique, qui a besoin de transparence, de mettre à disposition des codes, et aussi pour construire l'histoire des logiciels marquants de l'informatique.

Delphine Sabattier  : Vous avez évoqué très rapidement la question de la sécurité de l'archive. Quelles sont les technologies d'archivage que vous utilisez ? Parce que j'ai vu que lors de votre événement, il y avait tout un thème autour du stockage sur ADN.

Roberto Di Cosmo : Absolument effectivement. Ça, c'est la nouveauté de cette année, c'est qu'on a décidé de mettre une session avec des termes un peu plus geeks, un peu plus techniques dans ces événements qui sont normalement toujours un peu politiques. Donc là, on s'intéresse effectivement à faire en sorte qu'on puisse préserver le code aujourd'hui, en faire plusieurs copies de façon qu'on puisse analyser plus facilement, s'il y a un accident technique, si on se fait pirater - ça peut arriver à tout le monde, on ne prétend pas être meilleurs que les autres - il existe des copies ailleurs. Donc il y avait un haut responsable de l'ENEA [Agence nationale italienne pour les nouvelles technologies, l'énergie et le développement durable] - c'est une sorte de CEA [Commissariat à l'énergie atomique et aux énergies alternatives] italien - qui va construire le premier miroir mondial d'un des centres de superordinateurs qui est localisé à Bologne, c'est le 4e ordinateur mondial, en partie italien, en partie européen.

Mais on s'est aussi intéressé à comment on pourrait préserver ces types de connaissances sur le très long terme, avec des coûts très faibles, et donc là on a eu l'intervention de Marc Antonini qui est le porteur d'un projet spectaculaire ici en France qui s'appelle MoleculArXiv [1] qui vise à utiliser des brins d'ADN ou alors des polymères, si vous voulez, pour stocker des informations sur les très, très, très longs termes. Vous voyez, l'ADN a la particularité qu'il peut durer très longtemps et ça ne coûte rien. Il suffit que le matériau soit un peu à l'abri de l'humidité : on est encore capable de séquencer aujourd'hui l'ADN des mammouths qui ont existé il y a des centaines de milliers d'années. Et ils sont toujours là, les brins d'ADN, on peut le faire. Donc, si on arrive à encoder les logiciels importants - il faut décider lesquels - dans ce type de technologies, on serait capable de les préserver pour 10 000 ans sans aucun problème.

Mais bon, ça c'est du très, très, très long terme. D'un autre côté, on a le court terme, c'est à dire avoir des copies à côté des superordinateurs qui permettent de faire des analyses massives, effectivement, de trouver des vulnérabilités et de pouvoir suivre... Vous parlez aujourd'hui d'intelligence artificielle, on ne vous cache pas qu'on est contacté par pas mal de gens qui veulent faire l'équivalent d'un ChatGPT, mais en utilisant Software Heritage comme base, plutôt que, allez savoir ce qui a été utilisé pour entraîner les réseaux neuronals - neuronaux, pardon : c'est mon italien qui me remonte - dans ces autres plateformes qui sont fermées.

Donc, il y a tous ces types d'applications et la troisième, qui est une autre technologie portée par un collègue italien qui est l'un des meilleurs chercheurs dans le domaine, était de compresser les archives de sorte que tous les développeurs de la planète puissent avoir sur leur propre machine, sans avoir à passer par un serveur intégré par je ne sais pas qui, l'ensemble du code développé dans leur propre langage de programmation, de la ??? [9:16] qui les aide à écrire facilement, ce qu'ils ont déjà envoyé ??? [9:18]. Il y a eu un foisonnement de technologies diverses : parmi les plus fascinantes, c'est ??? [9:23] évidemment, celle qui nous a tous fait rêver. Mais c'est plutôt à l'horizon 5, 10 ans.

Delphine Sabattier  : Oui, et puis c'est vrai que se posera la question de quel logiciel mérite d'être archivé sur un brin d'ADN. Alors le logiciel prend une place majeure dans notre société numérique. Là, il ne s'agit pas uniquement d'aller créer une archive de logiciels libres : vous travaillez aussi avec des partenaires, des acteurs privés du monde numérique, Roberto Di Cosmo.

Roberto Di Cosmo : Oui, tout à fait. D'abord, il faut bien voir que moi je suis dans ce monde depuis un peu plus d'un quart de siècle, ce qui ne me rajeunit pas, malheureusement. Mais disons qu'aujourd'hui toutes les entreprises, même les plus fermées, les plus propriétaires au monde, ont toutes un usage massif du logiciel libre, parce que c'est juste trop difficile de tout reconstruire tout seul. Donc, on se base sur le travail des autres. C'est là-dedans qu'on a concentré l'essentiel de notre énergie, c'est à dire archiver le plus rapidement possible tous les codes des logiciels qui sont publiquement disponibles, ce qui est un peu plus qu'un logiciel libre. Publiquement disponible, ça peut être un logiciel qui dit : vous pouvez m'utiliser, mais seulement pour un usage de recherche, par exemple.

Donc, on archive également tout ça, mais on veut aller plus loin, parce qu'effectivement on veut récupérer des logiciels historiques qui étaient fermés. Alors là, on travaille avec les réseaux des musées de l'informatique à niveau international, il faut aller convaincre, un par un, les entreprises de céder les droits pour qu'on puisse mettre ??? [10:49]. Et on réfléchit aussi à la possibilité de fournir un service aux entreprises, d'avoir en sorte des tiers de confiance dans lesquels les codes sources propriétaires aujourd'hui, mais qui pourraient être d'un intérêt global dans le futur, puissent être stockés en sécurité. C'est ce qu'on appelle les séquestres [escrow en anglais], une terminologie un peu technique d'aujourd'hui. Ça c'est aussi une piste qu'on suit. Mais pour l'instant on se concentre sur la grande, grande, grande masse de tout ce qui est ouvert parce que ça grandit très vite. On a observé que la taille de notre propre archive double tous les deux ans. C'est assez spectaculaire la quantité de nouveaux codes qui sont produits.

Là, vous voyez à nouveau revenir cette question d'intelligence artificielle. On va vous dire qu'il n'y aura plus besoin de développeurs parce que, voilà, les robots vont tout faire à notre place. Alors moi j'ai un certain âge, comme vous voyez à la couleur de ma barbe : ça serait la cinquième ou sixième itération des buzz words qui vous disent : c'est la fin de la programmation. Il y avait les langages de la cinquième génération, les Prolog, les IDE, les modèles drilling engineer ??? [11:40], tout ça : à chaque fois, on vous dit qu'on a besoin de moins de programmeurs puisque c'est fini, c'est tout automatisé. Et chaque fois, on a plus de développeurs à la fin, parce que ces nouvelles technologies, en réalité, nous permettent d'aller plus vite et de faire plus de choses donc on fait moins des choses bêtes et plus de choses entre guillemets « intelligentes ». C'est comme quand on a pris des calculettes pour aller à l'école : ça ne nous a pas rendu forcément moins intelligent.

Delphine Sabattier  : Roberto, je pense que mes invités vont acquiescer. Vous avez une réaction ? Vous connaissiez déjà ce projet, Software Heritage ?

Guillaume Leboucher : Alors moi j'ai un petit peu travaillé dessus, parce que je travaille aussi un petit peu avec l'INRIA. Donc, l'idée, c'est vraiment de saluer cette initiative qui est extraordinaire. On parle souvent des big tech qui ont des moyens colossaux. Là, il y a beaucoup de moyens universitaires, il y a beaucoup de rassemblement de savoir, à l'extrémité de la planète, et c'est ça qui est formidable. Je vois qu'il y a la loi de Moore sur les cartes mères, là on vient de citer la loi de Moore sur le logiciel qui double tous les deux ans. Donc, c'est fantastique et je crois qu'on ne peut être qu'émerveillés par ce type d'initiative.

Delphine Sabattier  : Une réaction également ?

Alain Goudey : Oui. C'est vrai que c'est un très, très beau projet et on voit bien que l'ensemble des fondamentaux du monde d'aujourd'hui sont présents dans ce projet. Et on l'évoquait : doublement de la donnée ou du nombre de logiciels, enjeux de stockage de ces données, avec des explorations de deux technologies extrêmement intéressantes pour le futur.

Delphine Sabattier  : Alain Goudey, Guillaume Leboucher, vous restez avec moi, on va enchaîner, nous, sur cette question de l'intelligence artificielle : qu'est-ce que ça bouscule dans le domaine de l'éducation ? Roberto Di Cosmo, merci encore beaucoup, à la fois pour votre initiative, mais aussi pour venir nous en parler et nous permettre de suivre ce beau projet Software Heritage[2] dont vous êtes le fondateur et le directeur.