Différences entre les versions de « Archiver le web : une entreprise folle et merveilleuse - Valérie Schafer »

De April MediaWiki
Aller à la navigationAller à la recherche
Ligne 29 : Ligne 29 :
  
 
==Transcription==
 
==Transcription==
 +
 +
<b>Xavier de La Porte : </b>Le point de départ c’est une photo, une des premières photos de l’histoire. Elle a été prise au printemps 1838 par Louis Daguerre. Daguerre a posé son appareil à la fenêtre de son atelier et il a photographié le boulevard du Temple, à Paris. Ce qui est étonnant c’est que, sur la photo, le boulevard est vide alors qu’on sait quelle a été prise le matin à un moment de la journée où, normalement, il grouille de monde. Là on n’y voit personne. Enfin, ce n’est pas tout à fait vrai, parce que, quand on regarde bien, on y voit une silhouette, celle d’un homme ; sa position indique qu’il devait être en train de se faire cirer les chaussures ou quelque chose comme ça. Si cet homme est à peu près le seul être humain ou animal qui apparaît sur cette photo, c’est que le temps d’impression nécessaire à l’époque pour que la lumière marque la plaque de cuivre était trop long pour saisir ce qui était en mouvement, seul s’imprimait ce qui était immobile, c’est-à-dire les bâtiments, les arbres, les réverbères, les bancs. Donc, sur la photo, le boulevard du Temple qui, ce matin de 1838 devait fourmiller de passants, de fiacres et de charrettes, ce boulevard, sur la photo, est presque vide.<br/>
 +
Je n’avais jamais entendu parler de cette photo avant qu’un monsieur ne l’évoque. C’était à une réunion où discutaient des gens dont le métier est d’archiver le Web. Des gens dont le métier est donc de recueillir et de conserver pour l’avenir cette matière mouvante et insaisissable qu’est le Web. À un moment de la réunion, ce monsieur a dit : « Nous, les archivistes du Web, on est comme Daguerre en 1838, on essaie de capter un réel qui va trop vite pour nos outils, mais on le fait quand même. » Donc, depuis ce jour, je me suis dit qu’il faudrait s’intéresser à cette activité très belle qui consiste à vouloir fixer ce qui bouge tout le temps, à capter ce qui se dérobe et conserver ce truc hyper-fuyant qu’est le Web.
 +
 +
Valérie Schafer est historienne des technologies, elle est chargée de recherche au CNRS et elle a écrit sur le Minitel, sur Arpanet qui est unancêtre américain de l’Internet, sur le début du Web français aussi. Elle raconte souvent qu’elle n’a découvert les archives du Web qu’à la fin des années 2000. Un jour, un historien danois lui parle d’un truc qui s’appelle Internet Archive, créé en 1996 par un Américain du nom de Brewster Kahle, dans l’idée d’archiver. Quand Valérie Schafer découvre Internet Archive, ça fait déjà quelques années que Brewster Kahle a mis à disposition des internautes un programme qui s’appelle <em>The Wayback Machine</em> qui sert à parcourir ces archives déjà énormes.
 +
 +
<b>Voix off : </b>C’est ça qui permet de voyager à travers le temps.
 +
 +
<b>Valérie Schafer : </b>J’ai dit quand même, il faut que je comprenne, il faut que j’aille voir, c’est assez logique, donc je vais sur la <em>Wayback Machine</em> et là il y a une sorte de coup de foudre avec ces archives du Web, du coup je ne les ai pas lâchées depuis, ça fait une petite décennie. Je commence tout bêtement en arrivant sur la <em>Wayback Machine</em> par taper, je ne sais plus, le nom d’une institution, je crois qu’à l’époque c’était déjà le CNRS.
 +
 +
<b>Xavier de La Porte : </b>Sexy.
 +
 +
<b>Valérie Schafer : </b>Oui, mais à l’époque il n’y avait pas de mots-clefs, dans la <em>Wayback Machine</em> il fallait taper une URL qu’on connaissait, donc réflexe très professionnel, et là je suis épatée parce que je m’attendais à quelque chose d’assez statique et, en fait, ce sont des archives interactives dans lesquelles on peut passer de lien en lien, passer à travers les époques. Il y a là quelque chose à la fois d’archivé mais qui paraît à la fois totalement immersif et vivant. Il y a cette espèce d’émerveillement, vraiment au départ, sur cette entreprise aussi titanesque ; intellectuellement aussi je trouve ça assez fascinant.
 +
 +
<b>Xavier de La Porte : </b>C’est sûr qu’intellectuellement Internet Archive c’est fascinant. Déjà, il faut être assez visionnaire pour sentir, en 1996, que le Web qui a six ans à peine va devenir aussi important pour l’humanité et qu’il faut donc l’archiver. Il faut être visionnaire, OK, mais aussi techniquement balaise parce que si le Web de 1996 était peut-être moins complexe qu’aujourd’hui, il était déjà divers, il était déjà mouvant et puis les machines de l’époque, qui allaient faire le travail d’archive, étaient beaucoup moins performantes. Bref, ça mérite que Valérie Schafer explique un peu ce qu’est Internet Archive.
 +
 +
<b>Valérie Schafer : </b>C’est un rêve et une entreprise qui est lancée par Brewster Kahle qui a déjà, à l’époque, travaillé dans le numérique, notamment sur tout ce qui est référencement avec une entreprise qui s’appelle Alexa, qui fouille déjà le Web et qui, sensible à l’idée de ce qu’on appelle parfois le <em>digital dark age</em> ou ce risque de disparition de tout ce qui passe sur la toile, sensible aussi à tout un héritage dans l’histoire à la fois des bibliothèques mais à la fois aussi du numérique, de préservation des documents – on peut remonter très loin, on peut remonter à des pères de la documentation moderne, à Paul Otlet et à d’autres – se dit je vais archiver le Web et, si possible, je vais l’archiver exhaustivement. Aujourd’hui on a 400 milliards de pages archivées mais ce n’est pas exhaustif.
 +
 +
<b>Xavier de La Porte : </b>400 milliards ! Et ce n’est pas exhaustif.
 +
 +
<b>Valérie Schafer : </b>Oui. Et ce n’est pas exhaustif !
 +
 +
<b>Xavier de La Porte : </b>400 milliards de pages archivées. C’est dingue ! J’ai cherché une comparaison. La plus grande bibliothèque au monde c’est, je crois, la bibliothèque du Congrès à Washington aux États-Unis, elle compte plus de 38 millions de livres. Si on considère arbitrairement que chaque volume fait 500 pages, ça veut dire que la bibliothèque du Congrès contient 15 milliards de pages papier. Bon ! C’est déjà énorme. Mais par rapport aux 400 milliards de pages web que contient Internet Archive alors là, ce n’est vraiment pas grand-chose.<br/>
 +
Valérie Schafer a dit que ce rêve d’archivage exhaustif est lié à l’histoire des bibliothèques et elle a cité un nom, Paul Otlet. Il faut dire quelques mots de Paul Otlet parce que c’est vraiment un personnage fascinant.<br/>
 +
Paul Otlet est un bibliographe belge, donc un spécialiste du livre, né en 1868 et mort en 1944. Il est bibliographe mais aussi parce qu’il est avocat, socialiste, pacifiste et utopiste, Paul Otlet a une idée assez vaste de ce à quoi servent les bibliothèques. Pour lui, elles servent à faire accéder le plus grand nombre et le plus facilement possible aux savoirs que contiennent les livres. Donc Paul Otlet a passé sa vie à inventer des dispositifs pour réaliser cette utopie : recenser et classer tous les savoirs du monde dans l’idée qu’ils sont garants de la paix entre les hommes. Par exemple, en 1895, il crée le Répertoire Bibliographique Universel, une sorte de catalogue de tous les livres publiés sur tous les sujets. Dix ans plus tard, donc en 1905, il crée la classification décimale universelle, assez connue sous l’acronyme CDU, c’est-à-dire le système de classement des livres dans les bibliothèques, celui qui est toujours en vigueur aujourd’hui dans la plupart des bibliothèques du monde. Il imagine aussi une encyclopédie qui contiendrait des fiches de synthèse sur tous les savoirs du monde, donc une sorte de Wikipédia avant la lettre.<br/>
 +
Là où Otlet est véritablement un visionnaire c’est qu’il prévoit que, bientôt, l’écrit ne sera plus le seul support du savoir. Donc, dès 1910, il s’intéresse par exemple au microfilm. Ce qui est encore plus dingue c’est qu’en 1934 Otlet écrit un livre duquel on lit le texte suivant, je cite : « Ici, la table de travail n’est chargée d’aucun livre. À leur place se dresse un écran et, à portée, un téléphone. De là, on fait apparaître sur l’écran la page à lire pour connaître la question posée par téléphone, avec ou sans chiffre. Un écran qui serait double, quadruple ou décuple s’il s’agissait de multiplier les textes et les documents à confronter simultanément. Il y aurait un haut-parleur si la vue devait être aidée par une audition. Utopie aujourd’hui parce qu’elle n’existe encore nulle part, mai elle pourrait bien devenir la réalité de demain pourvu que se perfectionnent encore nos méthodes et nos instrumentations ». Voilà ! Il écrit ça en 1934. Évidemment, ça fait penser à Internet. C’est pour ce texte, entre autres, qu’on considère que Paul Otlet a imaginé Internet plusieurs décennies avant qu’il n’existe, à une époque où même les ordinateurs n’existaient pas, ce qui est quand même assez fort.<br/>
 +
Donc ce n’est quand même pas un hasard si c’est un homme des bibliothèques qui a ce rêve, parce qu’au départ, dans les deux cas, c’est une histoire de documents. Donc quand Brewster Kahle crée Internet Archive en 1996, il crée une nouvelle archive en récoltant de nouveaux supports mais, en même temps il s’inscrit dans une histoire qui est une histoire qui est déjà très longue. D’ailleurs ce n’est pas pour qu’une réplique d’Internet Archive, donc un site miroir est, je crois, stockée dans la bibliothèque d’Alexandrie en Égypte. Bref ! En écoutant Valérie Schafer je me dis que c’est drôle comme les rêves se prolongent à travers le temps. D’ailleurs le programme qui sert à chercher dans Internet Archive, Brewster Kahle l’appelle <em>Wayback Machine</em>, la machine à remonter le temps. Et là encore c’est une vieille référence. Mais est-ce que machine, cette <em>Wayback Machine</em> machine, elle ressemble vraiment à une machine à remonter le temps ?
 +
 +
<b>Voix off : </b>Attention !
 +
 +
<b>Valérie Schafer : </b>Sur le bandeau de la <em>Wayback Machine</em> longtemps c’était <em>browse history</em>, donc on pouvait vraiment parcourir l’histoire, c’était cette idée qu’on allait remonter dans le temps. On peut retrouver des tas de choses, on peut retrouver des sites depuis 96, effectivement, on peut retrouver des évènements qui ont été marquants à travers cette toile archivée. Après, l’expérience même de l’utilisateur de la fin des années 90, par exemple, avec nos terminaux ultramodernes, nos débits rapides, avec les bandeaux temporels et tout ce qui est métadonnées rajoutées, on n’a pas une expérience totalement similaire par Internet Archive, mais il y a quand même une émotion.
 +
 +
<b>Xavier de La Porte : </b>Alors ça c’est pour Internet Archive, mais les archives du Web ce n’est pas simplement Internet Archive qui archive le Web mondial, certes, mais qui est un organisme américain. En France, par exemple, il y a un archivage institutionnel, national du Web, un dépôt légal du Web comme il y en a pour les livres. Une partie du Web français est archivé par la BNF, la Bibliothèque nationale de France, et une autre, celle qui concerne les médias, est archivée par l’INA, l’Institut national de l’audiovisuel.<br/>
 +
Je demande à Valérie Schafer dans quelles circonstances le dépôt légal du Web a été créé parce que ça ne va pas de soi de mettre en place une telle politique de conservation.
 +
 +
==10’ 34==
 +
 +
<b>Valérie Schafer : </b>Le dépôt légal à l’INA

Version du 25 mai 2020 à 09:14


Titre : Archiver le Web : une entreprise folle et merveilleuse

Intervenant·e·s : Valérie Schafer - Xavier de La Porte

Lieu : Émission Le code a changé, France Inter

Date : mai 2020

Durée : 45 min 38

Écouter le podcast

Présentation de l'émission

Licence de la transcription : Verbatim

Illustration :

NB : transcription réalisée par nos soins, fidèle aux propos des intervenant·e·s mais rendant le discours fluide.
Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas nécessairement celles de l'April, qui ne sera en aucun cas tenue responsable de leurs propos.

Transcrit : MO

Description

Depuis 1996, des gens archivent le Web. Pourquoi ? Dans quels buts ? Comment saisir une matière aussi mouvante ?

Transcription

Xavier de La Porte : Le point de départ c’est une photo, une des premières photos de l’histoire. Elle a été prise au printemps 1838 par Louis Daguerre. Daguerre a posé son appareil à la fenêtre de son atelier et il a photographié le boulevard du Temple, à Paris. Ce qui est étonnant c’est que, sur la photo, le boulevard est vide alors qu’on sait quelle a été prise le matin à un moment de la journée où, normalement, il grouille de monde. Là on n’y voit personne. Enfin, ce n’est pas tout à fait vrai, parce que, quand on regarde bien, on y voit une silhouette, celle d’un homme ; sa position indique qu’il devait être en train de se faire cirer les chaussures ou quelque chose comme ça. Si cet homme est à peu près le seul être humain ou animal qui apparaît sur cette photo, c’est que le temps d’impression nécessaire à l’époque pour que la lumière marque la plaque de cuivre était trop long pour saisir ce qui était en mouvement, seul s’imprimait ce qui était immobile, c’est-à-dire les bâtiments, les arbres, les réverbères, les bancs. Donc, sur la photo, le boulevard du Temple qui, ce matin de 1838 devait fourmiller de passants, de fiacres et de charrettes, ce boulevard, sur la photo, est presque vide.
Je n’avais jamais entendu parler de cette photo avant qu’un monsieur ne l’évoque. C’était à une réunion où discutaient des gens dont le métier est d’archiver le Web. Des gens dont le métier est donc de recueillir et de conserver pour l’avenir cette matière mouvante et insaisissable qu’est le Web. À un moment de la réunion, ce monsieur a dit : « Nous, les archivistes du Web, on est comme Daguerre en 1838, on essaie de capter un réel qui va trop vite pour nos outils, mais on le fait quand même. » Donc, depuis ce jour, je me suis dit qu’il faudrait s’intéresser à cette activité très belle qui consiste à vouloir fixer ce qui bouge tout le temps, à capter ce qui se dérobe et conserver ce truc hyper-fuyant qu’est le Web.

Valérie Schafer est historienne des technologies, elle est chargée de recherche au CNRS et elle a écrit sur le Minitel, sur Arpanet qui est unancêtre américain de l’Internet, sur le début du Web français aussi. Elle raconte souvent qu’elle n’a découvert les archives du Web qu’à la fin des années 2000. Un jour, un historien danois lui parle d’un truc qui s’appelle Internet Archive, créé en 1996 par un Américain du nom de Brewster Kahle, dans l’idée d’archiver. Quand Valérie Schafer découvre Internet Archive, ça fait déjà quelques années que Brewster Kahle a mis à disposition des internautes un programme qui s’appelle The Wayback Machine qui sert à parcourir ces archives déjà énormes.

Voix off : C’est ça qui permet de voyager à travers le temps.

Valérie Schafer : J’ai dit quand même, il faut que je comprenne, il faut que j’aille voir, c’est assez logique, donc je vais sur la Wayback Machine et là il y a une sorte de coup de foudre avec ces archives du Web, du coup je ne les ai pas lâchées depuis, ça fait une petite décennie. Je commence tout bêtement en arrivant sur la Wayback Machine par taper, je ne sais plus, le nom d’une institution, je crois qu’à l’époque c’était déjà le CNRS.

Xavier de La Porte : Sexy.

Valérie Schafer : Oui, mais à l’époque il n’y avait pas de mots-clefs, dans la Wayback Machine il fallait taper une URL qu’on connaissait, donc réflexe très professionnel, et là je suis épatée parce que je m’attendais à quelque chose d’assez statique et, en fait, ce sont des archives interactives dans lesquelles on peut passer de lien en lien, passer à travers les époques. Il y a là quelque chose à la fois d’archivé mais qui paraît à la fois totalement immersif et vivant. Il y a cette espèce d’émerveillement, vraiment au départ, sur cette entreprise aussi titanesque ; intellectuellement aussi je trouve ça assez fascinant.

Xavier de La Porte : C’est sûr qu’intellectuellement Internet Archive c’est fascinant. Déjà, il faut être assez visionnaire pour sentir, en 1996, que le Web qui a six ans à peine va devenir aussi important pour l’humanité et qu’il faut donc l’archiver. Il faut être visionnaire, OK, mais aussi techniquement balaise parce que si le Web de 1996 était peut-être moins complexe qu’aujourd’hui, il était déjà divers, il était déjà mouvant et puis les machines de l’époque, qui allaient faire le travail d’archive, étaient beaucoup moins performantes. Bref, ça mérite que Valérie Schafer explique un peu ce qu’est Internet Archive.

Valérie Schafer : C’est un rêve et une entreprise qui est lancée par Brewster Kahle qui a déjà, à l’époque, travaillé dans le numérique, notamment sur tout ce qui est référencement avec une entreprise qui s’appelle Alexa, qui fouille déjà le Web et qui, sensible à l’idée de ce qu’on appelle parfois le digital dark age ou ce risque de disparition de tout ce qui passe sur la toile, sensible aussi à tout un héritage dans l’histoire à la fois des bibliothèques mais à la fois aussi du numérique, de préservation des documents – on peut remonter très loin, on peut remonter à des pères de la documentation moderne, à Paul Otlet et à d’autres – se dit je vais archiver le Web et, si possible, je vais l’archiver exhaustivement. Aujourd’hui on a 400 milliards de pages archivées mais ce n’est pas exhaustif.

Xavier de La Porte : 400 milliards ! Et ce n’est pas exhaustif.

Valérie Schafer : Oui. Et ce n’est pas exhaustif !

Xavier de La Porte : 400 milliards de pages archivées. C’est dingue ! J’ai cherché une comparaison. La plus grande bibliothèque au monde c’est, je crois, la bibliothèque du Congrès à Washington aux États-Unis, elle compte plus de 38 millions de livres. Si on considère arbitrairement que chaque volume fait 500 pages, ça veut dire que la bibliothèque du Congrès contient 15 milliards de pages papier. Bon ! C’est déjà énorme. Mais par rapport aux 400 milliards de pages web que contient Internet Archive alors là, ce n’est vraiment pas grand-chose.
Valérie Schafer a dit que ce rêve d’archivage exhaustif est lié à l’histoire des bibliothèques et elle a cité un nom, Paul Otlet. Il faut dire quelques mots de Paul Otlet parce que c’est vraiment un personnage fascinant.
Paul Otlet est un bibliographe belge, donc un spécialiste du livre, né en 1868 et mort en 1944. Il est bibliographe mais aussi parce qu’il est avocat, socialiste, pacifiste et utopiste, Paul Otlet a une idée assez vaste de ce à quoi servent les bibliothèques. Pour lui, elles servent à faire accéder le plus grand nombre et le plus facilement possible aux savoirs que contiennent les livres. Donc Paul Otlet a passé sa vie à inventer des dispositifs pour réaliser cette utopie : recenser et classer tous les savoirs du monde dans l’idée qu’ils sont garants de la paix entre les hommes. Par exemple, en 1895, il crée le Répertoire Bibliographique Universel, une sorte de catalogue de tous les livres publiés sur tous les sujets. Dix ans plus tard, donc en 1905, il crée la classification décimale universelle, assez connue sous l’acronyme CDU, c’est-à-dire le système de classement des livres dans les bibliothèques, celui qui est toujours en vigueur aujourd’hui dans la plupart des bibliothèques du monde. Il imagine aussi une encyclopédie qui contiendrait des fiches de synthèse sur tous les savoirs du monde, donc une sorte de Wikipédia avant la lettre.
Là où Otlet est véritablement un visionnaire c’est qu’il prévoit que, bientôt, l’écrit ne sera plus le seul support du savoir. Donc, dès 1910, il s’intéresse par exemple au microfilm. Ce qui est encore plus dingue c’est qu’en 1934 Otlet écrit un livre duquel on lit le texte suivant, je cite : « Ici, la table de travail n’est chargée d’aucun livre. À leur place se dresse un écran et, à portée, un téléphone. De là, on fait apparaître sur l’écran la page à lire pour connaître la question posée par téléphone, avec ou sans chiffre. Un écran qui serait double, quadruple ou décuple s’il s’agissait de multiplier les textes et les documents à confronter simultanément. Il y aurait un haut-parleur si la vue devait être aidée par une audition. Utopie aujourd’hui parce qu’elle n’existe encore nulle part, mai elle pourrait bien devenir la réalité de demain pourvu que se perfectionnent encore nos méthodes et nos instrumentations ». Voilà ! Il écrit ça en 1934. Évidemment, ça fait penser à Internet. C’est pour ce texte, entre autres, qu’on considère que Paul Otlet a imaginé Internet plusieurs décennies avant qu’il n’existe, à une époque où même les ordinateurs n’existaient pas, ce qui est quand même assez fort.
Donc ce n’est quand même pas un hasard si c’est un homme des bibliothèques qui a ce rêve, parce qu’au départ, dans les deux cas, c’est une histoire de documents. Donc quand Brewster Kahle crée Internet Archive en 1996, il crée une nouvelle archive en récoltant de nouveaux supports mais, en même temps il s’inscrit dans une histoire qui est une histoire qui est déjà très longue. D’ailleurs ce n’est pas pour qu’une réplique d’Internet Archive, donc un site miroir est, je crois, stockée dans la bibliothèque d’Alexandrie en Égypte. Bref ! En écoutant Valérie Schafer je me dis que c’est drôle comme les rêves se prolongent à travers le temps. D’ailleurs le programme qui sert à chercher dans Internet Archive, Brewster Kahle l’appelle Wayback Machine, la machine à remonter le temps. Et là encore c’est une vieille référence. Mais est-ce que machine, cette Wayback Machine machine, elle ressemble vraiment à une machine à remonter le temps ?

Voix off : Attention !

Valérie Schafer : Sur le bandeau de la Wayback Machine longtemps c’était browse history, donc on pouvait vraiment parcourir l’histoire, c’était cette idée qu’on allait remonter dans le temps. On peut retrouver des tas de choses, on peut retrouver des sites depuis 96, effectivement, on peut retrouver des évènements qui ont été marquants à travers cette toile archivée. Après, l’expérience même de l’utilisateur de la fin des années 90, par exemple, avec nos terminaux ultramodernes, nos débits rapides, avec les bandeaux temporels et tout ce qui est métadonnées rajoutées, on n’a pas une expérience totalement similaire par Internet Archive, mais il y a quand même une émotion.

Xavier de La Porte : Alors ça c’est pour Internet Archive, mais les archives du Web ce n’est pas simplement Internet Archive qui archive le Web mondial, certes, mais qui est un organisme américain. En France, par exemple, il y a un archivage institutionnel, national du Web, un dépôt légal du Web comme il y en a pour les livres. Une partie du Web français est archivé par la BNF, la Bibliothèque nationale de France, et une autre, celle qui concerne les médias, est archivée par l’INA, l’Institut national de l’audiovisuel.
Je demande à Valérie Schafer dans quelles circonstances le dépôt légal du Web a été créé parce que ça ne va pas de soi de mettre en place une telle politique de conservation.

10’ 34

Valérie Schafer : Le dépôt légal à l’INA