|

De la Wayback Machine à la bibliothèque : les différentes saveurs de l’archive du Web…

1 Laisser un commentaire sur le paragraphe 1 0 “Anyone who has lost track of time when using a computer knows the propensity to dream, the urge to make dreams come true and the tendency to miss lunch.”

2 Laisser un commentaire sur le paragraphe 2 0 Tim Berners-Lee, Interview par Kris Herbst pour Internet World, juin 1994.

3 Laisser un commentaire sur le paragraphe 3 0 Comme le note le fondateur du World Wide Web, Tim Berners-Lee, il est aisé de perdre la notion du temps ou de rater l’heure du déjeuner, absorbé par une tâche informatique ou par la navigation dans la Toile, que ce soit dans le Web vivant ou celui du passé. Mais l’historien qui découvre les archives du Web ne reste pas longtemps sur sa faim… En effet s’ouvre alors à lui un univers singulièrement exotique, dépaysant, qui lui procure l’exaltation – et l’illusion, nous y reviendrons – de pouvoir à son tour naviguer dans le Web à la manière des premiers internautes des années 1990 pour les fonds les plus anciens.

4 Laisser un commentaire sur le paragraphe 4 0 Il est ainsi des moments dans une recherche que l’on n’oublie pas : la découverte des archives du Web en est un. Alors qu’en 2011 nous coordonnons avec Jérôme Bourdon un numéro spécial de la revue Le temps des médias dédié à la thématique « Histoire de l’Internet, Internet dans l’histoire » et alors que je commence un projet consacré à la réception du Web en France dans les années 1990, en vue d’une habilitation à diriger des recherches, rassemblant des matériaux traditionnels pour l’historien de l’innovation, tels des rapports étatiques, d’organisations, des archives de la presse généraliste et spécialisée, des archives audiovisuelles, ou encore une liste d’entretien oraux à réaliser, nous recevons une proposition de l’historien danois Niels Brügger (Université d’Aarhus). Il nous propose d’aborder les enjeux des archives du Web (Brügger, 2012). Je découvre alors la Wayback Machine d’Internet Archive et le projet de la fondation états-unienne, créée en 1996 par Brewster Kahle.

5 Laisser un commentaire sur le paragraphe 5 0 Le premier contact avec la Wayback Machine est déconcertant, puisqu’il faut entrer une URL dans la barre de recherche avant de voir s’ouvrir les archives du site choisi. Sans surprise ni originalité c’est sur l’URL du CNRS, où je travaille alors, que s’arrête mon choix, et avec elle commence une exploration des archives du Web qui se poursuit jusqu’à aujourd’hui.

6 Laisser un commentaire sur le paragraphe 6 0 Revenir sur ce moment permet de mesurer le chemin parcouru par les archives du Web en l’espace de sept ans et les multiples changement en terme de méthodes d’archivage, d’accès, d’outils qu’elles ont connues (voir notamment Merzeau, 2014).

7 Laisser un commentaire sur le paragraphe 7 0 En effet les archives du Web ont différentes saveurs pour l’historien-ne, selon qu’il les consulte via la Wayback Machine en 2011 ou 2018. Au fil des années Internet Archive a introduit des fonctionnalités, permettant par exemple une recherche par mot clé sur les pages d’accueil des sites archivés, ou encore d’obtenir la date d’archivage de chaque élément d’une page (voir le billet d’Internet Archive « Wayback Machine Playback… now with Timestamps! » du 5 octobre 2017).

8 Laisser un commentaire sur le paragraphe 8 3 Mais les saveurs de l’archive du Web ne varient pas seulement en fonction des années et de l’ajout d’ingrédients, mais également en fonction du cadre de consultation des fonds, différent selon que l’on passe par la Wayback Machine ou que l’on se rend à la Bibliothèque nationale de France (BnF) ou à l’Institut national de l’audiovisuel (Ina). Car les archives du Web créent ce semblant de paradoxe d’un retour à la bibliothèque, pour consulter ce patrimoine nativement numérique (Born-Digital Heritage). Disponible en ligne, à domicile ou sur son lieu de travail, dans le cas d’Internet Archive, il n’est accessible que dans les enceintes de la BnF et quelques bibliothèques en régions pour les archives du Web collectées par les deux institutions françaises dans le cadre du dépôt légal français (instauré en 2006 pour Internet, voir notamment l’interview de Clément Oury par Évelyne Cohen et Julie Verlaine en 2013).

9 Laisser un commentaire sur le paragraphe 9 0 C’est un parcours à travers le goût de l’archive du Web, en livraison à domicile ou à la table d’une bibliothèque, que propose cette contribution, qui retrouve aussi la métaphore convoquée dans l’article « L’Ogre et la Toile » (Schafer, Thierry, 2015), par référence à la formule de Marc Bloch: « Le bon historien, lui, ressemble à l’ogre de la légende. Là où il flaire la chair humaine, il sait que là est son gibier » (Apologie pour l’histoire ou Métier d’historien, Armand Colin, Paris, [1949], 1997, p. 4). Mais après six années de consommation régulière et conséquente des archives du Web, c’est à une démarche plus intimiste et réflexive qu’invite ce papier, dans le sillage des ambitions de l’ouvrage.

De la friandise à lA SURABONDANCE

10 Laisser un commentaire sur le paragraphe 10 0 Lorsque l’on découvre les archives du Web, on retrouve aussi un peu des premiers réflexes maladroits qui étaient déjà perceptibles chez les minitélistes faisant leurs premiers pas en ligne: chercher son nom ou celui de son institution, entreprise, etc. Il s’agit aussi de découvrir sans but précis, de déambuler dans l’archive en se laissant guider d’hyperlien en hyperlien. Évidemment des liens sont brisés, des images ont disparu, mais on est plein d’indulgence face à ces archives, qui brusquement prennent le relai des captures d’écran patiemment rassemblées, par exemple au fil des dépouillements de la presse spécialisée (Planète Internet, Internet professionnel…), dépourvues d’interactivité et de profondeur.

11 Laisser un commentaire sur le paragraphe 11 0 Avec les archives du Web si l’illusion n’est pas totale, si l’historien découvre vite des sauts temporels étranges d’une page archivée à l’autre, d’un hyperlien à l’autre, et une profondeur d’archivage inégale, il a toutefois le sentiment de brusquement voir s’ouvrir un Web du passé plus vivant. Dès lors c’est le plaisir qui domine, celui de s’égarer dans la Wayback Machine, celui de chercher, à partir de différents annuaires tels celui de Yahoo! ou encore celui du Nic puis de l’Afnic (Association française pour le nommage Internet en coopération), des sites connus ou moins connus, de découvrir au fil d’une page le fameux « En construction » ou un gif encore plein de vitalité (pour satisfaire à ce plaisir gourmand du gif coloré, Internet Archive a d’ailleurs lancé en 2016 Gifcities). On picore au grand buffet de l’archive du Web, entre sites institutionnelles et pages plus personnelles qui auraient pu entrer dans la sélection dédiée au Web vernaculaire d’Olia Lialina. Et on est pas loin d’éprouver cette nostalgie qu’a analysée Gustavo Gomez-Meijia à propos de Geocities et Myspace ou au moins ce plaisir qu’il relève dans la « rusticophilie des écrans » : « Un charme désuet peut auréoler les écrans folklorisés de Geocities et Myspace dans la mesure où des souvenirs générationnels ressurgissent pour actualiser des perceptions nostalgiques » (in Schafer, V. (dir.), Temps et Temporalités du Web, Nanterre, Presses universitaires de Nanterre, 2018, p. 92)

12 Laisser un commentaire sur le paragraphe 12 3 On s’amuse aussi de la maladresse de certains sites, parfois vitrines de grandes institutions et pourtant bien moins réussis que ceux d’amateurs et qui peuvent donner raison à la formule : « Be small, look big ! ».

13 Laisser un commentaire sur le paragraphe 13 0 Et cette saveur de la découverte, l’attachement à certaines pages, ne passe avec le temps : nous l’avons collectivement retrouvé au sein du projet ANR Web90 en 2016 lors de la réalisation d’un parcours guidé dans les archives du Web des années 1990 à la BnF, lorsqu’il nous a fallu sélectionner une centaine de sites, organisés thématiquement, par exemple autour de : Le Web, modes d’emploi ; Les connecteurs ; État et services publics sur la Toile ; Marchandisation et Net économie ; Les lieux de savoir ; Un terrain de créativité, etc.

14 Laisser un commentaire sur le paragraphe 14 5 Reste que ces archives du Web pour faire corpus doivent être l’objet d’une sélection, appuyée sur une question de recherche mais aussi sur des choix et une démarche construite. Or, en 2011 la difficulté est réelle, alors que la Wayback Machine ne propose, comme nous l’avons souligné, que des recherches par URL, sans aucune visibilité sur la masse d’information conservée, sans inventaire des sites archivés, sans information sur leur nature (problème que souligne également Jane Winters dans « Breaking in to the mainstream: demonstrating the value of internet (and web) histories », Internet Histories, 2017), et que le plein texte n’est pas implémenté dans la plupart des archives.

15 Laisser un commentaire sur le paragraphe 15 0 L’Ina propose déjà du plein text dans ses archives, mais son périmètre d’archivage, dans le cadre du dépôt légal, est limité aux sites audiovisuels. Ceux conservés par la BnF et par Internet Archive ne possèdent pas alors de recherche plein text. Les choses ont bien changé depuis : la BnF a par exemple dans le cadre de projets internes (WebCorpus et Incunables du Web) implémenté la recherche plein text en 2016 dans les archives des années 1990, puis dans celles des attentats de 2015. Elle propose également une liste des adresses URL des collectes ciblées du Web français (Figure 1) ou de nombreuses statistiques et métadonnées sur ces collections d’archives du Web des années 1990 et celles dédiées aux attentats de 2015.

16 Laisser un commentaire sur le paragraphe 16 0

17 Laisser un commentaire sur le paragraphe 17 0 Figure 1 – Tweet du DL Web BnF, 1er janvier 2018.

18 Laisser un commentaire sur le paragraphe 18 0 À un parcours lent, minutieux, appuyé sur le croisement des sources, recherchant les URLs pertinentes dans les guides de l’Internet, dans les rapports, dans les annuaires, dans la presse spécialisée, avec une curation humaine qui n’a rien à envier à celle de Yahoo! par exemple dans les années 1990, succède en quelques années avec le développement d’outils et la mise à disposition de métadonnées par la BnF et l’Ina une possibilité de déguster les archives du Web différemment, et même en quantité massive.

19 Laisser un commentaire sur le paragraphe 19 1 L’Ina par exemple a conservé des attentats 2015 plus de 20 millions de tweets. Outre que le goût de l’archive du Web change forcément avec les archives de Twitter (voir dans ce livre, la contribution de Frédéric Clavert sur le goût de l’API), qui ne reposent pas sur les mêmes recettes que les sites Web des années 1990, il n’est plus question pour le chercheur de picorage. Mais si la masse en elle-même peut vite mener à l’indigestion, c’est aussi évidemment le thème de la recherche, à savoir les attentats de 2015, que nous avons éprouvé en 2016 dans le cadre du projet interdisciplinaire ASAP (Archives Sauvegarde Attentats Paris). Les réactions aux attentats et hommages sur Twitter défilent sur l’écran en quantité massive. S’affichent au fil des tweets des mots et des images que l’on aurait voulu éviter, à l’instar de la salle du Bataclan maculée de sang, des propos pro-Daech ou de ces messages de famille et d’amis à la recherche de proches, dont on connaît la triste issue, et dont les visages surgissent au fil de l’archive. Ces archives qui défilent ad nauseam – et les archivistes reconnaissent comme les chercheurs l’impact qu’elles ont sur eux, au fil des archivages, présentations, affinages de corpus, etc.

Mise en bouche, menu complet ou plat de résistance ?

20 Laisser un commentaire sur le paragraphe 20 0 Outre le malaise et le dégout face à l’afflux et au flux des archives qui guettent le chercheur dans le cas de celles des attentats, se pose aussi la question plus générale de la place de l’archive du Web dans le menu de recherche que concocte l’historien.

21 Laisser un commentaire sur le paragraphe 21 3 L’archive du Web est-elle une mise en bouche, doit-elle arriver après d’autres plats, comme cela nous était imposé dans les archives des années 1990 en 2011, pour identifier via d’autres sources les URLs pertinentes, est-ce un plat parmi d’autre ou peuvent-elles constituer le menu complet de la recherche ? Si à cette dernière proposition la réponse nous semble négative, tant il nous semble difficile d’appuyer notre recherche historique sur une source exclusive, fut-elle pléthorique, et si nous avions pu défendre en 2015 dans « The Historian of the Web : Crawler, Browser or Lurker? » avec Francesca Musiani le recours à une analyse qualitative, les fonds comme les outils ont fait quelque peu bougé nos lignes. Ce qui s’adaptait aux archives des années 1990 et à l’impossibilité en 2015 de rentrer dans les coulisses techniques de l’archivage a évolué grâce à la BnF en 2016, avec la fourniture de données statistiques générales et de nombreuses métadonnées par exemple. Pour autant cela n’a pas, dans ce cas de recherche précis, totalement modifié nos manières d’aborder la question, dans la mesure où même en nous essayant à des cartographies de liens par exemple, nous avons rapidement dû renoncer. En effet l’enjeu des « missing data » est fondamental quand il s’agit de traiter de manière quantitative le web archivé. Certains chercheurs ont ainsi essayé de mesurer la part du Web archivé par rapport au Web vivant (cette part évidemment change dans le temps). Outre la recherche stimulante menée par Huuderman et al. (2015) pour éclairer des méthodologies propres à saisir la représentativité du Web archivé, Hale et al. (2017, p. 60), dans « Live versus archive: Comparing a web archive to a population of web pages », notent: «  […] notre étude montre que les archives du web ne remplacent pas le besoin de collecter des données spécifiques de manière proactive sur des périodes spécifiques pour mener des études longitudinales. Face au degré d’incomplétude des archives du Web on peut même se demander dans quelle mesure elles peuvent être utilisées pour conduire des études longitudinales » (notre traduction). Les archives des années 1990 de la BnF présentent une double limite tout particulière: elles ont été archivées par Internet Archive de 1996 à 2000 de manière très lacunaire et sans que l’on puisse exactement repérer les critères de sélection ayant prévalu aux choix (certains sites nés avant même 1995 ne sont archivés qu’à partir de 2000 comme nous avons pu le repérer) et la BnF au titre de sa mission de dépôt légal à partir de 2006 a récupéré ces archives d’Internet Archive sur une base de trois mois par an. Cette double sélection implique de limiter toute velléité d’obtenir des résultats, si ce n’est exhaustifs, même représentatifs du Web vivant de l’époque. Aussi effectuer une analyse quantitative sur un échantillon lacunaire et opaque peut permettre d’obtenir des visualisions, de faire de l’analyse lexicale, mais les résultats obtenus ne parleront au mieux que du Web archivé, pas de l’ensemble du Web des années 1990 tel qu’il existait.

22 Laisser un commentaire sur le paragraphe 22 0 Inversement, l’archivage de Twitter au moment des attentats offre par son corpus pléthorique et documenté, la possibilité de parler de représentativité de ces archives au regard du flux en ligne. Les nombreuses fonctionnalités proposées par l’Ina offrent la possibilité d’obtenir très facilement des timelines, nuages de mots et graphiques (figure 2).

23 Laisser un commentaire sur le paragraphe 23 0

24 Laisser un commentaire sur le paragraphe 24 0 Figure 2 – Quelques résultats pour une recherche sur #prayforparis à l’Ina (timeline et diagrammes circulaires) © Ina

25 Laisser un commentaire sur le paragraphe 25 1 Il faut alors résister à l’appel du pré-cuisiné, alors que les outils peuvent très rapidement proposer des résultats qui risquent de ne pas avoir été correctement digérés par le chercheur.

26 Laisser un commentaire sur le paragraphe 26 0 Enfin « ingrédient ou menu complet », la question reste également un enjeu majeur. Ayant commencé à travailler en amont de 2011 sur l’histoire du Web sans connaître les archives du Web (bien que ces archives existaient depuis 1996 et étaient en ligne grâce à la Wayback Machine depuis le début des années 2000) demeure cette idée que l’on peut écrire une histoire du Web sans archives du Web, grâce au recours à d’autres archives. La question est alors de savoir de quelle manière le recours à l’archive du Web va changer l’écriture de cette histoire. Sans doute en impliquant par exemple davantage d’attention aux analyses visuelles, à l’architecture des sites, aux contenus, aux codes et langages dans la lignée des Code Studies, à la manière de naviguer de l’internaute de cette décennie, mais peut-être surtout en invitant à un travail plus collectif et interdisciplinaire, se devant d’emprunter aux SIC, ou encore aux humanités numériques, et en contact étroit avec les archivistes.

27 Laisser un commentaire sur le paragraphe 27 0 En effet, à la table de la bibliothèque peuvent ainsi s’inviter plusieurs disciplines, professions et expertises, en des projets interdisciplinaires, qui permettent de passer de la table solitaire du chercheur à une table d’hôtes prête au partage. La question du partage, et notamment celle du partage de corpus, reste aussi un enjeu majeur, qui dépasse les seules archives du Web pour toucher plus généralement au patrimoine nativement numérique (voir Camille Paloque-Berges, 2017 par exemple).

28 Laisser un commentaire sur le paragraphe 28 0 Et c’est dès lors aussi la question de la formation et de la transmission de ces archives du Web et de leurs méthodologies d’analyse qui se pose. Des manières d’inviter plus efficacement les étudiants à la dégustation des archives du Web restent encore à inventer, comme nous avons pu le souligner lors de la conférence DH Lille 2017.

Service à domicile ou table d’hôte : plusieurs recettes

29 Laisser un commentaire sur le paragraphe 29 0 L’archivage du Web est mené dans plusieurs institutions (voir la liste des initiatives d’archivage du Web sur Wikipedia et la liste des membres de l’International Internet Preservation Consortium) selon des méthodes de capture, des interfaces et des présentations différentes. Dès lors c’est aussi la relation du chercheur à ces archives qui va évoluer. Il faut s’adapter par exemple à des changements de terminaux, abandonner le Mac dont on est coutumier pour passer sur un PC dans une petite loge de la BnF, spécialement équipée pour accueillir l’équipe de recherche Web90 et celle d’ASAP en 2016, pour fouiller grâce au plein text ces fonds et les métadonnées.

30 Laisser un commentaire sur le paragraphe 30 0

31 Laisser un commentaire sur le paragraphe 31 0 Figure 3 – Recherche sur jesuischarlie via la plateforme Archives de l’Internet Labs mise en place par la BnF © BnF

32 Laisser un commentaire sur le paragraphe 32 0 Ces changements sont exaltants, par les données et les outils mis à disposition, mais ne sont pas toujours confortables, car ce sont aussi des changements de navigation, de manière de garder trace de son corpus et au-delà d’exploiter les résultats qui varient selon que l’on est avec ses propres outils ou avec ceux proposés par une institution tierce.

33 Laisser un commentaire sur le paragraphe 33 2 À première vue l’usage de la Wayback Machines pourrait sembler plus agréable, permettant notamment d’employer des outils choisis par le chercheur, de travailler où et quand il le souhaite, ou encore de faire des captures d’écran (ce qui ne garantit pas leur droit de diffusion ou de reproduction. Cette fonctionnalité est par ailleurs offerte également pour les archives Web de l’Ina après validation humaine). Mais l’historien-ne n’a pas forcément accès aux coulisses de la fabrique de l’archivage, à une vue d’ensemble, à des statistiques et métadonnées, ce qu’il va par contre trouver dans les institutions chargées du DL Web français. Par ailleurs les résultats différent selon les fonds : après 2006, les archivages effectués dans le cadre du dépôt légal par la BnF et l’Ina sont en effet bien plus fréquents que ceux de la fondation états-unienne pour certains contenus de la Toile française, que ce soit pour les sites audiovisuels pour lesquels l’Ina offre de multiples captures quotidiennes, sans commune mesure avec celles d’Internet Archive, ou pour les archives des sites de presses, constituées pour la presse nationale quotidiennement par la BnF et avec le choix de s’affranchir des robot.txt (ce que ne faisait pas Internet Archive, qui par exemple n’archivait donc pas Le Monde. Toutefois en avril 2017 Internet Archive annonçait sur son blog avoir commencé à s’affranchir des contraintes imposées par les robot.txt sur certains sites. Pour plus d’explications voir le billet de Mark Graham).

34 Laisser un commentaire sur le paragraphe 34 1 D’abord plongé dans les archives du Web en ligne, via son navigateur et son ordinateur, voici le chercheur qui revient à la table de la BnF, en un mouvement qui peut sembler paradoxal à l’heure où la numérisation peut sembler éloigner les chercheurs de la fréquentation des archives et bibliothèques, ou les voir y demeurer moins longtemps, occupés à photographier ou scanner plutôt qu’à traiter ces archives méticuleusement sur place. Une différence toutefois avec nos expériences antérieures est palpable: il s’y attablera parfois collectivement et avec ses conservateurs. En effet désireux de saisir les besoins de chercheurs, pour adapter leurs collectes et outils, les archivistes travaillent en interaction étroite depuis quelques années avec les chercheurs et ce depuis par exemple les Ateliers du DL Web lancés par Claude Mussou et Louise Merzeau. Le monde des bibliothèques et de l’archvage (archivistes mais aussi ingénieurs) a développé des projets communs avec des équipes de recherche, que l’on pense par exemple à ceux menés par la BnF avec Valérie Beaudouin autour des commémorations de la Grande Guerre ou dans le cadre du projet ASAP précédemment mentionné ceux que nous avons menés avec la BnF et l’Ina. C’est un moyen aussi pour ceux qui oeuvrent à l’archivage du Web de saisir des attentes et de pouvoir adapter certains outils, comme le relève Zeynep Pehlivan (Ina):

35 Laisser un commentaire sur le paragraphe 35 2 « Nos premiers développements d’outils se sont fondés d’abord sur une analyse des publications scientifiques et des méthodes convoquées dans ces travaux. Nous avons  vu que la timeline par exemple était très utilisée, les agrégations et statistiques de base également. On voulait aussi permettre de filtrer le corpus, de créer des sous-corpus. Sur la version 1 de nos outils nous avons d’abord œuvré en cherchant à nous mettre à la place des chercheurs. Dans le premier lab on a eu un retour, des interactions, des demandes des chercheurs, par exemple celle de voir les emojis et leurs mentions, afin de pouvoir mener des analyses de sentiments, nous ne l’avions pas prévu. De même pour les nuages de mots. On a donc ajouté des fonctionnalités » (Témoignage de Zeynep Pehlivan, Ina, 2017).

Conclusion

36 Laisser un commentaire sur le paragraphe 36 0 Dans le cadre de ce projet évoqué par Zeynep Pehlivan, celui autour de l’archivage de Twitter liés aux attentats qui frappent la France depuis 2015, le sujet abordé est très contemporain, ce qui renvoie à la question de savoir si l’archive du Web doit se consommer fraîche ou au contraire se bonifie en vieillissant ? Le chercheur qui mène une étude diachronique d’un site va devoir affronter des archives de qualité très différentes, du « gruyère » des années 1990 à celles plus complètes et roboratives de la période récente, dont les images, mais aussi le son, les vidéos, etc. sont mieux conservées au fil des années.

37 Laisser un commentaire sur le paragraphe 37 3 Une autre problématique est associée à cette question : plus l’écart va se creuser entre la collecte des archives du Web et leur exploitation, plus il y a de chance que le chercheur ne soit pas forcément au fait de tout le contexte matériel mais aussi systémique du Web vivant de l’époque qu’il étudie. C’est donc aussi un Web en contexte qu’il lui faudra pouvoir restituer, attentif aux pratiques, équipements, usages, lieux de connexion, etc.

38 Laisser un commentaire sur le paragraphe 38 2 Demeure enfin, alors que l’évolution de l’archivage du Web, mais aussi de sa place dans l’offre de formation des historiens est loin d’être stabilisée, la question des risques d’entorses au régime non pas seulement de vérité (cf Paul Ricoeur, Histoire et vérité, Paris, Points, Essais, 2001), mais aussi éthique que l’historien doit affronter. Autant d’enjeux qui promettent encore quelques défis et invitent à une cuisine du monde inventive et collaborative.

Source :https://gout-numerique.net/table-of-contents/archives-nees-numeriques/de-la-wayback-machine-a-la-bibliotheque-les-differentes-saveurs-de-larchive-du-web