|

L’archive interfacée

1 Laisser un commentaire sur le paragraphe 1 0 Comme tous les chapitres du Goût de l’archive à l’ère numérique, ce texte est une première ébauche, que nous vous invitons à commenter, paragraphe par paragraphe. La condition est d’avoir un compte sur la plateforme. Vous pouvez le demander en envoyant un mail à gout.numerique@uni.lu. Plus d’informations sur le projet sur la page à propos du projet.

2 Laisser un commentaire sur le paragraphe 2 0 Nous allumons nos ordinateurs tous les jours, si toutefois nous les avons éteints la veille. Nous lançons alors des logiciels – dans la plupart des cas un navigateur et un traitement de texte, mais également toute sorte de logiciels permettant de gérer, de collecter, dans un sens large, des sources primaires ou secondaires, nées numériques ou numérisées, que nous transformons parfois en données, puis de les traiter ou de les analyser. Ces logiciels sont très divers: gestionnaires de références bibliographiques, gestionnaires de photographies, tableurs, bases de données, etc. Ces logiciels sont conditionnés par le matériel que nous utilisons – appareils photos numériques, tablettes, téléphones portables et ordinateurs, bien entendu. Ces appareils et les logiciels qu’ils embarquent nous suivent là où nous trouvons nos sources primaires et secondaires.

3 Laisser un commentaire sur le paragraphe 3 0 D’une certaine manière, ils font plus que nous suivre. Ils forment une interface entre nous, historiens et historiennes, et nos sources. Cette interface — et je vais me pencher sur la partie logicielle de cette interface et non matérielle — est une couche entre nous et nos archives où s’opèrent des choix, qui ne sont pas toujours les nôtres, qui ne sont pas toujours explicités, et qui conditionnent, au moins en partie, notre manière d’interpréter les archives. Et, au fur et à mesure que notre monde de données se développe, cette couche s’épaissit, nous éloignant de nos sources, que nous en pratiquions une lecture proche augmentée par la lecture machinique ou une lecture distante, ou une combinaison de ces lectures.

4 Laisser un commentaire sur le paragraphe 4 0 Nous ne consultons pas d’archives, quelles qu’elles soient sans qu’il y ait un moment ou un autre une médiation instaurée par les archivistes, par exemple, qui ont mis au point un certain nombre de règles (le respect des fonds pour l’archivistique continentale européenne est un exemple), des outils de recherche pour trouver les archives et impliquant une indexation, une salle de lecture – lieu physique de consultation des archives, des règles de commande des boîtes d’archives qui conditionnent notre rythme de travail dans la salle de lecture et l’archiviste elle-même, lorsqu’un échange s’instaure entre lui et l’historienne par exemple. Ces différentes médiations ont toutes une influence sur la manière dont nous «faisons» de l’histoire. C’est finalement aussi l’un des sujets du Goût de l’archive d’Arlette Farge [1]Farge Arlette, Le goût de l’archive, Paris, Seuil, 1997(1989)..

5 Laisser un commentaire sur le paragraphe 5 0 À titre d’exemple, je peux prendre mon expérience des archives de la Société des Nations, à l’Office des Nations Unies de Genève, pendant ma thèse. Ces archives n’étaient pas les plus fondamentales pour mes recherches, mais pour les avoir déjà consultées pour mon DEA[2]Diplôme d’études approfondies, équivalent de la seconde année d’un master orienté recherche., je savais qu’elles pouvaient receler de grandes surprises et qu’elles étaient extrêmement riches. Parmi les fonds consultés, j’ai pu avoir accès à celui de Sean Lester: irlandais, ce haut fonctionnaire international a été le représentant – méprisé sur place – de la SdN à Danzig, notamment dans les années 1930. Ses rapports sur Danzig et, pour ce qui m’intéressait, sur la dévaluation du Gulden (florin) de la ville en 1935 sous la houlette de Schacht, étaient tout simplement fascinants, un exemple presque paradigmatique de la prise de décision sous le IIIe Reich, une illustration, aussi, de la marge de manœuvre assez faible dans ce cas-là d’un ministre conservateur au sein du régime nazi[3]En fonction des périodes et des sujets, Schacht et les autres ministres conservateurs ont pu avoir des marges de manœuvres tout-à-fait importantes., d’une Reichsbank prise dans ses contradictions. Ces éléments ne figureraient pas dans ma thèse sans l’intervention d’une archiviste de la SdN: le fond Sean Lester venait d’être emmagasiné et n’était pas encore dans les index fournis en salle de lecture.

6 Laisser un commentaire sur le paragraphe 6 0 Un second exemple de médiation est celui, justement, des index. À la fin de la Seconde Guerre mondiale, avec la partition de l’Allemagne en zones occupées puis la création des deux États allemands, RFA et RDA, en 1949, les archives sont elles aussi divisées en deux. À l’Ouest, on envoie les archives à Coblence. À l’Est, elles sont envoyées à Potsdam. Un certain nombre de fonds ont pu aller ailleurs qu’en Allemagne, notamment en URSS[4]C’est avec l’ouverture des archives soviétiques / russes, par exemple, que l’on a pu avoir accès à l’intégralité du journal de Goebbels, source très intéressante bien … Continue reading. En 1990, avec la réunification des deux États, commence une opération de restructuration des archives. Pendant ma thèse (1999-2006), l’essentiel de mes archives étaient déjà aux archives fédérales à Berlin. Dans les livres d’index, restait la trace de cette histoire des archives allemandes post-1945. Ainsi, le fonds de la Reichsbank (R2501) a-t-il été conservé à Potsdam. Et sous la RDA, en tout cas pour les fonds que j’ai consultés, il n’y avait ni index des personnes, ni index thématique. Le seul index existant était une liste des titres des boîtes disponibles avec quelques grands regroupements, notamment par président de la Reichsbank (ce qui m’a facilité grandement la tâche) et par service. Mais le cas des archives de la chancellerie du Reich était un peu différent. Conservées à l’ouest, microfilmées, elles ont fait l’objet après la Seconde Guerre mondiale d’une indexation par personnes et par thèmes, en plus de la liste, comme pour les autres fonds, des titres de boîtes.

7 Laisser un commentaire sur le paragraphe 7 0 Le résultat de ces deux devenirs différents de ces deux fonds est une influence profonde sur le travail de l’historien.ne. Ainsi, en dehors du fonds « Schacht » à proprement parler (Teilnachlass Schacht – « Teil » car quelques éléments étaient à Moscou) et des archives rangées spécifiquement dans la section des deux présidences de Schacht, il était quasiment impossible de savoir précisément les boîtes qu’il serait intéressant de commander. J’ai alors fait du carottage et suis tombé parfois, sur des boîtes surprenantes – une boîte contenant des études sur la Palestine par exemple, sans pouvoir trouver d’explication à sa présence dans les archives de la Reichsbank -, parfois incroyablement intéressante pour ma thèse – les archives de certaines des conférences dites « des transferts » entre la Reichsbank et ses créanciers privés de l’Allemagne de 1933 à 1934 qui ont montré comment la Reichsbank a réussi à diviser ces créanciers pour diminuer les paiements en devises de l’Allemagne — et donc utiliser le surplus de devises allemandes pour l’achat de matières premières utiles au réarmement.

8 Laisser un commentaire sur le paragraphe 8 0 Du côté des archives de la chancellerie du Reich, les outils à disposition des chercheurs étaient beaucoup plus développés, probablement par ce qu’au moins des copies étaient disponibles à l’Ouest. Le travail archivistique a été bien plus profond. Ainsi, pour explorer les archives mentionnant Schacht, suffisait-il de jeter un coup d’œil à l’index des noms de personne. L’effet est paradoxal: on trouve des archives qui auraient été difficiles à trouver par ailleurs, mais l’on risque de ne pas faire de carottage (parce que le temps du chercheur est précieux) et donc de ne faire aucune découverte «par hasard»: des modes de sérendipité bien différents. Pourtant, ces découvertes «par hasard» peuvent être importante: compléter une recherche ou donner, parfois, des idées pour la recherche suivante [5]Ce qu’évoquaient, d’ailleurs, Arlette Farge et Sean Takats en novembre 2018.

9 Laisser un commentaire sur le paragraphe 9 0 Le contact d’un ou d’une chercheur avec le centre d’archives est aussi important. Allant aux archives de la Banque de France, les archivistes avaient préparé ma venue – et s’étaient vraiment cassé la tête – pour trouver toutes les boîtes pouvant intéresser ma recherche. Bien sûr, j’ai aussi alors regardé les outils de recherche en salle de lecture, mais cette préparation par des archivistes connaissant bien leur fond m’a permis d’avoir accès à des archives que je n’aurais pas nécessairement demandées, comme les notes de Clément Moret pendant les travaux du comité Young en 1929, par exemple, que j’ai été l’un des premiers à utiliser.

10 Laisser un commentaire sur le paragraphe 10 0 En d’autres mots, le travail mais aussi la sérendipité de l’historien et de l’historienne en centre d’archives dépend beaucoup du travail des archivistes, des centres d’archives, de leur histoire. D’un certaine manière, on peut aussi en parler comme d’interfaces entre l’historien et ses archives.

11 Laisser un commentaire sur le paragraphe 11 0 Que sont ces interfaces à l’ère numérique?

Les interfaces historien-sources primaires à l’ère numérique

12 Laisser un commentaire sur le paragraphe 12 0 La question mérite d’être posée, reposée, encore et encore: quelles sont les interfaces, les couches de médiation entre l’historien et ses archives à l’ère numérique. Je tente ici d’en évoquer quelques unes et nul doute qu’elles ne sont pas exhaustives.

13 Laisser un commentaire sur le paragraphe 13 0 En premier lieu, les interfaces que sont les archivistes, les centres d’archives, les salles de lecture ne disparaissent pas ou uniquement dans le cas des données nées numériques que l’on peut collecter soi-même sur le web et alors peut-on même se demander si elles sont des archives, bien qu’étant des sources primaires. Mon corpus de tweets, le corpus que nous sommes en train de constituer avec ma collègue Maria Biryukov à partir de newsgroups, est un exemple d’ensemble de sources primaires où il n’y a plus de médiation par des archivistes ou par un centre d’archives. Par contre, l’interface beaucoup plus présente et bien plus problématique est celle qu’impose Google, sans documentation et l’histoire des newsgroups doit être prise en compte. Ainsi s’est-on aperçu que Google avait importé dans Google Groups les anciens newsgroups sans trop se préoccuper d’encodage. Le corpus nécessite alors un traitement spécifique et complexe pour obtenir quelque chose d’exploitable[6]Voir Paloque-Berges Camille, « Vers des lieux de mémoire réticulaires ? . Construire un patrimoine de la communication des sciences et des techniques du numérique », RESET. Recherches en … Continue reading.

14 Laisser un commentaire sur le paragraphe 14 0 De nombreux corpus de données numériques se fondent sur des archives gérées en centres d’archives et les médiations «traditionnelles» ne disparaissent pas à l’ère numérique, y compris dans le cas de données nées numériques ensuite collectées et conservées par nos collègues archivistes, souvent, néanmoins, sur des bases pas tout-à-fait identiques à celles de l’archivage «papier».

15 Laisser un commentaire sur le paragraphe 15 0 Les médiations permettant de passer du «papier» à la donnée sont de diverses natures. Elles peuvent être le fait d’un centre d’archives ou d’une institution – j’ai ainsi travaillé pendant 5 ans pour le CVCE, aujourd’hui disparu et ses activités intégrées au C2DH à l’Université du Luxembourg, et nous collections dans des centres d’archives en charge de fonds européens, les numérisions puis les mettions en ligne. Cela impliquait une sélection (pas de respect des fonds), un travail éditorial historique à proprement parler (créer des dossiers thématiques ou chronologiques pour organiser les documents, etc), mais également un traitement informatique parfois d’ordre technique (la reconnaissance de texte ou l’absence de reconnaissance de texte, la production de «fac simile» ou la simple reproduction du contenu du document mais non de sa forme, etc) ou d’ordre éditorial (la création des métadonnées, l’insertion de ces métadonnées dans des ontologies ou des thésaurus comme eurovoc), etc. Ce travail n’était pas toujours parfaitement documenté. Si cela n’a pas empêché une utilisation très large du site (cvce.eu est toujours l’objet, aujourd’hui, d’environ un million de visites par an), l’absence de documentation très complète sur les méthodes de numérisation de cette bibliothèque numérique a toujours été un problème, identifié comme tel en interne, mais jamais pleinement résolu.

16 Laisser un commentaire sur le paragraphe 16 0 Dans le cas de données numérisées par le chercheur lui-même, du papier au corpus de données, nombreuses sont les étapes avant que l’historien ou l’historienne puisse utiliser ses sources. Là, s’insèrent de nouvelles interfaces: l’appareil photographique numérique, l’ordinateur – l’objet physique lui-même, puisqu’il permet de stocker plus ou moins de données, de les traiter plus ou moins rapidement, etc -, l’ensemble des logiciels utilisés pour le traitement des données, dès le système d’opération. Du traitement à la lecture, de la lecture à l’écriture, l’informatique (les outils) et les sciences informatiques (les principes du traitement des données) se sont imposées à presque toutes les étapes, chez presque tous les chercheurs et chercheuses en histoire.

17 Laisser un commentaire sur le paragraphe 17 0 Il y a de nombreuses étapes distinctes dans ce passage de la source à la donnée. L’outil de la collecte (appareil photo, scanner, par exemple, pour les archives nées papier; scrapping, interface de programmation pour les données nées numériques), les outils de stockage des données/fichiers ainsi obtenus (base de données, logiciels comme tropy ou zotero par exemple), les outils de l’entre-deux (voir plus bas), et enfin les outils de traitement des corpus, qui nous permettent d’obtenir des résultats interprétables et, donc, ensuite, de passer à la phase d’exposition des résultats.

18 Laisser un commentaire sur le paragraphe 18 0 Les cas qui m’intéressent le plus sont ce que j’ai appelé les outils de l’entre-deux: l’ensemble de ces outils qui permettent de préparer les données, déjà extraites des sources primaires, pour les outils d’analyse des données qui permettront d’obtenir les résultats. Ces outils sont fondamentalement techniques – au sens où les opérations que nous leur demandant font appel à des savoir-faire comme les expressions régulières – qui permettent de chercher des patterns plutôt que des mots ou expressions précises – mais participent à l’épistémologie de l’histoire car ils permettent à l’historien et à l’historienne de transmettre à leur corpus une forme comportant leurs hypothèses mêmes.

19 Laisser un commentaire sur le paragraphe 19 0 L’un de ces outils, par exemple, est OpenRefine. Racheté par Google en même temps que freebase[7]Voir Freebase, puis publié [8]et, donc, abandonnée par la firme de Mountain View, habituée de ce genre d’abandon en rase campagne. Qui se souvient de Google Waves? De Google Reader? et de tant d’autres… en open source, le logiciel qu’est devenu Open Refine permet de mener simplement – parfois en un click – des opérations faisables mais extrêmement complexes dans des tableurs, comme transformer des colonnes en lignes (et inversement), utiliser facilement des expressions régulières, etc. Dans le cas des données Twitter, un billet de blog de Fred Pailler permet de comprendre le type d’opérations possibles via OpenRefine. Il permet de comprendre, également, à quel point l’usage de ces outils est déterminé par les hypothèses que l’ont veut vérifier, l’essentiel du billet de Fred Pailler étant orienté vers la création de différents types de liens, entre tweets, entre hashtags, entre comptes twitter. L’utilisation de ces outils, qui est souvent la phase la moins bien documentée, quant elle l’est, est pourtant un moment clé de la recherche sur données [9]Philippe Rygiel l’aborde notamment dans son Historien à l’âge numérique: essai, Villeurbanne, Presses de l’Enssib, 2017 (Papiers). Claire Lermercier et Claire Zalc également: Méthodes … Continue reading.

20 Laisser un commentaire sur le paragraphe 20 0 Documenter les différentes étapes de son travail informatique à proprement parler devient de plus en plus important. Car l’ensemble de ces opérations forment des « couches », qui se superposent, qui sont autant d’éléments s’imposant entre l’historien.ne et, non seulement ses données, mais ses archives, ses sources primaires. Ne pas les documenter porte en soit le risque de perdre le contact avec ses sources primaires.

Références

Références
1 Farge Arlette, Le goût de l’archive, Paris, Seuil, 1997(1989).
2 Diplôme d’études approfondies, équivalent de la seconde année d’un master orienté recherche.
3 En fonction des périodes et des sujets, Schacht et les autres ministres conservateurs ont pu avoir des marges de manœuvres tout-à-fait importantes.
4 C’est avec l’ouverture des archives soviétiques / russes, par exemple, que l’on a pu avoir accès à l’intégralité du journal de Goebbels, source très intéressante bien que parfois difficile à utiliser. Voir Patin Nicolas, « Le journal de Joseph Goebbels », Vingtieme Siecle. Revue d’histoire n° 104 (4), 05.11.2009, pp. 81‑93.
5 Ce qu’évoquaient, d’ailleurs, Arlette Farge et Sean Takats en novembre 2018
6 Voir Paloque-Berges Camille, « Vers des lieux de mémoire réticulaires ? . Construire un patrimoine de la communication des sciences et des techniques du numérique », RESET. Recherches en sciences sociales sur Internet (6), 18.11.2016. En ligne: https://doi.org/10.4000/reset.839, consulté le 05.06.2019.
7 Voir Freebase
8 et, donc, abandonnée par la firme de Mountain View, habituée de ce genre d’abandon en rase campagne. Qui se souvient de Google Waves? De Google Reader? et de tant d’autres…
9 Philippe Rygiel l’aborde notamment dans son Historien à l’âge numérique: essai, Villeurbanne, Presses de l’Enssib, 2017 (Papiers). Claire Lermercier et Claire Zalc également: Méthodes quantitatives pour l’historien, Paris, La Découverte, 2008.

Source :https://gout-numerique.net/table-of-contents/archives-nees-numeriques/larchive-interfacee