Comment faire de l’histoire
avec 7 millions de tweets quand l’on n’est pas data scientist?

Frédéric Clavert
ass. prof. @ uni.lu / C2DH
professeur invité (EA Tempora / Rennes 2)

10 septembre 2019

Introduction
Le projet #ww1

La genèse fortuite d’un projet

  • Usage de Twitter depuis 2008/2009
  • Collecte de tweets depuis 2012
  • Un savoir-faire suscite une recherche

Le projet de recherche

  • Collecter des tweets contenant un ou plusieurs mot-clés liés à la Première Guerre mondiale ou à son Centenaire
  • Analyser les tweets recueillis
  • Comprendre les échanges entre les comptes Twitter
  • Comprendre les temporalités du Centenaire de la Grande Guerre sur Twitter

Enjeux de la recherche

  • Mémoire collective
    • temporalité de la mémoire des faits historiques
    • influence des réseaux sociaux numériques sur les mémoires collectives

Cadre méthodologique

Cadre historiographique

  • Cadre historiographique connu
    Nora Pierre, Les lieux de mémoire, Paris, Gallimard, trois tomes (1984-1992)
    Rousso Henry, La dernière catastrophe: L’histoire, le présent, le contemporain, Paris, Gallimard, 2012.

    • Les mémoires du passé dépendent aussi de la nature des médias où elles s’expriment
      Assmann Aleida, Cultural Memory and Western Civilization: Functions, Media, Archives, New York, Cambridge University Press, 2012.

    • memory studies et digital memory studies
      Hoskins Andrew (éd.), Digital memory studies: media pasts in transition, New York, Routledge, 2017.
      «Memory has been lost to the hyperconnective illusion of an open access world of the availability, accessibility and reproduceability of the past.» (p. 5)

Abondance des concepts…

  • Expérience et horizon d’attente
    Koselleck Reinhart, L’expérience de l’histoire, Points, 2011.
  • Régimes d’historicité
    Hartog François, Régimes d’historicité. Présentisme et expériences du temps, Paris, Le Seuil, 2003.
  • Broad present
    Gumbrecht Hans Ulrich, Our Broad Present: Time and Contemporary Culture, Columbia University Press, 2014.
  • Updatism
    Henrique Pereira Mateus et Lopes de Araujo Valdei, « Updatism, and Broad Present: A Brief Analysis of Contemporary Temporalities », 01.12.2017, pp. 12‑27.

Un cadre sociotechnique:
le réseau social numérique Twitter

  • «dispositif sociotechnique»
  • données massives
  • spécificités de ce réseau
    • nature des échanges sur Twitter
    • «vibrations»: propagation rapide, intense, brève de l’information
      Boullier Dominique, « Les sciences sociales face aux traces du big data », Revue française de science politique 65 (5), 2015, pp. 805–828.

Collecter des données Twitter

  • API / interface de programmation
  • Recherche
  • Streaming
  • Achat de données

Twitter reste l’une des seules grandes plateformes du web à offrir de telles possibilités de collecte de données

Un moyen de collecte: le hashtag ou mot-dièse

  • Le mot-dièse comme fonctionnalité créée par les utilisateurs
    • Un mot-clé avec un # (#ww1)
    • Des significations nombreuses (parfois ambiguës)
  • La popularité des mots-dièse #ww1 et #pgm
    • Premier usage de #ww1: 16 avril 2007
    • Premier usage de #pgm: 11 mars 2009
    • Premier compte dédié au Centenaire: Imperial War Musem, mars 2011 (premier tweet le 8 juillet 2011)

71 hashtags collectés

wwiafrica, #wwi, #ww1, #1gm, #1wk, #wk1, #1Weltkrieg, #centenaire, centenaire14, centenaire1914, GrandeGuerre, centenaire2014, #centenary, #fww, #WW1centenary, 1418Centenary, #1ereGuerreMondiale, #WWIcentenary, #1j1p, #11NOV, #11novembre, #poppies, #WomenHeroesofWWI, #womenofworldwarone, #womenofww1, #womenofwwi, #womenww1, #ww1athome, #greatwar, #100years, #firstworldwar, #Verdun, Verdun2016, #Somme, #Somme100, PoilusVerdun, RemembranceisEveryday, arras100, vimy100, chemindesdames, CWGC100, #passchendaele, passchendaele100, RussianRevolution, RussianRevolution1917, #Hartmannswillerkopf, Cambrai100, #Testamentsdepoilus, anzacday, anzacday2018, #waac, #waac2018, sesouvenirencore, ArmisticeDay, ArmisticeDay100, #LestWeForget, remembranceday, armistice100, PoppyAppeal, #ThankYou100, #WorldWarI, #WorldWar1, #remembrance, #11novembre2018, #craonne, 11november18, 11november2018, 11novembre18, Armistice18, Armistice2018, centenaire1418

État du corpus en décembre 2018

  • Depuis le 1er avril 2014
  • 7,5 millions de tweets environ
  • 1,5 million d’utilisateurs
    utilisateurs privés, institutions, projets, bots…
  • 200 000 hashtags
    Quelques dizaines de milliers utilisés plus de 10 fois
  • Peu de bruit (#11nov, #Somme, #Verdun)

L’installation technique

  • Serveur de collecte
    à domicile > Université de Lausanne > Université du Luxembourg
  • Script de collecte
    140dev puis DMI-TCAT > instabilité du développement de ces outils
    Streaming API: 1% du firehose

Export et préparation des données:
les outils de l’entre-deux

  • Données stockées dans une base MySQL
  • Copie de cette base sur l’ordinateur
    exploitation non dynamique des données
  • Export grâce à différents types d’outils
    Les outils utilisés ont évolué avec la masse de données à traiter
    Et quoi qu’il arrive, des expressions régulières

Quels types d’exports

  • texte et métadonnées des tweets (fouille de texte)
  • relations entre comptes Twitter (extraites des métadonnées et des tweets)
  • URLs
  • dates
  • sous-parties du corpus

Comment lire 7 millions de tweets?


  • Appel au concept de lecture distante (distant reading)
  • Franco Moretti, Graphs, Maps and Trees, Verso, 2007
  • Articulations entre lecture proche, lecture machinique, lecture distante


Historien
face à une mer de données

Quelques résultats

Temporalité générale du Centenaire sur Twitter

Temporalité linguistique

Analyse textuelle du corpus français

Temporalité du corpus français

Analyse textuelle du corpus anglais

Temporalité du corpus anglais

Réseau global

Réflexions méthodologiques

Le bricolage numérique

Levi-Strauss Claude, La pensée sauvage, Paris, Plon, 1962.

  • Bricolage intellectuel:
    pensée concrète permettant une organisation sociale et un rééquilibrage collectif quand la pensée scientifique peut mener à une déstabilisation de l’ordre social

  • Bricolage (intellectuel) numérique:
    réponse académique à la potentielle déstabilisation, particulièrement des disciplines en SHS, par les avancées des sciences informatiques

Comment continuer une recherche en SHS, alors que les outils, les méthodes, et même les sources primaires (leur forme et leur volume) évoluent rapidement?

Bricolage et sources nées numériques

  • Les sources nativement numériques que sont les RSN sont créées comme sources par l’historien ou l’historienne
    Pas de conscience des utilisateurs de Twitter qu’ils produisent une archive

  • Pourquoi collecter des données Twitter?
    Parce qu’on le peut, contrairement à Whatsapp, Snapchat, etc.

Un logiciel = un jeu d’hypothèses

Gephi: outil d’analyse des réseaux sociaux
Développé au Medialab de l’IEP de Paris: sociologie des réseaux sociaux, plus précisément l’ANT (Bruno Latour)

IRaMuTeQ: «théorie des mondes lexicaux»
Hypothèse: utiliser un vocabulaire proche sous-tend une argumentation proche

Les limites de cette approche de Twitter

  • Les limites de l’utilisation de la collecte par hashtag
    nombre de discussions ne sont pas intégrées à cette collecte
  • L’ordre illusoire
    Milligan Ian, « Illusionary Order: Online Databases, Optical Character Recognition, and Canadian History, 1997–2010 », Canadian Historical Review 94 (4), 01.12.2013, pp. 540‑569. En ligne: https://doi.org/10.3138/chr.694.
  • L’invisibilisation du hors-ligne
    Putnam Lara, « The Transnational and the Text-Searchable: Digitized Sources and the Shadows They Cast », The American Historical Review 121 (2), 04.01.2016, pp. 377‑402. En ligne: https://doi.org/10.1093/ahr/121.2.377.
    Lässig Simone, « Digital Humanities: We Need to Talk », IJHE 5 (1), 2015, pp. 71‑79.

Conclusion
La place de l’historien.ne et de son apprentissage dans la production de l’histoire