Présentation des corpus
Corpus I (critique journalistique) : Theatre Record
Corpus II (critique numérique) : la blogosphère
Récupération des informations
Critique journalistique : du fichier PDF au fichier .txt
Critique numérique : du blog au fichier .txt
Création des bases de données
Dataframe ou "Matrice de données"
Bilan
Présentation des corpus
Corpus I (critique journalistique) : Theatre Record
Le premier corpus est créé à partir des données disponibles dans Theatre Record qui est un magazine originellement créé par le critique anglais Ian Herbert. Publié toutes les deux semaines en Angleterre depuis janvier 1981, il retranscrit une grande partie des critiques publiées dans les journaux portant sur la scène londonienne et régionale anglaises. C'est à partir de janvier 2019 que la version papier est interrompue et reprise sous format numérique par Julian Oddy.
Chaque numéro publié par Theatre Record est organisé de la même manière. Pour chacun des spectacles mentionnés, un nombre variable de critiques ainsi qu'une série d'informations relatives à la production sont donnés. Ainsi, tous les corps de métier liés à la sphère théâtrale sont listés pour chacune des pièces mentionnées : metteurs.ses en scène, costumiers.ères, acteurs.trices, éclairagistes, décorateurs.trices, scénographes, etc. Le lieu dans lequel a été jouée la pièce de théâtre (The Royal Court Theatre, The National Theatre, The Old Vic, etc.) ainsi que les dates d'ouverture et de fermeture du spectacle sont également indiquées. Les journaux dans lesquels sont parues les critiques sont, pour la plupart, connus de tous : The Times, The Guardian, The Independent, The Sun, The Observer, etc.
Ce premier corpus est constitué de 32 journaux au total. Le tableau ci-dessous répertorie ses caractéristiques principales :
Corpus II (critique numérique) : la blogosphère
Publiées par des auteurs indépendants, ces critiques s'intéressent à d'autres théâtres et à d'autres spectacles qui ne font pas partie du canon théâtral britannique.. Toutes ces plateformes ont pour point commun de promulguer la créativité et la sensibilité d'individus qui ne sont pas rémunérés pour leur activité de critique, mais qui le font par passion et par intérêt afin de faire vivre la communauté théâtrale anglaise. La dénomination du blog A Younger Theatre l'énonce explicitement ; il s'agit d'ouvrir des espaces de discussions pour un « théâtre plus jeune », c'est-à-dire un théâtre constitué de critiques qui envisagent la scène contemporaine anglaise au travers d'un regard différent, moins marqué par une culture classique. C'est ce que soutient également Everything Theatre en inscrivant en lettres rouges la finalité de leur blog dans leur page de présentation :
OUR AIMS:
1. To share our infectious enthusiasm for theatre with the person on the street.
2. To provide simple, unpretentious and easy-to-understand coverage of the theatre scene which does not assume any level of theatrical knowledge.
3. To remain upbeat and constructive in everything we do; we’re certainly not here to put people down!
4. To provide all theatre companies – both big and small – with an even chance of having their work reviewed and shared with as wide an audience as possible.
Ces quatre principes jettent la lumière sur des plateformes qui se construisent en réaction au modèle élitiste. L'activité de critique n'est plus considérée comme un métier réservé à une fraction privilégiée de la population, mais comme une activité que chaque individu peut pratiquer. Les éditeurs de Everything Theatre le précisent dans leur page de présentation, ses contributeurs sont autant de passionnés qui travaillent dans le domaine du droit, de l'événementiel, du marketing, de l'éducation que du théâtre.
Le second corpus est constitué de 18 blogs qui peuvent être divisés en deux sous-catégories : les blogs collectifs d'une part, et les blogs individuels d'autre part. Soit ces plateformes numériques sont dirigées par un éditeur qui invite d'autres critiques à publier sur son site, soit l'éditeur publie lui-même toutes ses critiques. Dans les deux cas, ces auteurs ne sont pas rémunérés pour leur activité. Il existe évidemment d'autres blogs sur la toile qui n'apparaissent pas dans ce corpus témoin. Ici, j'ai sélectionné les principaux.
Le tableau ci-dessous répertorie les caractéristiques principales de ce second corpus fondé sur la critique numérique :
Constitution des bases de données
Critique Journalistique : du fichier .PDF au fichier .txt
C'est une partie cruciale de chaque projet en humanités numériques et qui est pourtant souvent absente des papiers de recherche : la structuration et le nettoyage des données. Cela représente environ 80 % du travail total d'un projet en science des données[1]. La numérisation d'un grand nombre d'objets ayant attrait aux humanités ouvre en effet un ensemble de possibles quant à leur exploitation. Si les sources sont de plus en plus importantes, cela signifie également que le travail de nettoyage sera proportionnellement plus conséquent. Sans organisation rigoureuse des informations, les résultats resteront imprécis et sujets à davantage d'erreurs. L'ordinateur est une machine puissante mais pas encore capable d'ordonner de manière autonome un jeu de données. C'est donc à la chercheuse d'anticiper les questions auxquelles elle veut répondre afin de construire une architecture de corpus appropriée aux problématiques posées. La nature des questions affectera le choix des outils informatiques, il est donc nécessaire de réfléchir en amont aux enjeux techniques que pose une problématique donnée.
Première étape
Concernant le premier corpus, la base de données Theatre Record met à disposition ses ressources grâce à la numérisation de fichiers .PDF. Afin de faciliter le traitement des données pour la suite du travail, la première étape consistait à convertir ces fichiers .PDF en fichiers .txt. Il est possible de travailler à partir d'un format .PDF directement avec un langage de programmation (comme R ou comme Python), mais les possibilités d'analyses sont restreintes. Pour cela, j'ai utilisé ABBYY FineReader qui est un logiciel de reconnaissance optique de caractères. Il permet, entre autres, de convertir des PDF dans un vaste champ de formats (.txt, .png, .csv, etc.).
Deuxième étape
La deuxième étape consistait à séparer les métadonnées du corps du texte. Au début de chaque fichier PDF se trouvait une série d'informations relatives au numéro publié (la liste des pièces présentes dans le fichier en questions, le nom du.de la dramaturge, le théâtre dans lequel a été jouée la pièce ainsi que la date d'ouverture et de fermeture du spectacle.). Ainsi, j'ai conservé ces informations dans des fichiers séparés.
Troisième étape
J'ai ensuite écrit un script sous Python afin de supprimer les erreurs récurrentes présentes dans les textes des critiques. Elles n'étaient cependant pas toutes détectables automatiquement. Il a donc fallu relire ces critiques en diagonale afin de les retirer. Cette étape représente un nombre d'heures considérables de travail. Il a fallu plus de 950 heures de relecture pour parvenir à un corpus propre. Ces problématiques très techniques sont une des composantes majeures de tout travail en humanités numériques. À nouveau, si des données correctement nettoyées et structurées représentent une tache chronophage et laborieuse, elles sont pourtant les garantes de résultats cohérents.
Le schéma ci-dessous illustre le processus que je viens de décrire :
Critique numérique : du blog au fichier .txt
Afin de créer le second corpus fondé sur les blogs, j'ai utilisé une technique appelée le webscraping. Le webscraping permet d'extraire automatiquement du contenu d'une ou de plusieurs pages Internet. Au lieu de les récupérer manuellement en répétant l'opération « copier / coller » dans un fichier .txt, j'ai rédigé un script qui effectue ces actions pour moi. Cela consiste à créer, à partir d'un script informatique, un utilisateur factice qui se connectera sur chacune des pages du site en question et qui récupèrera les informations voulues.
Pour comprendre comment fonctionne le webscraping, il faut comprendre comment fonctionne une page Internet. Un site Web est un ensemble de pages codées en langage HTML qui permet de décrire à la fois le contenu et la forme d’une page Web. Chaque information est contenue dans ce qui est appelé une "balise". Les balises structurent le contenu d'une page HTML. Elles sont signifiées par les symboles « < > » qui indiquent le début d'une partie, ou à l'inverse, par des balises fermantes « </ > » lorsqu'il s'agit de la fin d'une partie. Pour récupérer le texte d'un site, il suffit donc de repérer les balises dans lesquelles sont contenues les informations à extraire.
J'ai ensuite répété cette opération pour les dix-sept autres blogs. Selon leur structure, il était plus ou moins aisé de récupérer les informations voulues. En fonction du volume de données à extraire du site web, l'algorithme tournait plus ou moins lentement, et plus ou moins longtemps. Cette étape achevée, il restait beaucoup de nettoyage à effectuer. Certains d'entre eux pouvaient être faits automatiquement, d'autres nécessitaient une relecture à l'oeil nu. Comme évoqué plus haut, cette étape chronophage et laborieuse de triage des données fait partie de tout projet en humanités numériques et conditionne la pertinence des résultats.
Création des bases de données
Structuration des données
Ces données extraites et transformées dans un format plus facilement manipulable (le format txt), il faut désormais les structurer. Pour pouvoir les étudier, c'est-à-dire pour les analyser grâce à des algorithmes, il faut les organiser selon une certaine structure qui sera reconnaissable par l'ordinateur et rapidement manipulable par l'humain. L'article d'Hadley Wickham intitulé « Tidy Data » est particulièrement éclairant dans ce contexte puisqu'il détaille précisément l'architecture d'un jeu de données exploitables. Pour cela, ce dernier doit comporter les trois caractéristiques suivantes :
1. Chaque variable est représentée sous forme de colonne et contient des valeurs.
2. Chaque observation constitue ce qui est communément appelée une ligne.
3. Chaque unité d'observation forme un tableau.
Ce que décrit ici Wickham est ce qui est appelée une "matrice de données", ou un "dataframe." Cela correspond à un tableau dans lequel chacune des données sera répertoriée. Ce format de données facilitera l'analyse des textes pour la suite des recherches. Il suffira d'appliquer les algorithmes sur la dernière colonne « Texte » et d'effectuer ensuite des calculs comparatifs entre les différentes variables. Ainsi, en fonction des problématiques et des algorithmes choisis, nous pourrons aborder des thématiques liées à la stylistique, au genre ou encore à la géographie. Voici comment se présentent les données à la fin de ce processus :
Bilan
Le tableau ci-dessous résume les caractéristiques des deux corpus :