Comment les auteurs de ces deux communautés écrivent-ils ?
Linguistique computationnelle : Exploration des corpus
Résultats
Quelles conclusions en tirer pour le moment ?
Machine Learning : Déterminer la structure des critiques
Résultats
Quelles conclusions en tirer pour le moment ?
Pourquoi étudier le style de ces auteurs ?
Nous avons commencé par nous intéresser au style littéraire des auteurs de ces deux corpus. Avant d’analyser leurs idées, nous voulions comprendre comment ils structuraient leurs écrits. Bien que la notion de « style » soit difficile à définir, elle est pourtant autant au coeur de l’activité de critique que des débats actuels entre la critique papier et la critique numérique. Comme le résume si bien le critique de théâtre et écrivain anglais Kenneth Tynan, "The subtlest and best-informed of men will still be a bad critic if his style is bad."
Tandis que les auteurs des journaux reprochent aux bloggeurs leur manque de rigueur, ces derniers, à l’inverse, revendiquent leur droit d’écrire différemment. Dans sa page de présentation, la plateforme The Exeunt résume très bien les enjeux stylistiques que sous-tendent ces nouvelles formes de critiques numériques : « Exeunt believes in making beautifully written, experimental, fierce and longform writing about theatre available for free. » Pour Michael Billington en revanche, critique de longue date dans The Guardian, un blog ressemble davantage à une « lettre informelle » qu’à une véritable critique. Danielle Tarento, directrice du théâtre Chocolate Menier Factory à Londres, va même jusqu’à affirmer que ces bloggeurs ne sont pas de « réels écrivains » : « They do not have the intellectual background or historical background or time to know what they are writing about. »
Les auteurs de ces deux communautés critiques écrivent-ils si différemment que le prétendent ces polémiques ?
Pour esquisser des réponses à ces questions, deux solutions ont été envisagées pour le moment :
Linguistique computationnelle : exploration des corpus
Nous nous sommes appuyés sur des travaux en linguistique computationnelle pour répondre à cette question. Cette discipline se situe à l’intersection de l’informatique, de la linguistique et de la statistique. Elle permet, entre autres, de modéliser des phénomènes de la langue naturelle grâce à des approches logiques. Nous avons pris pour point de départ les travaux de D.I Holmes qui définit le style comme un ensemble de variables mesurables qui participent à constituer « l’empreinte digitale » (fingerprint) d’un auteur.
Cette première piste de recherche consistait à examiner une série de caractéristiques stylistiques simples dans les deux corpus et de les comparer (nombre de mots / phrases par critique, les noms communs / verbes / adjectifs / les plus récurrents, la répartition des différents types de phrases, l’utilisation de la ponctuation, etc.)..
Résultats
Quelles conclusions pour le moment ?
A ce stade des analyses, ces premières expériences révèlent deux points importants :
Les 5 premiers noms les plus employés dans ces deux corpus semblent indiquer que ces deux communautés portent leur attention sur deux objets différents. Lorsque l'on regarde les deux premiers termes les plus récurrents, ils sont sensiblement similaires ("Production" et "Show" pour le corpus I - "Theatre" et "Show" pour le corpus II). Le troisième terme le plus employé par la critique journalistique révèle davantage d'informations quant à leur centre d'intérêt. Le mot "Stage" laisse supposer que ces critiques se focalisent davantage sur la scène., ou du moins, que leur regard se porte sur le spectacle, sur ce qui se passe devant eux. Lorsque l'on compare avec les mots les plus fréquents dans le corpus II, en troisième position vient un terme assez similaire aux deux précédents ("Theatre" - "Show" - "Production"). Le quatrième terme est en revanche plus intéressant. "Audience" sous-entend que le regard des critiques numériques porte en priorité sur ce qui se passe à côté deux, sur les spectateurs, et non ce qui se passe en face d'eux, c'est-à-dire sur la scène. Pourrait-on y voir ici deux manières d'appréhender l'expérience du théâtre ? L'une qui serait rationnelle, tournée vers l’analyse du spectacle, et l’autre qui serait plus émotionnelle, davantage tournée vers les réactions de l’humain, ou du public ?
La répartition de l'utilisation des pronoms personnels entre ces deux corpus semble confirmer la validité de cette piste hypothèse. C'est le deuxième graphe qui représente les disparités les plus importantes en terme de pourcentages entre ces deux bases de données. Alors que la première personne du singulier représente 10 % de l'utilisation totale des pronoms personnels dans le corpus I, sa présence est doublée dans le corpus II (20 %). Cela signifie que les bloggeurs emploient deux fois plus le pronom "I" ou "je" dans leurs critiques. Serait-ce la marque d'une subjectivité plus affirmée de la part de la critique numérique ?
Quelle conclusion pour le moment ?
A ce stade des analyses, ces premières expériences révèle un point important :
Des phrases sensiblement plus longues et qui contiennent donc davantage de mots dans le Corpus II.
→ Cela confirmerait-il que style de la critique journalistique est plus resserré, plus concis, peut-être plus professionnel aussi. Ayant un nombre de mots restreints à respecter, ils doivent se focaliser sur l’essentiel.
A compléter
2. Machine Learning : étude de la structure des critiques
La seconde expérience portait sur l’analyse de la forme de la critique. Nous voulions comprendre comment l’argumentation d’une critique était structurée d’un corpus à l’autre. Pour cela, nous nous sommes appuyés sur l'essai How to Write About Theatre (2015) de Mark Fisher, critique dans le journal The Guardian, qui décrit les différentes catégories d'une critique (Introduction, rédaction de l'intrigue, etc.). Nous avons ensuite passé plusieurs heures à étudier ces deux corpus afin d'obtenir une idée plus précise des thématiques que ces auteurs abordaient dans leur rédaction. Voici les différentes catégories que nous avons identifiées, et les couleurs que nous leur avons attribuées :
Nous avons ensuite annoté 1000 critiques du corpus I à la main en fonction de ce tableau. Cette étape consistait à sélectionner une critique au hasard et à changer la couleur du texte en fonction de la catégorie à laquelle il appartenait. Voici un exemple extrait des critiques rédigées pour la pièce de Sam Shepard, A Lie of the Mind (1985), qui a été représentée en mai 2017 au Southwark Playhouse Theatre de Londres. Cette critique a été rédigée le 11 mai 2017 par Fergus Morgan, critique dans le journal The Stage :
Il fallait ensuite utiliser des techniques de Machine Learning (scikit-learn dans ce cas) pour entraîner l'algorithme à reconnaître ces catégories sur les textes non-annotés.. Le modèle demande encore à être amélioré et les résultats présentés ici manquent d'exactitude. Cependant, ils montrent déjà certaines tendances :
Résultats
Quelles conclusions pour le moment ?
A ce stade des analyses, ces premières expériences révèlent deux points importants :