Statistiek voor Shakespeare en het Wilhelmus
Statistiek wordt al decennia lang gebruikt om ‘digital humanities’ vragen te beantwoorden. Een bekend voorbeeld daarvan is het onder de loep leggen van het werk van de beroemde zestiende eeuwse schrijver William Shakespeare. De statistici Efron en Thisted waren geïntrigeerd door de vraag hoeveel woorden Shakespeare eigenlijk kende. Hun methode hiervoor was redelijk ingenieus, maar is gewoon gestoeld op de basisprincipes van statistische sampling. [1]
Om te beginnen namen ze het hele oeuvre van Shakespeare als ‘dataset’ en gingen woorden tellen. Vervolgens keken ze hoeveel woorden er een keer voorkwamen, hoeveel twee keer, hoeveel drie keer, et cetera. Niet minder dan 14.376 woorden kwamen slechts een keer voor. 4,343 woorden kwamen twee keer voor, 364 woorden kwamen tien keer voor, et cetera. De auteurs vroegen zich vervolgens af wat er zou gebeuren als je een corpus van dezelfde omvang met Shakespeariaanse woorden zou toevoegen. Dan zou je uiteraard ook nieuwe woorden krijgen, maar al een stuk minder dan in het eerste sample, waarin de eerste vermeldingen van ‘the’ en ‘and’ gewoon meetelden als nieuwe woorden. Als het tweede sample dezelfde distributie zou hebben als het eerste sample dan zouden er 11.430 woorden bijkomen.
Zo gingen ze verder met een derde sample van dezelfde omvang en een vierde, enzovoort, totdat er geen nieuwe woorden meer bij zouden komen. Ze kwamen tot de conclusie dat er in totaal circa 35.000 woorden bij de oorspronkelijke 31,534 woorden uit het oeuvre zouden komen. Shakespeare zou daarom ongeveer 66.000 woorden gekend hebben. Er kunnen natuurlijk allerlei inhoudelijke aantekeningen bij deze exercitie gezet worden, maar intrigerend is het wel. Het geeft een cijfermatige inschatting op een vraag waar anders geen zinnig woord over te zeggen valt.
Nog leuker werd het toen dezelfde statistische principes werden toegepast om het auteurschap van een nieuw ontdekte sonnet te bepalen. Op dezelfde manier werd er namelijk gekeken naar de hoeveelheid nieuwe woorden die verwacht mochten worden als het sonnet geschreven was door Shakespeare, op basis van het corpus van al Shakespeare’s teksten. Er werden zeven nieuwe woorden verwacht, het waren er negen. Ook is er gekeken naar hoeveel woorden er een, twee en drie keer eerder in de rest van het oeuvre zouden moeten voorkomen, en ook dat kwam redelijk in de buurt. Op basis daarvan werd het auteurschap aan Shakespeare toegeschreven. Het spreekt voor zich dat voor een goede ‘check’ dezelfde exercitie zou moeten worden gedaan met de oeuvres van Shakespeare’s tijdgenoten.
Het Wilhelmus
Om terug te gaan naar de Vaderlandse geschiedenis: in 2017 publiceerden Mike Kestemont en zijn collega’s een boekje over het auteurschap van het Wilhelmus. [2] Ze probeerden om via ‘computationele stylometrie’, het met de computer vergelijken van schrijfstijlen, te achterhalen wie de auteur was. Iedere auteur heeft een eigen stijl, die voornamelijk af te lezen is aan het gebruik van bepaalde veel gebruikte ‘kleine woorden’: voorzetsels, voegwoorden, lidwoorden. Met behulp van een computer is het gebruik van dergelijke woorden goed in patronen vast te leggen. Voor een moderne auteur is het daardoor lastig om iets onder pseudoniem te publiceren, zoals Harry Potterauteur J. K. Rowling ondervond. Onderzoeker P. Juola, die een speciaal programma had ontwikkeld om te kijken naar verschillende stijlovereenkomsten, kreeg de vraag om een tip te onderzoeken of Rowling achter het pseudoniem van Robert Galbraith zat. Hij vergeleek vervolgens de stijl van Rowling en drie andere auteurs met die van Galbraith, en kwam tot de conclusie dat er slechts een kans was van 6% om per toeval een auteur te noemen die net zoveel overeenkomsten vertoonde als Rowling met Galbraith.[3]
Kestemont en collega’s deden een soortgelijke oefening voor het Wilhelmus. Ze hadden daarbij echter een aantal handicaps te overwinnen in vergelijking met de casus Rowling. In de eerste plaats is het origineel van het Wilhelmus niet overgeleverd. Als je een auteur moet identificeren op basis van tekst, dan is het natuurlijk van belang dat je wel de originele tekst hebt, die mogelijk op details afwijkt van de kopieën. Daarnaast zijn er van Rowling alleen al zeven dikke Harry Potterboeken om haar stijl uit te distilleren. Van de zestiende eeuwers die voor het auteurschap van het Wilhelmus in aanmerking komen is veel minder tekst overgeleverd. Om niet te spreken van de korte lengte van het Wilhelmus zelf. Tenslotte kon Juola afgaan op een tip. Hij kon gericht kijken naar de overeenkomsten tussen Rowling en Galbraith. Kestemont en consorten konden alleen de meest voor de hand liggende kandidaten onderzoeken en liepen daarnaast het risico dat de werkelijke auteur helemaal geen tekst had overgeleverd, naast het Wilhelmus, waardoor een identificatie op basis van stylometrie onmogelijk zou zijn.
Kestemont en collega’s beantwoordden op basis van hun stylometrische analyses twee verschillende vragen: 1) Welke kandidaat-auteurs komen qua stijl het dichtst in de buurt van de stijl van het Wilhelmus?; 2) Is deze kandidaat-auteur de auteur van het Wilhelmus, ja of nee? Met de tweede vraag wordt het probleem enigszins omzeild dat de auteur van het Wilhelmus mogelijkerwijs helemaal niet tussen de kandidaat-auteurs zit. Het is immers mogelijk dat het antwoord voor iedere auteur ‘nee’ is. Verrassend genoeg kwam Petrus Datheen naar voren als veruit de meest waarschijnlijke auteur, op basis van beide analyses, terwijl hij alleen was meegenomen in de analyses als ‘ijkpunt’ om de analyses mee uit te voeren. Niet eerder was hij serieus genoemd als mogelijke auteur. Datheen is vermoedelijk nooit in kandidaatslijstjes vermeld geweest door zijn belabberde reputatie als dichter, zijn vermeende ultra gereformeerdheid en Oranjehaat.
Toen Kestemont en co echter nog eens keken naar de historische Datheen kwamen ze tot de conclusie dat hij niet een structureel belabberde dichter was en dat het met de oncompromisloze gereformeerdeheid en Oranjehaat heel erg mee viel, en een stuk genuanceerder lag. Bovendien was het Wilhelmus geschreven op een bestaande melodie, die Datheen, in tegenstelling tot de andere kandidaten, uit eerste hand gehoord kon hebben. Op deze manier bracht digital humanities onderzoek een aannemelijke kandidaat voor het auteurschap naar voren, die voorheen over het hoofd was gezien. De gedoodverfde kandidaat Marnix van Sint Aldegonde werd op dezelfde manier geïdentificeerd als een zeer onwaarschijnlijke auteur.
===============
[1] J. Bennett, W. Briggs, M. Triola, Statistical Reasoning for Everyday Life (Boston etc., 2003) 357-358.
[2] M. Kestemont, E. Stronks, M. de Bruin en T. Winkel, Van Wie is het Wilhelmus? (Amsterdam 2017).
[3] P. Juola, ‘How a Computer Program Helped Show J.K. Rowling write A Cuckoo’s Calling. Author of the Harry Potter books has a distinct linguistic signature’, Scientific American, 20 August 2013. https://www.scientificamerican.com/article/how-a-computer-program-helped-show-jk-rowling-write-a-cuckoos-calling/