Faam

De grootste Nederlander: het beantwoorden van grotere historische vragen I

Google is vooral bekend als de grote zoekmachine, en eventueel ook als provider van e-mail een ‘drive’ en ‘docs’. Ook zijn ‘Google Books’ wel bekend, dat scans levert van boeken over de hele wereld en waarmee ze de mensheid een grote dienst verlenen. Heel af en toe doen de medewerkers van Google ook aan werkelijk wetenschappelijk onderzoek. Een van de bekendste producten daarvan is een artikel in Science van Michel et al., waarin ze op basis van een dataset van miljarden woorden uit Google Books een kort onderzoek deden naar patronen van ‘faam’ in de negentiende eeuw. [1] Op basis van dezelfde dataset creëerden Veres en Bohannon een Science Hall of Fame, waarin ze keken wie de beroemdste wetenschappers door de eeuwen heen waren. [2] In dit hoofdstuk kijken we kort, en kritisch, naar beide projecten.

De vraag wie er nu eigenlijk beroemd wordt en waarom houdt historici al lang bezig. Het is natuurlijk spannend als deze vraag nu ook met meetbare resultaten te beantwoorden is. Voor humanities data zijn miljarden woorden niet zomaar ‘big data’, het is bijna ‘gigantic data’. Bovendien zijn de woorden gehaald uit circa 12% van de ooit gepubliceerde boeken ter wereld. Om uit al deze data patronen te halen zijn er computeralgoritmes nodig die zoeken naar woorden, combinaties van woorden en eventueel de context van woorden. Dergelijke algoritmes doen in feite een hoop ‘checks’, die moeten leiden tot het gewenste resultaat. Een algoritme kan bijvoorbeeld op de volgende manier geprogrammeerd zijn: Als ‘Charles Darwin’ in een zin staat dan is dat de beroemde ‘Charles Darwin’; als er alleen ‘Darwin’ staat dan negeer ik het; als er ‘C. Darwin’ staat dan negeer ik het ook; als er in dezelfde tekst nog een keer ‘Charles Darwin’ staat dan tel ik ze bij elkaar op, et cetera. Het spreekt voor zich dat het belangrijk is dat iemand die de uiteindelijke resultaten, de som van Charles Darwins, goed wil interpreteren en bekritiseren ook precies moet weten welke regels het algoritme gehanteerd heeft.

Aan de hand van een grote hoeveelheid van dergelijke ‘regels’ keek het team van Google onder meer naar het aantal vermeldingen van 800.000 beroemde personen door de jaren heen. Op basis daarvan konden ze bepaalde patronen zien. Het eerste patroon was dat mensen vrij snel tot grote faam komen, waarna de piek door de jaren heen langzaam daalde. Een tweede patroon was dat mensen doorgaans 75 jaar na hun geboorte de grootste piek in hun faam genoten. Een derde resultaat was dat mensen steeds sneller beroemd worden, en steeds beroemder, maar dat ze ook sneller weer vergeten worden. [3]

Veres en Bohannon maakten op basis van deze dataset een ‘Science Hall of Fame’. Met een lijst van beroemde wetenschappers in de hand, voorlopig alleen wetenschappers uit de natural sciences, gingen ze namen tellen en kijken wie er het meeste voorkwam. De score die daar uitkwam maten ze in milli-Darwins, ter ere van de evolutiebioloog, en vermoedelijk ook omdat ze dachten dat Darwin het meest frequent zou voorkomen. Opvallend genoeg stond uiteindelijk niet Darwin bovenaan de lijst, maar de wiskundige en filosoof Bertrand Russell, al was hij volgens collega wiskundige Michael Thaddeus vooral beroemd voor het niet beoefenen van wiskunde.

Om een beroemde wetenschapper te worden was het handig, maar niet noodzakelijk of voldoende, om de Nobelprijs te winnen. Ook bleek het belangrijker om publieksboeken te schrijven dan veel wetenschappelijke artikelen. Een bekende hedendaagse wetenschapper met een hoge score is Richard Dawkins, die velen weet te bereiken met zijn populair-wetenschappelijke werken. Een ander tamelijk extreem voorbeeld is Isaac Asimov, die dan wel een scheikundige was, maar vooral beroemd werd vanwege zijn science fiction boeken.Tot slot was het ook goed voor je faammeter als je iets controversieels deed: spionage of moord doen het goed, maar een succesvol t.v. optreden komt ook al vaak in de goede richting.

Op zichzelf gezien zijn dit prachtige resultaten. De auteurs zijn zich bovendien ook van veel van de gebreken van hun aanpak bewust. Zo moesten sommige mensen in zijn geheel worden genegeerd, omdat ze een te veel voorkomende naam hadden. Om de goede persoon er uit te halen zou een complexer algoritme moeten zoeken naar woorden uit de context - tijdsperiode, collega’s, beroep, et cetera - die moesten laten zien of het om de goede persoon ging. Dat vereist flink wat meer programmeerwerk en domeinkennis en is, tot dusver, achterwege gelaten.

Wat mij betreft een gemiste kans is echter de manier waarop de makers beroemde personen op het spoor probeerden te komen. Ze namen namenlijsten van Wikipedia en uit de Encyclopedia Brittannica en gingen specifiek naar deze personen zoeken. Op zich is dat een logische keuze, maar het gaat wel om ‘subjectieve’ lijsten, opgesteld door mensen die besloten dat iemand al dan niet beroemd was, terwijl hier ook de computationele kracht uitkomst had kunnen bieden. Wat ze ook hadden kunnen doen is de boel omdraaien: zoeken naar iedere naamcombinatie in hun dataset, dezelfde namen bij elkaar optellen, en vervolgens kijken om welke personen het dan wel gaat. De ene aanpak is ‘top down’, de andere is ‘bottom up’. Met de top down benadering riskeer je de heersende canon te bevestigen, terwijl de bottom up benadering in beginsel eerlijker is en objectiever. Op die manier kunnen namelijk ook beroemde en compleet vergeten personen naar voren komen, wat een heel andere uitkomst zou kunnen hebben op de geconstateerde faammechanismen van de auteurs.

Over het meten van faam heb ik samen met collega Antske Fokkens ook wat exercities gedaan met de top 25 uit de ‘Grootste Nederlander’ verkiezingen.[4] Om te beginnen hebben we deze 25 personen door verschillende Ngram viewers gehaald en gekeken wie de hoogste piekvermeldingen kregen. Ngram viewers zijn online ‘speeltjes’ die binnen een bepaalde dataset kijken naar combinaties van woorden. Een combinatie van twee woorden is een ‘bigram’, van drie woorden een ‘trigram’, et cetera. Er bestaat een Ngram viewer voor het reeds genoemde, en geroemde, corpus van Google Books. [5] Voor Nederland zijn de belangrijkste Ngram viewers die van de Koninklijke Bibliotheek (krantencorpus) [6] en de DBNL (literaire teksten). [7] Het zijn mooie tools om een vlugge indruk te krijgen van wanneer welk woord vaak voorkwam binnen deze corpora.

Uit bovenstaande tabel blijkt dat volgens het Nederlandse publiek de beroemdste persoon uit de Nederlandse geschiedenis Pim Fortuijn was. Volgens de Ngram viewers is dat echter koningin Wilhelmina. Je zou natuurlijk kunnen zeggen dat dat niet heel eerlijk is, aangezien Wilhelmina al veel langer dood is. Om die reden hebben we echter gekeken naar de hoogste score in iedere Ngram viewer. We mogen er redelijk van uitgaan dat Fortuijn zijn hoogste score gehad heeft in zijn sterfjaar. Natuurlijk zijn er heel veel andere redenen te bedenken waarom Fortuijn en anderen van nature minder vaak voorkomen in de geselecteerde bronnen dan collega beroemdheden. Het gaat echter te ver om daar hier uitgebreid op in te gaan, zo lang de bovenstaande tabel maar met een korreltje zout genomen wordt.

Net als het team van Google Books zijn we hier van een bestaande lijst uitgegaan, en in ons geval zeker niet van de meest objectieve. Veel interessanter was het ontwikkelen van een ‘bottom up’ methode, die juist geen last had van een bias in de selectie van personen, anders dan de bias van de bronnen zelf. We hebben de data van het Biografisch Portaal van Nederland genomen om onze analyses op uit te voeren. Het Biografisch Portaal bestaat uit een verzameling van biografische woordenboeken, met vele kleinere biografietjes van beroemde personen uit de Nederlandse geschiedenis. We wilden weten wie het meeste voorkwamen in deze biografietjes. Als eerste stap zijn we domweg begonnen met het aanleggen van frequentielijsten van namen in de data. Omdat het Nederlands zich daar goed voor leent hebben we gezocht naar woordcombinaties van hoofdletters, eventueel onderbroken door ‘tussenvoegsels’. We kregen hierdoor frequentielijsten van niet alleen namen als ‘Anne Frank’, maar ook van ‘Johan van Oldenbarneveldt’ en zelfs ‘Joan Derk van der Cappellen tot den Poll’. Met deze ‘botte-bijl-methode’ kregen we natuurlijk ook ‘onzinresultaten’ als ‘Tweede Kamer der Staten Generaal’ en ‘Den Haag’. Het was echter niet zo moeilijk die er handmatig uit te gooien.

Een groter probleem was het disambigueren van de namen. Een duidelijk voorbeeld daarvan is de naam ‘Willem van Oranje’. Dat waren er nogal wat in de loop der geschiedenis. We hebben hiervoor een tijdsfactor in het algoritme ingevoerd, die keek naar de geboortedatum van de persoon in wiens biografietje de naam voorkwam. We gingen er hierbij van uit dat een persoon vooral genoemd zou worden als hij of zij een tijdgenoot was van de hoofdpersoon van het biografietje. Als een Erasmus in de biografie van Luther wordt genoemd dan is er dus een goede kans dat het gaat om de humanist Erasmus.

Aan de hand van dergelijke disambigueringen konden we zien dat de ‘Willem I’ die het meeste genoemd wordt in het Biografisch Portaal, niet de leider van de Opstand was, maar koning Willem I. Het algoritme legde op die manier een duidelijke bias in het Biografisch Portaal bloot. Pas echt spannend zou het worden als we deze methode en disambiguaties konden toepassen op nog grotere en neutralere, dus zonder voorselectie, databestanden. Helaas heeft nog niemand zich geroepen gevoeld een dergelijke Nederlandse ‘Hall of Fame’ te sponsoren.


======================

[1] J.B. Michel, Yuan Kui Shen, Aviva Presser Aiden, Adrian Veres, Matthew K. Gray, William Brockman, The Google Books Team, Joseph P. Pickett, Dale Hoiberg, Dan Clancy, Peter Norvig, Jon Orwant, Steven Pinker, Martin A. Nowak, and Erez Lieberman Aiden. 2011. Quantitative analysis of culture using millions of digitized books. Science, 131:176–182.

[2] http://science.sciencemag.org/content/331/6014/143.3.full

[3] Michel et al, 180.

[4] Serge ter Braake en Antske Fokkens, How to Make it in History. Working Towards a Methodology of Canon Research with Digital Methods in: S. ter Braake, A. Fokkens, R. Sluijter, T. Declerck and E. Wandl-Vogt eds., Biographical Data in a Digital World 2015. Proceedings of the first Conference on Biographical Data in a Digital World 2015 (Amsterdam, the Netherlands, April 9th, 2015) 85-93.

[5] https://books.google.com/ngrams

[6] http://kbkranten.politicalmashup.nl

[7] http://kbkranten.politicalmashup.nl