Reizende Predikanten (1550-1850): datasets, oud en nieuw
In dit hoofdstuk gaan we in op verschillende soorten datasets aan de hand van een groepsportret van Nederlandse predikanten. In de vroegmoderne tijd gingen ‘historici’ in toenemende mate lijsten aanleggen van hoge ambtsbekleders uit het verleden: schepenen, burgemeesters … en ook predikanten. Aan het begin van de twintigste eeuw nam archivaris W.C. Regt het initiatief om deze lijsten te verzamelen en zo een min of meer complete verzameling namen te hebben van Nederlandse predikanten. Voor zijn proefschrift in 1995 gebruikte Fred van Lieburg deze lijsten voor een groepsportret, een prosopografie, van predikanten. Hij voerde alle data in een database in: DBase 3 +. Weer twintig jaar later kwam Van Lieburg bij mij en collega Antske Fokkens met de vraag of wij iets konden met deze gegevens. [1]
De database van Van Lieburg was uitzonderlijk rijk: omvangrijk met 12,405 personen en ook nagenoeg compleet. Aangezien het selectiecriterium duidelijk was, het beoefenen van het beroep van predikant, was er geen bias in de voorselectie. Alle uitspraken die we konden doen voor deze groep zou representatief zijn voor ‘de predikant’ in de Nederlandse geschiedenis. Voor wij er iets mee konden doen moest de oorspronkelijke database worden omgezet naar zogenaamde ‘comma separated values’: CSV. Het voordeel van CSV is dat het niet gebonden is aan een bepaald format of aan bepaalde software. CSV is niet anders dan een lijst met waardes, die gescheiden zijn door komma’s. Dus als je een CSV bestand zou willen maken van alle militairen die gelegen waren in Zeeland, inclusief hun beroepen, in de Tweede Wereldoorlog, dan is het volgende een fictief CSV bestand:
Jan, Janssen, 27, Verkoopmedewerker
Karel, de Groot, 25, Electricien
Joop, van Poppel, 23, Bakker
We hebben daar dus vier ‘waardes’: voornaam, achternaam, leeftijd, beroep. Het is vervolgens tamelijk eenvoudig om het aantal bakkers ten opzichte van de hele ‘populatie’ te berekenen en de gemiddelde leeftijd. Het .csv formaat is neutraal en kan door ieder database programma worden ingelezen, waardoor het de tand des tijds kan doorstaan.
Vervolgens hebben we een aantal checks gedaan om te zien of alles wel goed was gegaan. De eerste check was het kijken naar de zogenaamde ‘outliers’, de extremen. Zo was onze jongste predikant extreem jong, namelijk -160. Ook was er iemand die een wel zeer extreme laatbloeier was en pas op de leeftijd van 125 jaar zijn eerste aanstelling als predikant kreeg. Deze fouten waren er eenvoudig uit te halen. De volgende stap was het schrijven van een aantal ‘regels’ die automatisch fouten uit de data, of uit de conversies, moesten halen. Die regels zijn deels opgesteld met common sense, en deels met historische domeinkennis. Common sense is bijvoorbeeld dat een predikant niet een eerste aanstelling als predikant kan hebben gehad voordat hij werd geboren. Historische domeinkennis is dat een predikant doorgaans niet voor de leeftijd van twaalf jaar werd aangesteld, of dat een locatie als Amsterdam altijd met het Nederlandse Amsterdam wordt geïdentificeerd.
Met deze geconverteerde en opgeschoonde database hebben wij vervolgens allerlei ‘leuke’ dingen gedaan. Als eerste deden we wat simpele, maar zeer nuttige, prosopografische analyses: wat was de gemiddelde leeftijd ten tijde van overlijden; in welke steden waren de predikanten geboren; op welke leeftijd gingen ze gemiddeld met pensioen, et cetera. Interessant was bijvoorbeeld om te zien dat de gemiddelde leeftijd bij een eerste benoeming door de eeuwen heen zeer stabiel bleef, wat suggereert dat een man in deze eeuwen rond dezelfde leeftijd, tussen de 25 en 30 jaar, ‘ging meetellen’. Tegenwoordig zien we personen in machtsposities toch liever op een iets oudere leeftijd. Deze berekeningen waren ook al (deels) door Van Lieburg gedaan, dus die simpele analyses vormden een extra check om te zien of onze geconverteerde dataset betrouwbaar was.
Het werd pas echt spannend toen wij ook gingen kijken naar de mobiliteit van predikanten door de eeuwen heen. Door een koppeling te maken naar Geonames [2], een gigantische database met (historische) plaatsen, hadden wij ook een automatische link naar de geografische coördinaten van iedere locatie. Op die manier konden wij, op beperkte wijze, berekenen hoeveel de predikanten reisden. Als iemand een eerste baan had in Amsterdam, vervolgens naar Delft afreisde voor een nieuwe betrekking, daarna naar het voormalige Nederlands-Indië ging en uiteindelijk terug in Amsterdam overleed, dan kwam daar een bepaald aantal kilometers uit rollen dat hij tijdens zijn werkende leven had afgelegd. Toen we vervolgens het aantal kilometers per predikant groepeerden per periode en daar een gemiddelde van namen, konden we iets zeggen over de mobiliteit van predikanten door de eeuwen heen. Het bleek dat de predikant in de tweede helft van de zeventiende eeuw, dus rond het hoogtepunt van de Gouden Eeuw, met een gemiddelde mobiliteit van 500 kilometer, een stuk mobieler was dan zijn collega’s daarvoor en daarna.
Er zijn nog veel meer mogelijkheden met een dergelijke dataset dan wij uiteindelijk gedaan hebben, zoals het koppelen van de gegevens aan nog veel meer datasets.Het zou bijvoorbeeld interessant zijn om direct links te creëren met relevante krantenartikelen of met museumobjecten. Op die manier wordt het beeld van de Nederlandse predikanten in de geschiedenis steeds rijker.
=================
[1] Wetenschappelijke publicatie hierbij: Serge ter Braake, Antske Fokkens and Fred van Lieburg, ‘Mining Ministers (1572-1815). Using Semi-structured Data for Historical Research‘ in: L.M. Aiello and D. McFarland eds., 6th International Conference on Social Informatics (workshops) (Springer 2014). 279-283.
[2] http://www.geonames.org