Soldaten in de Eerste Wereldoorlog: naam disambiguatie
Historici houden zich in beginsel bezig met mensen en hun handelen. Digitale historici komen daardoor altijd voor de vraag te staan of de ‘hits’ die ze krijgen bij een zoekopdracht ook daadwerkelijk allemaal over de goede persoon gaan. Een naam als Hieronymus Bosch zal problemen opleveren met de spelling, maar zal over het algemeen niet erg ‘ambigu’ zijn. Veel namen leveren echter grote problemen op bij de identificatie. Schilder Vincent van Gogh had ook een oom met dezelfde naam, die de kranten wel eens haalde als kunsthandelaar. Nog erger wordt het met mensen wiens naam op verschillende manieren gespeld wordt, of bekend stonden zonder achternaam, zoals Erasmus.
Vaak worden deze problemen wel opgemerkt, maar wordt er weinig aan gedaan om ze, met behulp van de computer, op te lossen. Voor dit hoofdstuk kijken we naar het onderzoek dat Bell en Ranade hebben verricht in het Verenigd Koninkrijk, naar soldaten uit de Eerste Wereldoorlog. [1] Ze namen gedigitaliseerde en getranscribeerde records uit the UK National Archives over soldaten uit de eerste Wereldoorlog als basis. Door een combinatie van domeinkennis en ingewikkelde probabiliteitsberekeningen identificeerden ze de personen in hun bronnen.
Als een instantie wil weten wie ze ‘aan de lijn’ hebben vragen ze doorgaans eerst om je geboortedatum. Dat heeft een aantal goede redenen: geboortedata kunnen niet verkeerd gespeld worden en horen slechts bij een beperkt aantal mensen. De kans dat iemand dezelfde achternaam, of zelfs maar een naam die er op lijkt, en geboortedatum heeft is niet heel groot. Tegenwoordig is die kans zelfs nog kleiner, aangezien we onze kinderen niet meer standaard vernoemen naar hun grootouders, maar de klassen volzitten met Jaydens, Jaylins en Milans. Weinig kans daarom dat er neefjes of nichtjes bestaan met dezelfde voornaam van ongeveer dezelfde leeftijd.
Historische bestanden bevatten niet altijd een geboortedatum, zeker niet als je verder teruggaat in de tijd. Iemand kon ‘omtrent 59 jaren oudt’ zijn, en zelfs als een preciezere geboortedatum wordt gegeven is die niet altijd correct. Bell en Ranade hebben te maken met soldaten die logen over hun leeftijd om in dienst te mogen. Met deze domeinkennis was het zaak om de ‘probabiliteit’ dat twee mannen met dezelfde naam, maar een afwijkende leeftijd, toch dezelfden waren omhoog te schroeven voor de leeftijdscategorie 16-20. Aangezien de kans dat een ouder iemand loog over zijn leeftijd veel kleiner was, is ook de kans dat John Smith van 33 jaar oud dezelfde is als de John Smith van 30 jaar een stuk kleiner.
Naamvariaties waren een nog groter probleem. Men nam het vroeger niet zo nauw met een vaste spelling. Bell en Ranade hadden te maken met onder meer de volgende problemen met betrekking tot hun soldaten: regionale spellingsvarianten; de wijze waarop de registrator de naam hoorde en menselijke fouten bij het schrijven, typen of transcriberen. Vooral de ‘t’ en de ‘j’ werden regelmatig door elkaar gehaald. Om die reden werd de kans dat de t en j verwisseld waren opgenomen in hun model, om te voorkomen dat ze goede matches over het hoofd zouden zien.
Ook hebben de auteurs gekeken naar veel voorkomende naamvarianten om te bepalen hoe ‘waarschijnlijk’ het is dat een record correct is, of over dezelfde persoon gaat. Ze hebben hierbij de verschillende nationaliteiten ook in ogenschouw gehouden.‘Patrick Murphy’ is een veel voorkomende Ierse naam en ‘Angus McDonald’ een veel voorkomende Schotse naam. De combinatie van die voor- en achternaam is daardoor waarschijnlijker dan je zou verwachten puur op basis van de voornamelijk Engelse poule van namen waaruit geput werd.
Het automatisch linken gebeurt vervolgens met geavanceerde statistische formules, waar een zekere probabiliteitsscore uit moet rollen. Op basis daarvan kan weer gekeken worden wat er (waarschijnlijk) goed en fout gaat en kunnen de algoritmes worden aangepast. Het werk van Bell en Ranade is een mooi voorbeeld van hoe samenwerking in digital history projecten tussen computerwetenschappers en domeinexperts noodzakelijk is om tot goede resultaten te komen. Het laat ook zien dat hoewel de methode deels te kopiëren is voor andere projecten, dit niet het geval is voor de domeinkennis die in de algoritmes gestopt is. Hoewel subsidiegevers dus graag algemeen toepasbare tools zien, is het door de rijkheid en heterogeniteit van humanities data vaak alleen de methode die overeind blijft voor bredere toepassingen.
==============
[1] Mark Bell, Sonia Ranade, ‘Traces through Time: a Case-study of Applying Statistical Methods to Refine Algorithms for Linking Biographical Data’ in: S. ter Braake et al eds.,Proceedings of the First Conference on Biographical Data in a Digital World 2015, Amsterdam, The Netherlands, April 9, 2015, 24-32.