L’Archivio Diaristico Nazionale si è mosso su più fronti, in questi ultimi anni, per digitalizzare, preservare e rendere maggiormente accessibile il proprio patrimonio.
Il fondo dell’Archivio è costituito da manoscritti, dattiloscritti, immagini fotografiche e alcuni oggetti. L’Archivio riceve testi originali e copie di testi (sono repertoriati originali e copie di originali, così come dattiloscritti e copie di dattiloscritti).
Effettuiamo con il presente documento una ricognizione delle diverse attività svolte per rendere il patrimonio accessibile tramite supporto digitale.
Impronte Digitali
L’Archivio ha iniziato la sua attività di digitalizzazione nel 2010 grazie ad un finanziamento ottenuto dall’allora Fondazione Telecom (oggi fondazione TIM). Questo finanziamento ha permesso di strutturare il progetto IMPRONTE DIGITALI che aveva come obiettivo quello di acquisire su supporto digitale tutto il fondo dell’Archivio. Questo processo si è concluso nel 2016 e ad oggi, i titoli digitalizzati sono circa 7.000 e indicizzati 8.032 (sugli 8.700 titoli circa custoditi dall’Archivio). La maggior parte dei testi è stata dunque digitalizzata, le fotografie sono anch’esse digitalizzate e indicizzate come allegati del diario depositato, solo gli oggetti (ve ne sono molto pochi nei fondi dell’Archivio) non sono ancora stati acquisiti digitalmente.
Tipologia di contenuti digitalizzati, dimensioni e qualità dei file
Il materiale digitalizzato comporta di fatto solamente dei file di immagini in formato JPG o RAW.
I dattiloscritti sono stati acquisiti in formato immagine (JPG) tramite scansione, per i manoscritti originali invece, la parte più preziosa e fragile del fondo, è stata concepita una stanza di digitalizzazione nella quale è stata installata una postazione fotografica realizzata in base alle raccomandazioni del Professor Umberto Parrini della Scuola Normale di Pisa. Tra il 2010 e il 2016 quattro addetti sono stati formati seguendo le sue indicazioni e hanno svolto l’attività di digitalizzazione tramite macchina fotografica, con doppio salvataggio dei files in JPG e in RAW. I file sono tutti di buona qualità, e la presenza di file RAW permette di sfruttare le caratteristiche di un formato ad altissima definizione.
Nel 2016 una mole significativa del fondo, dunque, era stata acquisita.
Ora la digitalizzazione è un’attività istituzionalizzata all’interno dell’Archivio e quando vengono depositati i testi, parallelamente alla loro catalogazione, ne avviene la digitalizzazione. Le digitalizzazioni in corso riguardano solamente i diari ricevuti nell’ultimo anno, il lavoro di digitalizzazione dei diari ricevuti negli anni precedenti è stato finalizzato.
Si è calcolato che l’acquisizione di 7000 rappresenta circa 7 terabyte di materiale, si può quindi dedurre, nell’ottica di una piattaforma di hosting globale (ottica nella quale era stata concepita la digital library dell’Archivio), che per 1000 diari bisogna contare 1 TB (si tratta di un’approssimazione, ovviamente, ma possiamo accordarci orientativamente su queste dimensioni).
Indicizzazioni (e Catalogazione) operate da ADN da acquisire all’interno della piattaforma
L’Archivio Diaristico Nazionale non è considerato un archivio storico e non ha dunque la necessità di rispettare le norme di catalogazione standardizzate in vigore negli archivi nazionali. Le norme di catalogazione attuali sono state stabilite dall’Archivio stesso, seguendo lo schema fornito dal software che ospitava il catalogo online quando è stato concepito, e che altro non è che uno schema acquisito dal mondo bibliotecario e che l’Archivio ha man mano, non senza difficoltà, modificato.
La traccia di questa standardizzazione proveniente dalle biblioteche si nota nella presenza del campo SOGGETTO, consultabile nelle schede dell’Archivio. Tale campo risponde alle norme del SOGGETTARIO NAZIONALE. L’Archivio ha però aggiunto un secondo campo, denominato PAROLE CHIAVE (si tratta di una prassi interna all’Archivio e che costituisce una delle sue particolarità). Tale campo riguarda sempre i contenuti, ma porta su tematiche più ampie e più varie. Porto l’esempio del primo diario che compare sul catalogo online: MAGMA, di Magda Abbondanza. Tra i soggetti (soggetti presenti dunque nel soggettario nazionale) troviamo le parole: Amore, Famiglia, Femminismo, Infanzia/Giovinezza, Introspezione. Tra le parole chiave, troviamo invece “Incomprensioni familiari”. E selezionando tale espressione, vediamo che esistono 602 titoli catalogati sotto queste stesse parole chiave.
Catalogo online
Fino a dicembre 2019, il catalogo era ospitato da terzi tramite il sistema EOSWeb. È a tale data che il catalogo viene “rimpatriato”. Il catalogo appartiene ora integralmente all’Archivio.
Con EOSWeb l’Archivio non possedeva pienamente il controllo dei dati e la catalogazione proveniva dagli standard del mondo bibliotecario. Nel momento in cui è stato comunicato all’Archivio che il sistema EOSWeb sarebbe stato dismesso, l’Archivio ha cominciato a maturare la volontà di possedere il proprio catalogo e ha trovato lo slancio di rinnovare il lavoro effettuato, affidandosi all’azienda e- Simple di Arezzo.
Il catalogo appartiene dunque ora all’Archivio e la catalogazione viene effettuata tramite un software che permette di pubblicare direttamente online la scheda di catalogazione di ogni diario, l’eventuale link verso la piattaforma PDS, per ognuno di quei diari presenti nel corpus della piattaforma, potrebbe dunque essere effettuato direttamente dal personale dell’Archivio.
Digital Library
L’Archivio, sulla scia dell’attività di digitalizzazione e in collaborazione con la Scuola Normale di Pisa (Professor Umberto Parrini), ha riflettuto negli ultimi anni alla creazione di una digital library. Attualmente il cantiere è fermo, ma la riflessione potrebbe essere riavviata avvalendosi degli oltre 7000 titoli già digitalizzati in formato JPG/RAW e affiancando ad essi, progressivamente (si veda il paragrafo sulle trascrizioni relativo all’attività 1.2), gli equivalenti in formato testuale (PDF ricercabile).
Diverse piattaforme tematiche
Nell’ottica di rendere fruibile online un maggior numero di diari, a partire dal 2014 L’Archivio ha cominciato a sviluppare diverse piattaforme digitali.
Queste piattaforme sono state concepite nell’ottica di rendere più accessibili i diari. I primi due progetti sono stati realizzati per ADN da Nicola Maranesi, con la collaborazione del gruppo editoriale L’Espresso (Pier Vittorio Buffa). Per la prima piattaforma La Grande Guerra I Diari Raccontano, è stato raggruppato un fondo di circa 400 testi, analizzato da ricercatori che ne hanno identificato i canali di lettura, dando luogo a metadati storici, tematici, geografici. I ricercatori hanno poi identificato alcuni brani da pubblicare: per ogni diario sono stati pubblicati alcuni passaggi, mai il diario per esteso. Questo ha cominciato a rendere il patrimonio dell’Archivio più accessibile, e non solo a ricercatori, ma anche a docenti, studenti, cittadini. (La piattaforma sulla Grande Guerra è molto utilizzata nelle Scuole). Per questo si è ripetuta l’esperienza per la Seconda Guerra Mondiale (raggruppando in particolare diari del biennio ‘43-’45), reiterando la collaborazione tra l’ADN e il gruppo editoriale L’Espresso. Tale piattaforma non è però ancora online.
Le piattaforme sviluppate dall’Archivio in questi ultimi anni sono le seguenti:
- La Grande Guerra, i diari raccontano https://espresso.repubblica.it/grandeguerra/index.php?ref=twhe
- La Seconda Guerra Mondiale (non fruibile online, ancora in fase di revisione, ma tecnicamente funzionante)
- Elette ed Eletti – piattaforma ibrida, testi dell’Archivio abbinati a contenuti di terzi (illustrazioni, giornali, ecc.)
https://www.eletteedeletti.it
- Italiani all’estero, i diari raccontano (anche questa piattaforma è stata curata da Nicola Maranesi con il supporto di Pier Vittorio Buffa, con il sostegno del Ministero degli Affari Esteri e corrisponde alle aspettative più attuali dell’Archivio) https://www.idiariraccontano.org
- DIMMI, piattaforma legata al progetto DIMMI di Storie Migranti https://www.dimmidistoriemigranti.it
(le narrazioni non sono ancora fruibili online, ma lo saranno entro la fine di quest’anno, 2021. L’operazione è simile a quella effettuata per Italiani all’estero)
Tali piattaforme sono totalmente dissociate dal catalogo online e viaggiano con dinamiche disgiunte, complicando anche le modalità di accesso ai diari e di gestione dei contenuti.
Come già indicato, è dunque necessario che la piattaforma PDS possa essere collegata al catalogo online per rendere completa la capacità di consultazione digitale dei diari.
Sulla base dei risultati dell’attività precedente, relativa allo stato dei materiali digitalizzati, sono stati individuati software più adatti a convertire i manoscritti in testo e a editare le immagini, a partire dalle attuali tecnologie OCR e text-to-speech e dai programmi di elaborazione e post-produzione di immagini correnti, privilegiando ove possibile quelli free-ware.
Sulla base dei risultati emersi, è stato subito evidente quali fossero gli obiettivi in materia di digitalizzazione e quali fossero le criticità da affrontare.
Gli obiettivi dell’attività:
1.Trasformare i file da file di immagini (JPG o RAW) a file di testo
2. Fruibilità dell’integralità dei diari (solamente per un certo tipo di pubblico)
3. Riflettere ai possibili formati di lettura online e ai materiali extra per arricchire l’esperienza di lettura
Problematicità rilevate
Dopo aver esplorato le diverse possibilità di trascrizione proposte dai softwares Speech To Text e dalle tecnologie OCR, ci siamo resi conto che essi presentavano diversi limiti rispetto alle tipologie testuali conservate dall’Archivio. Se si fosse trattato di testi ordinari, in italiano standard, queste soluzioni sarebbero state molto efficaci. Trattandosi però di testi caratterizzati da linguaggi molto peculiari, il margine di errore è molto alto. In effetti le esigenze specifiche imposte dal tipo di linguaggio praticato nei diari e la volontà di rimanere fedeli all’ortografia originale, nonché ai neologismi, ai termini dialettali o modificati, rende l’efficacia di questi softwares particolarmente limitata.
Avvalendoci del consulto di alcuni esperti (Internet Archive e Estense Digital Library), ci siamo resi conto che per il corpus di diari da trattare, il metodo più sicuro e efficace sarebbe stato quello della trascrizione manuale.
Solo con una trascrizione manuale infatti è possibile rispettare le peculiarità linguistiche e le anomalie ortografiche senza che si rendano necessari diversi passaggi di editing.
È per questo motivo che abbiamo optato per questa soluzione e abbiamo costituito una rete di trascrittrici e trascrittori volontari a cui affidare i testi. Il processo di trascrizione è stato avviato in marzo 2021 affidando ad ogni volontario un testo da trascrivere. L’assegnista ha garantito la coordinazione di questo gruppo di trascrittori e risponde alle eventuali domande e dubbi. La rete è composta da dodici persone, ognuna di loro si è occupata di due o tre diari.
Data la natura peculiare della lingua che caratterizza i diari conservati dall'Archivio Diaristico Nazionale (ci sono tante lingue quanti sono i diari, ogni scrittura porta la traccia della zona geografica da cui proviene l'autore, delle contingenze sociali e storiche in cui è vissuto, delle eventuali lacune linguistiche e grammaticali, ecc.) e data l'esigenza dell'archivio di conservare tali peculiarità, dopo aver fatto vari tentativi di trascrizione con softwares OCR e speech to text ( e aver ottenuto, a causa delle peculiarità sopra-elencate, scarsi risulati, in quanto tali softwares tendono a "standardizzare" la lingua e non a rispettarne le stravaganze, si è deciso di procedere con la trascrizione manuale. Si è creata una rete di trascrittrici e trascrittori volontari, ad ogni volontario è stato affidato un testo, creando così una rete di "affidatari"/"protettori" dei testi, nonché primi "lettori" e prima comunità di persone interessate ad utilizzare la piattaforma.
Mettendo il capitale umano al centro del processo di digitalizzazione, abbiamo operato un'inversione rispetto alle dinamiche di digitalizzazione più classiche.
Quando si pensa alla digitalizzazione, in effetti, si immaginano sempre processi tecnici che escludano il lavoro manuale/artigianale, noi invece abbiamo "invertito" questa dinamica tornando in qualche modo alla pratica degli amanuensi, mettendo dunque l'umano al centro del nostro processo di digitalizzazione, facendolo diventare adirittura il motore di tale processo, avvalendoci dei vantaggi di una cura diretta del testo e rispettando i tempi che inevitabilmente questo tipo di processo comporta.
Abbiamo dunque proceduto nel seguente modo: abbiamo selezionato porzioni di diari, di questi diari, manoscritti o pubblicati su supporto cartaceo, abbiamo scansionato le pagine selezionate, le abbiamo inviate ai volontari che avevano espresso la loro volontà di occuparsi di trascrivere dei testi dell'archivio e ci siamo messi in attesa. Piano piano, senza quasi che ce ne accorgessimo, una rete di trascrittrici e trascrittori ha preso forma, i testi mano mano ci sono tornati trascritti, in formato WORD e li abbiamo inseriti in cartelline all'interno di Drive cui andremo attingere i contenuti una volta che il backend della piattaforma sarà pronto e funzionante (l'idea è infatti quella di permettere al curatore della piattaforma di poter attingere direttamente da questi documenti WORD per copia-incollare le selezioni di testo all'interno del back-end, in vista della pubblicazione digitale dei diari dell'archivio).
La rete di trascrittrici e trascrittori viene costantemente nutrita e aggiornata, tramite passaparola (sono spesso i trascrittori stessi che propongono amici trascrittori agll'archivio), calls sui social networks, appelli in presenza durante il Premio Pieve.
All'interno rete di trascrittori, prima rete comunitaria di cittadini lettori e depositari dei testi conservati all'interno dell'Archivio (veri e propri "guardiani dei testi" che potrebbero presentare i testi che hanno trascritto di anno in anno al pubblico del Premio Pieve, in un'ottica di "human performative library"), è presente un gruppo di cinque trascrittrici, residenti nella provincia di Bologna, che lavora collettivamente, organizzando sessioni comuni di lettura e trascrizione.
Siamo andati ad incontrare questo gruppo di volontarie a San Lazzaro di Savena, in maggio 2021. Da questo incontro è nato un video, che si vuole un appello per altri potenziali trascrittrici e trascrittori volontari.
È possibile visionare il video seguendo questo link: video di presentazione delle cinque trascrittrici di Bologna in fase di montaggio.
Tale video sarà inserito anche all'interno della futura piattaforma di storytelling digitale dedicata al patrimonio dell'archivio, nella sezione dedicata alle trascrizioni e ai trascrittori volontari.