Corpus

Il corpus It-Ist_CH comprende testi selezionati con l’intento di rappresentare, nel modo più ampio possibile, la variabilità diafasica interna alla varietà “italiano istituzionale svizzero”, bilanciando il campione sulla base dei criteri di consistenza quantitativa e rilevanza comunicativa di ciascun genere e sottogenere testuale di tale varietà.

I testi, raccolti manualmente e rispettando, il più possibile, le caratteristiche grafiche originali (grassetti, corsivi, a capo ecc.), sono tagliati a 1.500 parole (con alcune eccezioni motivate: come nel caso dei testi centrali dell’ordinamento legislativo, che sono stati raccolti nella loro interezza).

La data di pubblicazione è limitata all’ultimo decennio 2010-2020 (sempre con qualche eccezione: come nel caso di alcune leggi che sebbene siano state adottate prima del 2010 risultano ancora in vigore al momento della costituzione del corpus).

I testi sono stati scelti secondo un criterio tematico: in particolare, sono state selezionate quattro tematiche immigrazione e asilo, agricoltura, radiotelevisione, istituzioni – particolarmente rilevanti a livello sociale e politico; i testi riconducibili a questi ambiti sono stati scelti facendo attenzione – dove pertinente – ai rapporti di derivazione tra testi di diverse tipologie (tra leggi e ordinanze, o tra leggi e rapporti).

Accanto ai testi del corpus sono presenti anche files con i metadati corrispondenti, che includono le informazioni necessarie per ogni testo: genere testuale, sottogenere, tematica, titolo (se presente), data di pubblicazione o di adozione, numero ufficiale (se presente), url di riferimento, presenza o meno di un taglio. Per alcune sezioni del corpus si è scelto di aggiungere anche metadati specifici, come il nome dell’account per i testi pubblicati sui social network.

A livello strutturale, il corpus, nel suo complesso, è costituito da tre macro-sezioni: il corpus centrale, i corpora di accompagnamento e i corpora di confronto. Il corpus centrale comprende testi appartenenti ai generi principali dell’italiano istituzionale svizzero, per un totale di 1.325.000 parole. Dal punto di vista tipologico, sono compresi al suo interno quattro generi testuali – i testi normativi, i materiali legislativi, i testi informativi e i testi delle autorità giudiziarie – a loro volta articolati in più sottogeneri. I corpora di accompagnamento ammontano nel complesso a 380.000 parole e danno conto di generi testuali che, per la loro caratterizzazione diamesica, occupano una posizione marginale nella definizione della varietà: i testi scritti dai politici svizzeri e dagli organismi della Confederazione sui social media (con i relativi commenti da parte dei cittadini), e i discorsi scritti per essere letti. I corpora di confronto, infine, assommano circa 1.000.000 di parole e vengono incontro alla necessità di analizzare l’italiano istituzionale svizzero in una prospettiva pluri-comparativa: con le versioni parallele dei testi scritte in tedesco e in francese, con l’italiano istituzionale della Repubblica Italiana e con i testi istituzionali in lingua italiana prodotti nell’ambito dell’Unione europea. Nel suo complesso, il corpus ammonta dunque a circa 2.700.000 parole.

Le tabelle sottostanti forniscono un quadro d’insieme del corpus, precisando le dimensioni delle sezioni da cui è formato:

I testi del corpus, in formato .docx, sono liberamente accessibili per tutte le persone interessate. È possibile accedere al corpus dal seguente link

Il corpus, di proprietà dell'Università di Basilea e del FNS, non può essere utilizzato a fini commerciali, ma soltanto per scopi scientifici, indicando la fonte nel modo seguente:

Il corpus It-Ist_CH è stato raccolto nell'ambito del progetto di ricerca, con sede all'Università di Basilea, L’italiano istituzionale svizzero: analisi, valutazioni, prospettive (n. 100012_192404), finanziato dal Fondo Nazionale Svizzero per la Ricerca Scientifica e diretto da Angela Ferrari.

Per ogni testo citato si richiede inoltre di indicare il codice identificativo corrispondente.

Vi ringraziamo di renderci partecipi dell'utilizzo del corpus contattandoci all’indirizzo seguente: filippo.pecorari@unibas.ch