Stefano Fiori (Università di Torino), Alessandro Flecchia (Università di Torino / LMU München), Enzo Santilli (Università di Torino / KU Leuven).
Lo sviluppo della sociolinguistica laboviana tra gli anni ’60 e ’70 del secolo scorso ha dato un impulso decisivo all’adozione di metodi quantitativi nelle scienze linguistiche: infatti, uno dei primi strumenti impiegati per giustificare l’assunto fondamentale che i fenomeni di variazione nel linguaggio non sono dovuti al caso, ma correlano con diversi fattori, sia interni che esterni alla lingua, in maniera ordinata e strutturata (Weinreich et al. 1968: 99-100), è stata l’applicazione alle cosiddette “regole variabili” (Cedergren / Sankoff 1974) della regressione logistica, affidata alla famiglia di programmi informatici VARBRUL (Sankoff 1988, Paolillo 2018).
Naturalmente, l’impiego di tecniche statistiche non è esclusivo della sociolinguistica variazionista: già all’inizio degli anni ’70, infatti, grazie a Jean Séguy nasceva in Francia la dialettometria, portata poi a maturazione da Hans Goebl (1982), che introdusse tecniche di analisi multivariata in grado di sintetizzare il contributo di più variabili indipendenti, come il clustering gerarchico. Quest’ultimo si distingue dall’analisi di dati multivariati della regressione logistica, nella quale viene stimato l’effetto di più variabili indipendenti su di una sola variabile dipendente (Bailey 2002: 132-133). Il potenziale dell’analisi multivariata, esemplato da tecniche di riduzione dimensionale come l’analisi delle componenti principali o l’analisi fattoriale, è stato presto riconosciuto e adottato in sociolinguistica, in linguistica dei corpora e in seguito anche in linguistica tipologica (Szmrecsányi / Kortmann 2009).
Il continuativo rapporto fra analisi statistica e linguistica ha permesso sin da subito la produzione di utile letteratura manualistica, come ad esempio Woods et al. (1986) e Rietveld / van Hout (1993). In anni più recenti, con il rapido sviluppo della linguistica dei corpora e l’ampia disponibilità di strumenti informatici per l’analisi statistica, gli approcci quantitativi e computazionali alla variazione linguistica si sono largamente diffusi, stimolando la produzione di nuovi manuali dedicati all’utilizzo dell’ambiente R (tanto diretto, come in Baayen 2008 e Levshina 2015 e Winter 2020, quanto indiretto, come in Brezina 2018) per l’analisi di dati linguistici; lo stesso software VARBRUL è ora integrato in R grazie al pacchetto rbrul (Johnson 2009). Parallelamente, la gamma di tecniche disponibili si è di conseguenza ampliata, includendo modelli di regressione a effetti misti e modelli additivi generalizzati (GAM). I primi sono in grado di tenere conto della variabilità individuale dei parlanti, ma anche dei singoli item, aspetti cioè contingenti che non posso essere controllati in fase di raccolta dati, mentre i secondi riescono a descrivere relazioni multivariate non lineari (per entrambi, v. Nerbonne / Wieling 2018).
L’analisi multivariata, in particolare, sembra essere molto promettente per studiare le varietà di lingua come oggetti multidimensionali caratterizzati dalla co-occorrenza di più varianti linguistiche con determinati valori sociali (Berruto 2010, Vietti 2019): alcuni esempi in questo senso sono Ghyselen / De Vogelaer (2018) per il tussentaal delle fiandre, Villena-Ponsoda / Vida Castro (2020) per l’español común in Andalusia e, per l’italiano neo-standard, Cerruti / Vietti (2022). Per l’analisi di variabili alternanti, si sono diffusi metodi di partizione ricorsiva come conditional inference trees e random forests (Strobl et al. 2009), che sono stati recentemente applicati anche a una varietà dialettale dell’Italia settentrionale (Zanini et al. 2023). Sempre in ambito italo-romanzo, le tecniche di clustering e di riduzione dimensionale hanno dato ottima prova di sé nell’analisi socio-dialettometrica di comunità linguistiche minoritarie (Iannàccaro / Dell’Aquila 2009, Vietti 2008); un’analisi GAM è stata condotta sui dati dell’Atlante Lessicale Toscano per modellare l’influenza della geografia sull’impiego di varianti standard (Montemagni et al. 2015), mentre Calamai et al. (2022) hanno impiegato metodi dialettometrici come il clustering probabilistico per quantificare la percezione delle aree dialettali toscane.
Alla luce di quanto detto fin qui, il workshop si propone come sede per la discussione e la diffusione di metodi quantitativi e statistici per l’analisi della variazione nelle lingue, i dialetti e le varietà che compongono lo spazio linguistico italo-romanzo, per le quali, facendo astrazione dalle discipline più esplicitamente sperimentali come la fonetica e la psicolinguistica, questo approccio è stato utilizzato meno frequentemente che altrove (Vietti 2005: 32).
Particolare attenzione sarà posta al problema di come modellizzare la complessità dei fattori che influenzano la variazione, tramite l’analisi di dati multivariati (come nella regressione logistica classica o nell’analisi multipla della varianza) oppure con statistiche multivariate in senso stretto (ad esempio, l’analisi delle componenti principali o l’analisi fattoriale).
Il workshop ambisce ad avere non solo una finalità informativa, ma anche didattica: gli organizzatori auspicano che, alla fine dei lavori, i partecipanti possano aver maturato una conoscenza delle caratteristiche fondamentali delle principali tecniche di analisi statistica, specialmente multivariata, correntemente impiegate nello studio della variazione linguistica. Coerentemente con questo obiettivo, saranno particolarmente apprezzate proposte di contributi che lascino spazio, oltre che alla presentazione dei risultati sperimentali, anche a una introduzione e/o discussione sui metodi impiegati per condurre l’analisi e sul rapporto che intercorre tra questi e la tipologia di dati considerati.
La struttura dei contributi dovrebbe quindi essere (idealmente, ma non obbligatoriamente) la seguente:
- breve introduzione, discussione ed eventuale problematizzazione della metodologia d’analisi adottata;
- presentazione di un caso studio.
Saranno ben accolte proposte che basino le proprie analisi su strumenti quali (l’elenco è puramente esemplificativo e non esaurisce la varietà di tecniche statistiche a disposizione per lo studio del dato linguistico):
• metodi di riduzione dimensionale, tra cui: analisi delle componenti principali (PCA), analisi fattoriale (FA), multidimensional scaling (MDS), analisi della corrispondenza semplice (SCA) e multipla (MCA);
• analisi delle collocazioni;
• analisi delle correlazioni, regressioni lineari (ad es. MANOVA), logistiche e a effetti misti;
• alberi di inferenza e random forests.
Contributi che abbiano come oggetto di studio (i) lingue, varietà di lingua e dialetti italo-romanzi parlati in Italia saranno preferibili, ma verranno valutate anche proposte riguardanti l’analisi di codici appartenenti a (ii) comunità italofone stanziate all’estero (ad esempio: italiano della Svizzera, italiano di diaspora, italiano come heritage language) o a (iii) comunità non italofone stanziate in Italia e in contatto col dominio italo-romanzo (ad esempio: lingue riconosciute dalla 482/’99, lingue di comunità immigrate, eccetera).
Alessandro Vietti (Libera Università di Bolzano)
Silvia Ballarè (Università di Bologna), Massimo Cerruti (Università di Torino), Federica Breimaier (Universität Zürich), Stefano Fiori (Università di Torino), Alessandro Flecchia (Università di Torino / LMU München), Stefania Marzo (KU Leuven), Naomi Nagy (University of Toronto), Enzo Santilli (Università di Torino / KU Leuven), Alessandro Vietti (Libera Università di Bolzano)
Italiano
Le proposte di comunicazione andranno inviate all’indirizzo workshopmultivarsli25@gmail.com entro il 21 febbraio 2025 3 marzo 2025, e dovranno:
• essere consegnate in formato .doc o .pdf;
• essere anonime: in nessun punto del testo dovrà essere possibile risalire all’identità degli autori e/o delle autrici;
• essere scritte in italiano;
• rispettare la struttura:
Titolo
Corpo corpo corpo corpo
Riferimenti bibliografici
• non superare i 5.000 caratteri di lunghezza (spazi inclusi, titolo e bibliografia esclusi);
• specificare chiaramente quali strumenti di analisi multivariata verranno utilizzati per l’analisi dei dati;
• dedicare almeno una parte del riassunto alla descrizione dei dati e dei risultati raggiunti (anche provvisori).
L’e-mail contenente l’allegato con la proposta, invece, dovrà essere redatta come segue:
• Oggetto: Proposta workshop SLI 2025 analisi statistica – [Titolo della proposta]
• Nel corpo andranno indicati nome, cognome, indirizzo e-mail e istituto di affiliazione di tutte/i le/i socie/i proponenti
Le proposte verranno valutate dalle membre e dai membri del Comitato Scientifico secondo la modalità della doppia revisione anonima. Ad ogni proposta verrà attribuito un punteggio sui seguenti aspetti:
• pertinenza con gli scopi del workshop;
• portata della proposta (che verrà valutata sulla base dell’originalità della medesima e della rilevanza e innovatività dei contenuti);
• chiarezza metodologica, soprattutto in relazione al tipo di strumenti d’indagine utilizzati e ai risultati previsti;
• adeguatezza delle indicazioni bibliografiche.
Il Comitato Scientifico notificherà l’esito della valutazione entro il 31 marzo 2025.
Importante: Tutte le relatrici e i relatori dovranno essere regolarmente iscritte/i alla Società di Linguistica Italiana al momento dell'inizio del workshop.
Bailey, Robert. 2002. “The Quantitative Paradigm”. In Jack K. Chambers / Trudgill, Peter / Schilling-Estes, Natalie (a cura di), The Handbook of Language Variation and Change. Oxford, Blackwell: 117-141.
Baayen, Harald R. 2008. Analyzing Linguistic Data. A Practical Introduction to Statistics Using R. Cambridge, Cambridge University Press.
Berruto, Gaetano. 2010. “Identifying dimensions of variation in a language space”. In Auer, Peter / Schmidt, Jürgen E. (a cura di). Language and Space. An International Handbook of Linguistic Variation. Vol. 1: Theories and Methods. New York-Berlin, de Gruyter Mouton: 226-241.
Brezina, Vaclav. 2018. Statistics in Corpus Linguistics: A Practical Guide. Cambridge, Cambridge University Press.
Calamai, Silvia / Piccardi, Duccio / Nodari, Rosalba. 2015. “Quantifying folk perceptions of dialect boundaries. A case study from Tuscany (Italy)”. Journal of Linguistic Geography 10(2): 87-111.
Cedergren, Henrietta / Sankoff, David. 1974. “Variable rules. Performance as a statistical reflection of competence”. Language 50: 233-55.
Cerruti, Massimo / Vietti, Alessandro. 2022. “Identifying language varieties. Coexisting standards in spoken Italian”. In Beaman, Karen V. / Guy, Gregory R. (a cura di). The coherence of linguistic communities: orderly heterogeneity and social meaning. London, Routledge: 261-280.
Goebl, Hans. 1982. Dialektometrie. Prinzipien und methoden des Einsaztes der Numerischen Taxonomie im Bereich der Dialektgeographie. Vienna, Verlag der Österreichischen Akademie der Wissenschaften.
Ghyselen, Anne-Sophie / De Vogelaer, Gunther. 2018. “Seeking Systematicity in Variation: Theoretical and Methodological Considerations on the ‘Variety’ Concept”. Frontiers in Psychology 9: 1-19.
Iannàccaro, Gabriele / Dell’Aquila, Vittorio. 2009. “Calcolare distanze sociolinguistiche; interpretazioni geolinguistiche”. In Consani, Carlo / Desideri, Paola / Guazzelli, Francesca / Perta, Carmela (a cura di), Alloglossie e comunità alloglotte nell’Italia contemporanea. Teorie, applicazioni e descrizioni, prospettive. Atti del XLI Congresso Internazionale di Studi della Società di Linguistica Italiana (Pescara, 27-29 settembre 2007). Roma, Bulzoni. 215-237.
Johnson, Daniel Ezra. 2009. Getting Started with Rbrul: Multinomial Logistic Regression for Linguistic Research. Disponibile in rete all’indirizzo: http://www.danielezrajohnson.com/rbrul.html.
Levshina, Natalia. 2015. How to do Linguistics with R. Data exploration and statistical analysis. Amsterdam & Philadelphia, John Benjamins.
Montemagni, Simonetta / Wieling, Martijn / Nerbonne, John. 2015. “The contribution of dialectometry to the study of the dialects of Italy. A case study on Tuscan”. Italian Dialect Meeting 2015 & CIDSM X, Leiden University-Centre for Linguistics, 23 June 2015.
Nerbonne, John / Wieling, Martijn. 2018. “Statistics for Aggregate Variationist Analyses”. In Boberg, Charles / Nerbonne, John / Watt, Dominic (a cura di), The Handbook of Dialectology. Oxford, Wiley-Blackwell: 400-414.
Paolillo, John C. 2018. “Logistic Regression Analysis of Linguistic Data”. Boberg, Charles / Nerbonne, John / Watt, Dominic (a cura di), The Handbook of Dialectology. Oxford, Wiley-Blackwell: 384-399.
Rietveld, Toni / van Hout, Roeland. 1993. Statistical Techniques for the Study of Language and Language Behaviour. New York-Berlin, de Gruyter Mouton.
Sankoff, David. 1988. “Variable rules”. In Ammon, Ulrich / Dittmar, Norbert / Mattheier, Klaus J. (a cura di), Sociolinguistics: An International Handbook of the Science of Language and Society, vol. 2. New York-Berlin, de Gruyter Mouton: 984-97.
Strobl, Carolin / Malley, James / Tutz, Gerhard. 2009. «An introduction to recursive partitioning: rationale, application, and characteristics of classification and regression trees, bagging, and random forests”. Psychol Methods 14(4): 323-348. doi:10.1037/a0016973.
Szmrecsanyi, Benedikt / Kortmann, Bernd. 2009. “Vernacular Universals and Angloversals in a Typological Perspective”. In Filppula, Markku / Klemola, Juhani / Paulasto, Heli (a cura di), Vernacular Universals and Language Contacts. Evidence from Varieties of English and Beyond. London, Routledge: 33-53.
Vietti, Alessandro. 2005. “Approcci quantitativi all’analisi della variazione linguistica: il caso di GOLDVARB 2001”. Linguistica e Filologia 20: 31-69.
Vietti, Alessandro. 2008. “Contesti d’uso in repertori linguistici complessi. Tentativi di descrizione multidimensionale dei dati della Survey Ladins”. Mondo Ladino 31: 239-266.
Vietti, Alessandro. 2019. “La varietà di lingua come insieme di tratti coerenti: verso una caratterizzazione empirica”. Rivista Italiana di Dialettologia 43: 11-32.
Villena Ponsoda, Juan Andrés / Vida-Castro, Matilde. 2020. “Variation, identity and indexicality in Southern Spanish: On the emergence of a new variety in urban Andalusia”. In Cerruti, Massimo / Tsiplakou, Stavroula (a cura di). Intermediate Language Varieties. Koinai and regional standards in Europe. Amsterdam & Philadelphia, John Benjamins: 149-182.
Weinreich, Uriel / Labov, William / Herzog, Marvin. 1968. “Empirical foundations for a theory of language change”. In Lehmann, Winfred P. / Malkiel, Yakov (a cura di), Directions for Historical Linguistics: A Symposium. Austin, TX: University of Texas Press. 95-188.
Winter, Bodo. Statistics for Linguists: An Introduction Using R. New York & London, Routledge.
Woods, Anthony / Fletcher, Paul / Hughes, Arthur. 1986. Statistics in Language Studies. Cambridge, Cambridge University Press.
Zanini, Chiara / Battistella, Greta / Gardani, Francesco. 2023. L’è ciaro che se dise cusì. On Change in the System of Expletive Subject Clitics in Opitergino. Journal of Linguistics, 1-41. doi: 10.1017/S0022226723000282.