Il laboratorio “Machine Learning: email e classificatori di Bayes”, strutturato in modalità intensiva di circa 15 ore, ha come focus quello di mostrare in che modo la matematica e l’informatica possano dialogare per portare alla risoluzione di problemi complessi e di introdurre il concetto di machine learning di tipo supervisionato. Durante il percorso viene chiesto ai ragazzi e alle ragazze di modellizzare il problema proposto, quindi implementare un codice, sul software R, che supporti il modello matematico scelto: in questo modo si è in grado di manipolare tabelle di dati reali, anche di dimensioni significative, che danno un contesto reale all’esperienza.
In particolare, il problema che viene proposto al gruppo classe è quello di creare un classificatore che classifichi le email in arrivo in spam e ham (non spam).
Il percorso è rivolto a studenti e studentesse di quarta e quinta superiore particolarmente interessati/e all'ambito scientifico-matematico-informatico, sia provenienti da indirizzi di tipo scientifico/tecnologico dove la programmazione fa parte del curriculum standard, sia provenienti da indirizzi differenti; in questo senso il percorso può essere visto in un’ottica di orientamento universitario.
Gli obiettivi del percorso sono molteplici, da quelli matematici/informatici a quelli che mettono in gioco le competenze trasversali.
Consolidamento del pensiero probabilistico con particolare focus su:
ragionamento sulla definizione di probabilità e probabilità condizionata;
ruolo delle rappresentazioni nel contesto della probabilità;
introduzione al concetto di eventi condizionatamente indipendenti e all’ipotesi di Naive Bayes.
Sperimentazione dell’idea di interconnessione tra discipline (in particolare matematica e informatica):
introduzione all’utilizzo di un (nuovo) software di programmazione;
sviluppo di un pensiero critico sull’intelligenza artificiale;
maturazione dell’idea di modello matematico come rappresentazione formale di idee e conoscenze relative a un fenomeno per la creazione del quale è necessario attuare delle scelte consapevoli.
Sviluppo di competenze trasversali:
consolidamento e sviluppo di abilità nell’ambito della comunicazione scientifica e in particolare matematica;
potenziamento delle abilità nel lavoro di gruppo.
Per questa attività non è un prerequisito necessario aver già visto dei linguaggi di programmazione e saper programmare: è possibile, infatti, sviluppare le abilità necessarie durante il percorso stesso. È invece necessario conoscere la definizione di probabilità classica e saperla applicare. È inoltre utile aver già visto la definizione di probabilità condizionata ma non è necessario conoscere il Teorema di Bayes. Nel caso in cui si vogliano introdurre in maniera efficace questi argomenti anche in ottica dell'attività si può far riferimento alle attività riportate nella sezione apposita del sito EduLab.
Il laboratorio è pensato per essere distribuito su tre giornate. Crediamo che sia molto importante, per gli e le studenti che scelgono di seguire il percorso, avere la possibilità di fare un’esperienza immersiva, dal momento che per affrontare un problema di questa complessità è necessario avere una continuità anche in senso temporale. In questo modo sarà anche possibile sperimentare l’ambiente di ricerca scientifico. In particolare, la struttura utilizzata è la seguente:
primo giorno, pomeriggio: introduzione al problema della classificazione delle email e prima modellizzazione matematica di un caso semplice con sole due parole chiave;
mattina: introduzione al software e prima implementazione del codice per il modello trovato. Ampliamento del modello con tre parole chiave per avvicinarsi al caso reale;
pomeriggio: seconda parte di modellizzazione matematica e informatica del problema ampliato con 47 parole;
terzo giorno, mattina: implementazione del codice per il modello finale e discussione sulla validazione dello stesso. Incontro con un esperto ricercatore/un'esperta ricercatrice in Machine Learning.
Nelle sezioni del sito relative a ogni giornata è possibile trovare la descrizione dettagliata di tutte le attività proposte con i materiali necessari per lo svolgimento delle stesse.
Questa struttura è pensata per poter proporre il pecorso durante l’anno scolastico; in questo modo, infatti, viene minimizzato il tempo in cui i ragazzi e le ragazze si trovano fuori aula e sono quindi esonerati/e dal normale svolgimento delle lezioni. Nel caso in cui venga proposta durante un periodo non scolastico si può pensare di riadattarla su tre giorni interi, ridistribuendo le ore e i contenuti.
Il progetto è stato realizzato all'interno dell'Alternanza Scuola Lavoro (ASL) e/o dei Percorsi per le Competenze Trasversali e per l'Orientamento (PCTO) e/o dei Percorsi di Orientamento, durante l’anno scolastico 2023/24, nelle seguenti scuole:
Istituto Martino Martini - Mezzolombardo (TN), 11 studenti e studentesse di quarta e quinta superiore, liceo scientifico scienze applicate, dal 14 al 16 novembre 2023, per un totale di 15 ore;
Liceo Scientifico Galilei - Trento (TN), 15 studenti e studentesse di classe quarta scientifico indirizzo intelligenza artificiale, dal 22 al 24 novembre 2023, per un totale di 15 ore;
Liceo B. Russell - Cles (TN), 19 studenti e studentesse di quarta e quinta superiore liceo scientifico tradizionale e liceo scientifico scienze applicate, dal 27 al 29 novembre 2023, per un totale di 15 ore;
ITT Marconi Rovereto - Rovereto (TN), 13 studenti e studentesse di classe quarta tecnico indirizzo Big Data, dal 5 al 7 febbraio 2024, per un totale di 14 ore;
Liceo Ginnasio Statale G. B. Brocchi - Bassano del Grappa (VI), 15 studenti e studentesse di classe quarta e quinta superiore, liceo scientifico tradizionale, liceo scientifico scienze applicate, liceo economico sociale, dal 19 al 21 febbraio 2024, per un totale di 14 ore;
Liceo G. Marconi - Conegliano (TV), 19 studenti e studentesse di classe quarta e quinta superiore, liceo scientifico tradizionale e liceo scientifico scienze applicate, dal 19 al 21 marzo 2024, per un totale di 14 ore.