Ambiti
Di seguito alcuni possibili ambiti di tesi, altri verranno pubblicati. I riferimenti bibliografici sono in fondo. Per ulteriori informazioni scrivere alla mia email istituzionale donatella.firmani at uniroma1.it
Data cleaning and Integration
La pulizia dei dati è un compito fondamentale nella gestione dei dati ed è da lungo tempo di interesse per ricercatori e professionisti. L'integrazione dei dati mira a fornire una visione unificata su diverse fonti di dati, confrontando diverse rappresentazioni delle stesse relazioni ed entità. Domini come il World Wide Web possono fornire migliaia di fonti su entità del mondo reale, tra cui profili di persone o specifiche di prodotti e servizi. L'unificazione può essere impegnativa per le strategie automatizzate, ma può essere relativamente più facile -- anche se non scalabile -- per gli esperti umani. Questo ambito di ricerca si concentra sull'utilizzo della conoscenza umana per la pulizia e l'integrazione dei dati, in combinazione con tecniche statistiche e di apprendimento automatico come i Large Language Models (LLM).
Knowledge Graphs
I grafi della conoscenza (KGs) hanno trovato molte applicazioni in contesti industriali che accademici, il che a sua volta ha motivato considerevoli sforzi verso l'estrazione di informazioni su larga scala da una varietà di fonti. Eppure, anche i KG più grandi soffrono di incompletezza; le tecniche di link prediction (LP) affrontano questo problema. Nonostante la letteratura in crescita rapida sull'argomento, la pratica standard in questo settore è quella di riportare l'accuratezza aggregando su un gran numero di fatti di test in cui alcune entità e relazioni sono molto più rappresentate di altre; consentendo così ai metodi LP di mostrare buoni risultati per cattive ragioni. Questo ambito di ricerca si concentra sulla ricerca di metodi robusti di benchmarking per confrontare i metodi di previsione dei collegamenti basati su embedding.
Explainable Artificial Intelligence
I problemi su integrazione dei dati e Knowledge Graphs discussi nei paragrafi precedenti, anche se ampiamente studiati negli ultimi decenni, rappresentano ancora sfide significative nella gestione dei dati. Diversi lavori recenti hanno iniziato a esplorare l'opportunità di applicare tecniche di deep learning (DL), ottenendo un significativo incremento nelle performance. Questa attività di ricerca studia il problema fondamentale di spiegare le predizioni fatte da tali tecniche, valutandone l'affidabilità e i bias. Trattando il modello DL come un classificatore black box, ci si concentra sulla produzione sia di spiegazioni di salienza, che associano ciascun attributo a un punteggio di salienza, sia di spiegazioni controfattuali, che forniscono esempi di valori che possono invertire la predizione.
Applications
L'attività di ricerca descritta nei paragrafi precedenti si può svolgere sia da una prospettiva teorica che pratica. Inoltre, si possono esplorare diversi scenari di applicazione, tra cui Health, E-learning e IoT. Nel campo Health, ad esempio, si possono utilizzare Knowledge Graphs (KG) specifici del dominio per rendere più efficaci le metodologie di integrazione dei dati nei sistemi sanitari. Nel contesto dell'E-learning, si possono pulire e integrare database di domande a risposta multipla, una componente critica delle piattaforme educative. Nell'ambito dell'IoT, ad esempio, si possono considerare applicazioni come smart manufacturing, optical character recognition e cloud continuum, al fine di estrarre artefatti completi (e.g. tabelle o KGs) che aiutino l'utente umano e facilitino i sistemi decisionali in tempo reale.