SiDoS est le premier atelier portant sur l’optimisation du calcul de distances sur de gros volumes de données de type séquences. Ce thème est à la croisée des domaines HPC et analyse et exploration de données. L’objectif de l’atelier est de structurer la communauté française traitant de séquences massives et du calcul de leur similarité.
Description et objectif
De nombreux domaines nécessitent l’analyse de gros volumes de séquences de diverses complexités (en termes de périodicité, complétude, multivariée ou non, etc.) et en particulier de leur similarité. On peut citer les domaines aussi variés que le médical (e.g., stratification de patients, alignements de gènes), le social (analyse de trajectoires sémantiques), la science des données (génération et recommandation de pipelines d’exploration), etc.
L’atelier porte sur la définition et l’optimisation du calcul de similarités sur de gros volumes de données de type séquences. Ce thème est à la croisée des domaines HPC (calcul haute performance) et analyse et exploration de données. Il recouvre différents challenges scientifiques : prise en compte de la spécificité des données (séquences, séries, trajectoires, etc.), définition de méthodes de réduction de dimensionalité et indexation, parallélisation du calcul de similarité, adaptation d’approches existantes (par exemple, sur séries temporelles ou données spatio-temporelles), etc.
Cet atelier se veut le point de départ de la structuration de la communauté de recherche travaillant sur ce thème et ces données. Il constitue un temps d’échange entre les membres des communautés traitement de la donnée et HPC.
Thèmes de l'atelier
Définition de similarité entre séquences, spécifique à un type de séquences
Définition de similarité entre séquences, spécifique à un type de séquences
Algorithmes de clustering de séquences
Apprentissage de similarité entre séquences
Techniques de réduction de dimensionalité, indexation, hachage, ... adaptées aux séquences
Modèles de parallélisme implicite pour l’étude de similarité entre séquences
Utilisation des architectures GPU pour optimiser le calcul de similarité
Modèle de parallélisation pour la similarité sur de larges volumes de données
Adaptation aux séquences des approches sur d’autres types de données (séries temporelles, données spatio-temporelles, etc.)
Présentation d’applications ou de banc d’essais faisant usage de similarité entre séquences
Programme
Ouverture (10 minutes)
Session 1 : détection anomalie dans les séries temporelles (présentations invitées)
Paul Boniol (30 minutes)
Olivier Teste (30 minutes)
Session 2 : données & challenges (présentations invitées du BRGM)
Lisa Baulon et Hugo Breuillard (15 minutes)
A Novel Machine Learning-based Method for Groundwater Modelling: Application to Similarity Analysis of Aquifer Rainfall Time Response Based on a New Reference Dataset of Groundwater Wells
Abstract: Clustering of groundwater level data is crucial for water resource management, as it increases the efficiency of models in distinctly predicting specific hydrogeological patterns in aquifer systems. Traditional methods mostly rely on spatial or time series distance metrics, neglecting the impact of external inputs (rainfall, evapotranspiration, etc.) on aquifer systems. This study introduces an innovative machine learning-based approach to model aquifer systems at the piezometer level. It facilitates a quantitative analysis of the local aquifer dynamics and allows the selection of similar aquifers based on model parameters. Based on a new reference dataset of groundwater wells developed at BRGM, we make use of this technique to select aquifers with similar rainfall time response. Additionally, we demonstrate that the derived selection of analogous wells enhances the predictive performance of groundwater level global forecasting models is significantly enhanced.
Nathan Borderau et Théophile Lohier (15 minutes)
Optimization of high-resolution hyperspectral data processing for the description of drill cores
Abstract: Exploring ground resources has become challenging as the need for metalliferous raw materials or for characterisation of underground pollution has increased. Hyperspectral imaging of drill cores has been gaining popularity, especially in mining field, as it allows a fast and reliable estimation of mineral distribution. However, with the increasing resolution of hyperspectral images, the size of the datasets (> 1 Tb) to process is exploding, impairing the capacity of the mineral mapping algorithms to work in near real time. To ensure runtimes compliant with the operational requirements, we develop a framework allowing to reduce the computational cost of hyperspectral images processing. It embeds different algorithms for hyperspectral data pre-processing, spectral and spatial reduction as well as mineral mapping. These last two treatments heavily rely on similarity metrics. We demonstrate the capabilities of this framework by processing a 10-meter core sampled from the closed tin mining site of Abbaretz (France).
Pause
Session 3 : similarité et données de santé
Guillaume Tejedor, Patrick Marcel, Hélène Blasco, Hugo Alarcan, Veronika Peralta et Nicolas Labroche
Apprentissage d'une mesure de dissimilarité pour la stratification de patients atteints de la sclérose latérale amyotrophique (papier long, 20 minutes)
Lucas Bouclier, Christel Dartigues-Pallez et Johan Montagnat
PRO-ACT : Analyse d’un jeu de données longitudinales et complexes Christel (papier court, 15 minutes)
Valentin Beauvais and Sophie Robert
Développement d'heuristiques pour la recherche de Similarités en Transcriptomique (papier court, 15 minutes)
Session 4 : similarité de données séquentielles
Arnaud Duvermy et Thomas Guyet
TanaT : une librairie pour l’analyse de données séquentielles (papier long, 20 minutes)
Hiba Merakchi, Cyril De Runz, Thomas Devogele et Verónika Peralta
Mesure de similarité pour les séquences sémantiques de longueurs différentes (papier court, 15 minutes)
Conclusion
Soumissions
Deux types de soumissions sont possibles :
Articles courts : de 2 pages à 4 pages maximum
Articles longs : jusqu'à 12 pages
Les articles longs pourront inclure tout travail de recherche original, description d’application, expérimentation, résumé de papiers internationaux. Les articles courts sont réservés à là description de travaux en cours, de démonstration ou de déclaration d’intention.
Les articles soumis seront relus par 3 membres du comité de programme. Les soumissions devront être au format PDF exclusivement et devront utiliser le format RNTI latex : https://www.editions-rnti.fr/files/RNTI-202208.zip. Les soumissions se feront via easychair : https://easychair.org/conferences/?conf=sidos2025
Les dates de soumission/notification sont celles définies pour EGC 2025 :
Date limite de soumissions des papiers : 01/12/2024
Notification aux auteurs : 13/12/2024
Notification de l’inscription gratuite (organisateur ou invité) : 13/12/2024
Mise en ligne des programmes : 10/01/2025
L'atelier aura lieu le 28/01/2025
Comité de programme
Thomas Devogele (LIFAT)
Laurent d’Orazio (Université Rennes, IRISA)
Christel Dartigues-Pallez (Université Côte d’Azur)
Thomas Guyet (INRIA)
Nicolas Hiot (LIFO)
Nicolas Labroche (LIFAT)
Sébastien Limet (LIFO)
Patrick Marcel (LIFO)
Emmanuel Melin (LIFO)
Sophie Robert (LIFO)
Veronika Peralta (LIFAT)