SiDoS : similarité de données séquentielles massives

SiDoS est le premier atelier portant sur l’optimisation du calcul de distances sur de gros volumes de données de type séquences. Ce thème est à la croisée des domaines HPC et analyse et exploration de données. L’objectif de l’atelier est de structurer la communauté française traitant de séquences massives et du calcul de leur similarité.

Description et objectif

De nombreux domaines nécessitent l’analyse de gros volumes de séquences de diverses complexités (en termes de périodicité, complétude, multivariée ou non, etc.) et en particulier de leur similarité. On peut citer les domaines aussi variés que le médical (e.g., stratification de patients, alignements de gènes), le social (analyse de trajectoires sémantiques), la science des données (génération et recommandation de pipelines d’exploration), etc.

L’atelier porte sur la définition et l’optimisation du calcul de similarités sur de gros volumes de données de type séquences. Ce thème est à la croisée des domaines HPC (calcul haute performance) et analyse et exploration de données. Il recouvre différents challenges scientifiques : prise en compte de la spécificité des données (séquences, séries, trajectoires, etc.), définition de méthodes de réduction de dimensionalité et indexation, parallélisation du calcul de similarité, adaptation d’approches existantes (par exemple, sur séries temporelles ou données spatio-temporelles), etc.

Cet atelier se veut le point de départ de la structuration de la communauté de recherche travaillant sur ce thème et ces données. Il constitue un temps d’échange entre les membres des communautés traitement de la donnée et HPC.

Thèmes de l'atelier

Définition de similarité entre séquences, spécifique à un type de séquences

Définition de similarité entre séquences, spécifique à un type de séquences
Algorithmes de clustering de séquences
Apprentissage de similarité entre séquences
Techniques de réduction de dimensionalité, indexation, hachage, ... adaptées aux séquences
Modèles de parallélisme implicite pour l’étude de similarité entre séquences
Utilisation des architectures GPU pour optimiser le calcul de similarité
Modèle de parallélisation pour la similarité sur de larges volumes de données
Adaptation aux séquences des approches sur d’autres types de données (séries temporelles, données spatio-temporelles, etc.)
Présentation d’applications ou de banc d’essais faisant usage de similarité entre séquences

Programme

Ouverture (10 minutes)
Session 1 : détection anomalie dans les séries temporelles (présentations invitées)
- Paul Boniol (30 minutes)
  - An introduction to Time series anomaly detection (a data-driven perspective)
- Olivier Teste (30 minutes)
  - Detection d'anomalies dans les series temporelles multivariées, une approche par Données Fonctionnelles
Session 2 : données & challenges (présentations invitées du BRGM)
- Lisa Baulon et Hugo Breuillard (15 minutes)
  - A Novel Machine Learning-based Method for Groundwater Modelling: Application to Similarity Analysis of Aquifer Rainfall Time Response Based on a New Reference Dataset of Groundwater Wells
    - Abstract: Clustering of groundwater level data is crucial for water resource management, as it increases the efficiency of models in distinctly predicting specific hydrogeological patterns in aquifer systems. Traditional methods mostly rely on spatial or time series distance metrics, neglecting the impact of external inputs (rainfall, evapotranspiration, etc.) on aquifer systems. This study introduces an innovative machine learning-based approach to model aquifer systems at the piezometer level. It facilitates a quantitative analysis of the local aquifer dynamics and allows the selection of similar aquifers based on model parameters. Based on a new reference dataset of groundwater wells developed at BRGM, we make use of this technique to select aquifers with similar rainfall time response. Additionally, we demonstrate that the derived selection of analogous wells enhances the predictive performance of groundwater level global forecasting models is significantly enhanced.
- Nathan Borderau et Théophile Lohier (15 minutes)
  - Optimization of high-resolution hyperspectral data processing for the description of drill cores
    - Abstract: Exploring ground resources has become challenging as the need for metalliferous raw materials or for characterisation of underground pollution has increased. Hyperspectral imaging of drill cores has been gaining popularity, especially in mining field, as it allows a fast and reliable estimation of mineral distribution. However, with the increasing resolution of hyperspectral images, the size of the datasets (> 1 Tb) to process is exploding, impairing the capacity of the mineral mapping algorithms to work in near real time. To ensure runtimes compliant with the operational requirements, we develop a framework allowing to reduce the computational cost of hyperspectral images processing. It embeds different algorithms for hyperspectral data pre-processing, spectral and spatial reduction as well as mineral mapping. These last two treatments heavily rely on similarity metrics. We demonstrate the capabilities of this framework by processing a 10-meter core sampled from the closed tin mining site of Abbaretz (France).
Pause
- Session 3 : similarité et données de santé
  - Guillaume Tejedor, Patrick Marcel, Hélène Blasco, Hugo Alarcan, Veronika Peralta et Nicolas Labroche
    - Apprentissage d'une mesure de dissimilarité pour la stratification de patients atteints de la sclérose latérale amyotrophique (papier long, 20 minutes)
  - Lucas Bouclier, Christel Dartigues-Pallez et Johan Montagnat
    - PRO-ACT : Analyse d’un jeu de données longitudinales et complexes Christel (papier court, 15 minutes)
  - Valentin Beauvais and Sophie Robert
    - Développement d'heuristiques pour la recherche de Similarités en Transcriptomique (papier court, 15 minutes)
- Session 4 : similarité de données séquentielles
- Arnaud Duvermy et Thomas Guyet
  - TanaT : une librairie pour l’analyse de données séquentielles (papier long, 20 minutes)
- Hiba Merakchi, Cyril De Runz, Thomas Devogele et Verónika Peralta
  - Mesure de similarité pour les séquences sémantiques de longueurs différentes (papier court, 15 minutes)
Conclusion

Soumissions

Deux types de soumissions sont possibles :

Articles courts : de 2 pages à 4 pages maximum

Articles longs : jusqu'à 12 pages

Les articles longs pourront inclure tout travail de recherche original, description d’application, expérimentation, résumé de papiers internationaux. Les articles courts sont réservés à là description de travaux en cours, de démonstration ou de déclaration d’intention.

Les articles soumis seront relus par 3 membres du comité de programme. Les soumissions devront être au format PDF exclusivement et devront utiliser le format RNTI latex : https://www.editions-rnti.fr/files/RNTI-202208.zip. Les soumissions se feront via easychair : https://easychair.org/conferences/?conf=sidos2025

Les dates de soumission/notification sont celles définies pour EGC 2025 :

Date limite de soumissions des papiers : 01/12/2024

Notification aux auteurs : 13/12/2024

Notification de l’inscription gratuite (organisateur ou invité) : 13/12/2024

Mise en ligne des programmes : 10/01/2025

L'atelier aura lieu le 28/01/2025

Comité de programme

Thomas Devogele (LIFAT)
Laurent d’Orazio (Université Rennes, IRISA)
Christel Dartigues-Pallez (Université Côte d’Azur)
Thomas Guyet (INRIA)
Nicolas Hiot (LIFO)
Nicolas Labroche (LIFAT)
Sébastien Limet (LIFO)
Patrick Marcel (LIFO)
Emmanuel Melin (LIFO)
Sophie Robert (LIFO)
Veronika Peralta (LIFAT)

Organisation

Thomas Devogele, Nicolas Labroche, Veronika Peralta (LIFAT Tours)

Patrick Marcel, Sophie Robert (LIFO Orléans)

SiDoS est lié à l'atelier SIMDAC du GDR MADICS.

Page updated

Google Sites

Report abuse