SiDoS est le premier atelier portant sur l’optimisation du calcul de distances sur de gros volumes de données de type séquences. Ce thème est à la croisée des domaines HPC et analyse et exploration de données. L’objectif de l’atelier est de structurer la communauté française traitant de séquences massives et du calcul de leur similarité. La première édition de SIDOS a eu lieu durant EGC 2025.
De nombreux domaines nécessitent l’analyse de gros volumes de séquences de diverses complexités (en termes de périodicité, complétude, multivariée ou non, etc.) et en particulier de leur similarité. On peut citer les domaines aussi variés que le médical (e.g., stratification de patients, alignements de gènes), le social (analyse de trajectoires sémantiques), la science des données (génération et recommandation de pipelines d’exploration), etc.
L’atelier porte sur la définition et l’optimisation du calcul de similarités sur de gros volumes de données de type séquences. Ce thème est à la croisée des domaines HPC (calcul haute performance) et analyse et exploration de données. Il recouvre différents challenges scientifiques : prise en compte de la spécificité des données (séquences, séries, trajectoires, etc.), définition de méthodes de réduction de dimensionalité et indexation, parallélisation du calcul de similarité, adaptation d’approches existantes (par exemple, sur séries temporelles ou données spatio-temporelles), etc.
Cet atelier se veut le point de départ de la structuration de la communauté de recherche travaillant sur ce thème et ces données. Il constitue un temps d’échange entre les membres des communautés traitement de la donnée et HPC.
Définition de similarité entre séquences, spécifique à un type de séquences
Algorithmes de clustering de séquences
Apprentissage de similarité entre séquences
Techniques de réduction de dimensionalité, indexation, hachage, ... adaptées aux séquences
Modèles de parallélisme implicite pour l’étude de similarité entre séquences
Utilisation des architectures GPU pour optimiser le calcul de similarité
Modèle de parallélisation pour la similarité sur de larges volumes de données
Adaptation aux séquences des approches sur d’autres types de données (séries temporelles, données spatio-temporelles, etc.)
Présentation d’applications ou de banc d’essais faisant usage de similarité entre séquences
Cette année l'atelier sera en mode hybride : Sidos 2026 | Meeting-Join | Microsoft Teams
9h20 Ouverture
9h30 - 10h30 Présentation invitée
Laurent D'Orazio, Univ Rennes, CNRS, IRISA
Titre : Big Data and similarity, a brief history of cloud data management and perspectives
Résumé : Conceptually introduced in the 1960s, cloud computing is now used in various applications such as healthcare, astrophysics, and smart cities. In this context, data management (from collection to visualization, as well as storage and processing) is crucial. This is why cloud databases have attracted significant attention over the past two decades. This presentation aims to provide a brief history of cloud data management, highlighting key concepts in distributed systems, and data management systems. It will then present some perspectives related to similarity.
10h30 Pause
11h - 12h30
Calcul de jointures floues sur de grandes collections de données JSON en utilisant la similarité sémantique
Alan Petit, Matthew Damigos, Eleftherios Kalogeros et Laurent D’Orazio
Application d’une mesure de similarité floue entre séquences sémantiques de longueurs différentes pour l’analyse des mobilités humaines
Hiba Merakchi, Cyril De Runz, Thomas Devogele et Verónika Peralta Costabel
Partial-Drop DTW : Towards an extension of Drop-DTW for multivariate sequences
Marc Weng, Patrick Marcel, Sophie Robert, Mostafa Bamha et Yousif Elias
Deux types de soumissions sont possibles :
Articles courts : de 2 pages à 4 pages maximum
Articles longs : jusqu'à 12 pages
Les articles longs pourront inclure tout travail de recherche original, description d’application, expérimentation, résumé de papiers internationaux. Les articles courts sont réservés à là description de travaux en cours, de démonstration ou de déclaration d’intention.
Les articles soumis seront relus par 3 membres du comité de programme. Les soumissions devront être au format PDF exclusivement et devront utiliser le format RNTI latex : https://www.editions-rnti.fr/files/RNTI-202208.zip. Les soumissions se feront via easychair : https://easychair.org/conferences?conf=egc2026.
Les dates de soumission/notification sont celles définies pour EGC 2026 :
Date limite de soumissions des papiers : 28/11/2025
Notification aux auteurs : 09/12/2025
L'atelier aura lieu le 27/01/2026
Thomas Devogele (LIFAT)
Laurent d’Orazio (Université Rennes, IRISA)
Christel Dartigues-Pallez (Université Côte d’Azur)
Thomas Guyet (INRIA)
Nicolas Hiot (LIFO)
Nicolas Labroche (LIFAT)
Sébastien Limet (LIFO)
Patrick Marcel (LIFO)
Emmanuel Melin (LIFO)
Sophie Robert (LIFO)
Veronika Peralta (LIFAT)
Thomas Devogele, Nicolas Labroche, Veronika Peralta (LIFAT Tours)
Patrick Marcel, Sophie Robert (LIFO Orléans)
SiDoS est lié à l'atelier SIMDAC du GDR MADICS. La première édition de SIDOS a eu lieu durant EGC 2025.