Atelier IACD - EGC 2025
28 janvier 2025 à Strasbourg
28 janvier 2025 à Strasbourg
L'Intelligence Artificielle centrée sur les données (Data Centric AI, ou DCAI) est une approche prometteuse qui place les données au cœur du processus d'apprentissage automatique, contrairement aux approches traditionnelles centrées sur les algorithmes et les architectures de modèles.
Cette approche est axée sur la qualité, la quantité et la représentativité des données qui sont des facteurs clés de la fiabilité et de la robustesse des systèmes d’IA. En effet, des données mal étiquetées, biaisées ou incomplètes peuvent conduire à des prédictions erronées et à des biais dans les décisions prises par les systèmes d'IA. La DCAI met aussi l'accent sur l’automatisation de tout le pipeline de la science des données incluant la préparation des données, leur nettoyage, leur annotation et leur représentation. Ce paradigme permet le développement de méthodes qui soient plus interprétables et équitables tout en ayant une interaction continue avec l’humain.
L’IA centrée sur les données est une thématique émergente ces dernières années comme le montre les différents ateliers organisés dans les conférences de premier plan (p.ex. NeurIPS 2021, ICDM 2023, ICML 2024, VLDB 2024, WWW 2024). L’objectif de l’atelier est de présenter les travaux des équipes francophones concernant l’IA centrée sur les données (data centric AI), et de fédérer les chercheurs travaillant sur cette thématique.
Automatisation des pipelines de science des données
Ingénierie des caractéristiques
labellisation, augmentation, nettoyage, sélection, agrégation, représentation …
Méthodes centrées sur les données pour l’apprentissage automatique et la fouille de données
interprétabilité, confiance, éthique, biais, …
Génération de jeux de données ou de Benchmarks
génération assistée par des modèles, framework d’évaluation, …
Outils pour l’IA centrée sur les données
Applications de méthodes centrées sur les données
9h -10h30
Introduction (5 min.)
Présentation Invitée (1h) : Industry 4.0 behind marketing, Pierre Colomb.
Présentation Longue (25 min.) : Variables Selection using a Novel Interactive Deep Reinforcement Learning Approach, Rahma Hellali, Zaineb Chelly Dagdia and Karine Zeitouni. pdf
10h30 - 11h : PAUSE - POSTERS
11h -12h30
Présentation Longue (25 min.) : Mislabeled examples detection viewed as probing machine learning models: concepts, survey and extensive benchmark, Thomas George, Pierre Nodet, Alexis Bondu et Vincent Lemaire. pdf
Présentation Longue (25 min.) : Évaluation des stratégies de Mixup sur des ensembles de données déséquilibrés de petite taille, Asmaa Lagrid and Sebastien Fournier. pdf
Présentation Longue (25 min.) : Découverte de Contraintes Monotones pour la Prédiction de Propriétés Physiques des Matériaux, Thamer Mecharnia, Mathieu D'Aquin and Liudmyla Klochko. pdf
Présentation Courte (15 min.) : Méthode automatique pour décider un réentrainement en apprentissage supervisé : application au phénotypage de populations de plantes par imagerie, Lakamy Thiam, Mathis Cordier, Félix Mercier, Angelina El Ghaziri, Nizar Bouhlel and David Rousseau. pdf
12h30-14h : REPAS
14h - 15h30
Présentation Longue (25 min.) : MixMAS: Recherche automatisée d’architectures de fusion des données et d’apprentissage multimodal, Abdelmadjid Chergui and Grigor Bezirganyan. pdf
Présentation Longue (25 min.) : 3D DCGAN Completion and Generation of Broken 3D Objects from a Reduced Datasets, Yahya Hamdi, Nicolas Andrialovanirina, Pierre-Alexandre Hébert, Kélig Mahé and Émilie Poisson Caillault. pdf
Présentation Longue (25 min.) : Pipeline d'Aide à la Découverte et l'Utilisation de Données Ouvertes basées sur les LLM, Antoine Dupuy, Cassia Trojahn, Christophe Baehr and Nathalie Aussenac-Gilles. pdf
Présentation Courte (15 min.) : Interpolation pour l'augmentation de données géo-référencées : Application à la prédiction des adventices de la canne à sucre à La Réunion, Frederick Fabre Ferber, Dominique Gay, Jean-Christophe Soulie, Jean Diatta and Odalric-Ambrym Maillard. pdf
15h30 - 16h : PAUSE - POSTERS
16h-17h30
Présentation Courte (15 min.) : Efficient Data Preprocessing for Ecological Quality Assessment in Marine Environments, Houria Braikia, Sana Ben Hamida and Marta Rukoz. pdf
Présentation Longue (25 min.) : Representation Learning pour la codification des parcours thérapeutiques de patientes atteintes de cancer du sein à partir de données de remboursement : un benchmark pour des tâches de clustering, Marie Guyomard, Anne-Déborah Bouhnik, Louis Tassy and Raquel Urena. pdf
Présentation Courte (15 min.) : Anomaly detection and quality assurance for WEST Tokamak Diagnostics, Feda Almuhisen. pdf
Présentation Longue (25 min.) : ESERAC: Explicabilité SEmantique des Recommandations basée sur l’Apprentissage profond pour la gestion des Crises, Firas Zouari, Chirine Ghedira-Guegan, Khouloud Boukadi and Nadia Kabachi. pdf
LISTE DES POSTERS :
Un pipeline automatisé pour le développement des modèles d’IA prédictifs des niveaux d’eau souterraine au service d’un jumeau numérique environnemental, Vy Thuy Lynh Hoang, Abdallah El Maazouzi and Yann Dantal. pdf
Sélection de données par leurs difficulté pour réduire la quantité nécessaire à la recherche d’hyperparamètres, Gustavo Rodrigues dos Reis, Mario Cortes-Cornax, Adrian Mos and Cyril Labbé. pdf
Utilisation des Réseaux de Neurones Bayésiens pour la Prédiction de la Résistance aux Antibiotiques, Laurent Vouriot, Stanislas Rebaudet, Jean Gaudart and Raquel Urena. pdf
Prédiction de la Peur de la Récidive du Cancer du sein à partir des données de remboursement de soins de santé, Mamoudou Koume, Lorène Seguin, Anne-Déborah Bouhnik and Raquel Urena. pdf
Vers une interprétation robuste des anomalies contextuelles : Le rôle crucial de l’incertitude, Marwa Boulakbech. pdf
Un système de Récupération d’Information bilingue espagnol-nahuatl, Juan-José Guzmán-Landa, Ligia Quintana-Torres, and Juan-Manuel Torres-Moreno. pdf
Conférence Invitée de Pierre Colomb (Vice-président de la technologie à Braincube)
Pierre Colomb possède une vaste expérience dans les domaines de la technologie, du développement de logiciels et de l'ingénierie. Il est vice-président de la technologie chez Braincube, une entreprise spécialisée dans les plates-formes IoT avec des applications professionnelles et expertes conçues pour l'industrie. Il est co-fondateur de VolcampIO, et fondateur et co-dirigeant de Lava Jug. Il intervient aussi dans différents enseignements à l'Université Clermont Auvergne. Il est titulaire d'un doctorat en informatique sur l'évaluation de requêtes dans les systèmes d'intégration standard et étendus. Il nous partagera son expérience et ses réflexions sur les problématiques de l'IA centrée sur les données.
Les articles pourront porter sur des travaux originaux ou correspondre à des travaux déjà acceptés dans des conférences internationales. Ils pourront aussi décrire des solutions mises en place par des entreprises.
Deux types de soumissions :
Articles courts : 2 à 4 pages
Articles longs : 8 à 12 pages
Les soumissions devront être au format PDF exclusivement et devront utiliser le format RNTI latex : https://www.editions-rnti.fr/files/RNTI-202208.zip. Chaque article soumis sera évalué en double aveugle. Les soumissions se feront via easychair : https://easychair.org/conferences/?conf=iacd25
Les dates de soumission/notification sont celles définies pour EGC 2025 :
Date de soumissions : 26/11/2024 29/11/2024
Notification aux auteurs : 13/12/2024
Date de l'atelier : 28/01/2025
Un numéro spécial de la revue RNTI est en cours de préparation sur le thème IA centrée données. Une sélection d'articles de l'atelier sera invitée à soumettre un article étendu à ce numéro spécial.
L'inscription à l'atelier est gratuite (hors repas) si elle est faite avant le 6 janvier. Après cette date, le tarif est de 100 euros. Plus de détails peuvent être trouvés sur le site de la conférence : https://www.egc2025.cnrs.fr/inscription/
Pour s'inscrire, il suffit de compléter le formulaire à l'adresse suivante : https://inscription.egc.asso.fr/event/egc2025/
Zaineb Chelly Dagdia (DAVID, Université de Versailles Saint-Quentin-en-Yvelines )
Guillaume Cleuziou (LIFO, Université d’Orléans)
Matthieu Exbroyat (LIFO, Université d’Orléans)
Khalid Belhajjame (LAMSADE, Université de Paris-Dauphine)
Mohamed Reda Bouadjenek (Deakin University)
Juba Agoun (LIRIS, Université Lumière Lyon 2)
Constance Thierry (IRISA,Université de Rennes 1)
Raquel Urena (SESTIM, Aix-Marseille Université)
Sandro Bimonte (INRAE)
Imen Megdiche (IRIT, INU J-F Champollion)
Davide Guastella (LIS, Aix-Marseille Université)
Sana Sellami (LIS, Aix-Marseille Université): sana.sellami@univ-amu.fr
Frédéric Flouvat (LIS, Aix-Marseille Université): frederic.flouvat@univ-amu.fr