closed

CDD 12 mois, Ingénieur(e) Business Intelligence, Irstea, Clermont Ferrand

« Finalisation Implémentation et chargement d’un entrepôt de données pour l’analyse des données (spatiales) d’agri-biodiversité »

Contexte

Dans le cadre du projet ANR VGI4bio.fr un CDD de 12 mois pour travailler en stricte collaboration avec les partenaires du projet est financé.

L’importance de la protection de la biodiversité et sa relation aux pratiques agricoles est bien connue. Pour construire les indices de biodiversité, des données d'observation sont nécessaires à grande échelle spatiale et temporelle. Un grand nombre d'observateurs doit être mobilisé, à un coût qui serait prohibitif à moins qu'ils ne soient volontaires dans des programmes de science citoyenne. Dans ce cadre intervient l’Observatoire Agricole de la Biodiversité (OAB) qui se propose de faire remonter des données de biodiversité dans le milieu agricole (en particulier pour les systèmes en arboriculture, cultures pérennes, grandes cultures, maraichage, prairie et viticulture et sur 4 types de taxon). L’OAB est pilotés par le Ministère en charge de l'Agriculture. Quatre protocoles sont actuellement proposés concernant des taxons choisis et mis en place depuis 2011. L’OAB est structuré en relais départementaux, qui mettent en oeuvre la récolte de données. Aussi les données volontaires mobilisées par la Ligue de Protection des Oiseaux Aquitaine (LPO) seont mobilisées.

Dans ce contexte, le projet ANR en cours VGI4Bio (vgi4bio.fr), démarré en 2018, vise à proposer une méthodologie pour permettre aux volontaires de concevoir les indicateurs de biodiversité agricole dans une démarche participative et les implémenter dans les systèmes d’entrepôts de données spatiales (EDS) et OLAP spatial (SOLAP). Les systèmes SOLAP permettent l’analyse de grandes quantités de données via des interfaces web avec des tableaux de bords composés de tableaux croisés dynamiques et cartes interactives. Le succès d’un projet SOLAP repose essentiellement sur deux facteurs : (i) une conception d’un modèles de données EDS et (ii) une représentation cartographique conforment aux attentes et aux besoins de décideurs.

Objectifs

Les objectifs principaux du CDD sont : (1) la finalisation du modèle d’entrepôts de données spatiales et du processus d’ETL ; (2) le déploiement de l’outil SOLAP sur un serveur web pour mettre à disposition des décideurs l’entrepôt de données.

Pour attendre l’objectif une analyse des besoins d’analyse des partenaires en écologie-agronomie doit être finalisée. Ces besoins d’analyse concernent les données à analyser mais aussi les méthodes de geovisualization à utiliser. En plus, la complexité de données de l’OAB et LPO nécessite de mettre en place des structures d’entrepôts de données spatiales qui nécessitent des réflexions importantes pour pouvoir les implémenter dans l’architecture SOLAP du projet vgi4bio.

Le projet de stage nécessite donc de :

1. Travailler sur les entrepôts de données

2. Travailler avec des vrais décideurs et problèmes d’analyse

3. Travailler en équipe

4. Travailler dans une vraie architecture OLAP

Planning

1. Etude de l’entrepôt de données existant

2. Etude de besoins d’analyse

3. Extension du modèle d’entrepôt de données existant

4. Extension de l’ETL existant

5. Configuration du serveur web pour la mise en ligne de l’application OLAP

6. Définition des politiques d’accès à l’application en ligne

Compétences

1. Entrepôts de données et OLAP (Mondrian est un plus)

2. ETL (Talend est un plus)

3. SGBD (Postgres est un plus)

Des connaissances en SIG et données spatiales est un plus important

Détails administratifs

Lieu : Irstea, Clermont Ferrand

Dates : Debut en 2020

Encadrant : Sandro Bimonte, Irstea Clermont Ferrand

Envoyer le CV et lettre de motivation à sandro.bimonte@irstea.fr

NOTA BENE : tous les étudiants (M2, doctorant, postdoc, etc.) ayant travaillé dans l’équipe de l’encadrant sur les thématiques OLAP ont trouvé un emploi après le stage (https://sites.google.com/site/sandrobimonte/students/students-follow-up)

Ici une proposition de poste contractuel

1. Offre de thèse

2. Offre de CDD

*******************************************************************************************************************************

Offre de thèse

Dans le cadre du projet ANR "VGI users & data centered methods for the analysis of farmland biodiversity indicators: A participative SOLAP approach for opportunistic data"l'Institut de Recherche en Informatique de Toulouse

(IRIT) , et Irstea de Clermont-Ferrand proposent une thèse en informatique avec une application au domaine de l'agro-écologie.

Contexte

Avec l'explosion des technologies VGI (Volunteer Geographic Information) [3] de plus en plus de données sont produites par des utilisateurs volontaires. Ces données géospatiales sont exploitées par les systèmes de GeoBusiness Intelligence (GeoBI) pour aider les décideurs dans la prise de décision

Parmi les systèmes GeoBI, les outils Spatial OLAP (SOLAP) permettent l'analyse spatio-multidimensionnelle gros volumes de données via des affichages graphiques et cartographiques.

Objectifs

La conception des systèmes SOLAP est classiquement fait via des méthodologies hybrides [4], qui prennent en compte les données sources et les besoins utilisateurs. Si ces méthodologies ont bien été utilisées dans plusieurs domaines d'applications, elles semblent inefficaces dans le contexte du VGI vu le nombre important de producteurs et utilisateurs des données. En effet, les méthodologies de conception SOLAP existantes se basent sur un nombre très limités d’utilisateurs et donc besoins d'analyse [1].

L'objectif principale de ce travail de thèse est de concevoir une méthodologie de conception SOLAP qui prenne en compte un nombre important d'utilisateurs.

Pour ce faire, ce travail se basera sur les principes de Group Decision Support Systems (GDSS). Les GDSS via des outils de décision collaborative permettent de trouver la meilleur solution, vu comme un consensus parmi les différents décideurs [2].

Les contributions de ce travail de thèse seront validées avec les données de biodiversité et les volontaires fournies par la Ligue de Protection des Oiseux.

Compétences requises

OLAP et ou Group Decision Support Systems

Programmation Java

Base de données

Encadrants

Pascale Zaraté, IRIT

Sandro Bimonte, Irstea de Clermont-Ferrand

Lieux

La thèse se déroulera en cotutelle entre IRIT de Toulose et Irstea de Clermont-Ferrand (Equipe COPAIN)

L’étudiant sera donc 18 mois sur Toulouse et 18 mois sur Clermont-Ferrand

Contacts

Sandro Bimonte.sandro.bimonte@irstea.fr

Pascale Zaraté. Pascale.Zarate@ut-capitole.fr

For other possibilities look on the DW et OLAP linkedin group here

*******************************************************************************************************************************

Intitulé du poste : Ingénieur Informaticien

Type de contrat : CDD de 18 mois

Rémunération : 3500 brut

Début du contrat : Janvier-Fevrier 2018

Lieu de travail : MNHN Paris

Contexte du poste :

Ce poste s'inscrit dans le cadre du projet ANR VGI4Bio. Ce projet de recherche vise à adapter les systèmes OLAP spatiaux à des données participatives, dans le cadre d'études sur la biodiversité. En effet, les bases de données de biodiversité participatives actuelles ne permettent ni la conduite d'analyses multidimensionnelles, en raison de leur modélisation, ni la définition d'indicateurs, en raison de leur faible qualité.

Le projet est porté par différents instituts de recherche : le Musée National d'Histoire Naturelle (MNHN), l'Institut de Recherche en Informatique de Toulouse (IRIT), l'Institut de Recherche en Sciences et Technologies pour l'Environnement et l'Agriculture (IRSTEA) de Clermont-Ferrand. Il est en collaboration avec une association naturaliste spécialisée dans l'étude des oiseaux sauvages (LPO) et l'entreprise Geosystems France

Description du poste :

Deux tâches seront confiées à l'ingénieur recruté.

Durant les 6 premiers mois du contrat, l'ingénieur recruté se consacrera à la préparation des données. L'objectif est d'identifier et de préparer un ensemble de données de test à partir de données existantes. Ces données existantes sont réparties dans différentes bases de données qui doivent être intégrées. L'ingénieur recruté devra assurer la migration des données vers une base de données unique, dont le schéma est à concevoir. Il s'intéressera notamment à la validité des données existantes, et produira une dictionnaire d'interopérabilité entre les données issues des bases existantes. Il mettra en place un outil Extract-Transform-Load (ETL) pour la mise en œuvre de la migration des données.

Durant les 12 mois suivants, l'ingénieur recruté définira un ensemble de méthodes de géo-visualisations représentatives des différents besoins et compétences analytiques des utilisateurs. Pour définir ces méthodes, il devra rencontrer les utilisateurs et recueillir les besoins exprimés. Après cette étape de définition des besoins, et en s'appuyant sur les données intégrées durant la première tâche, l'ingénieur recruté implémentera ces méthodes sur un système Spatial OLAP en lien avec l'entreprise Geosystems France

Profil attendu : Minimum Bac+5 en informatique

Les compétences nécessaires sont :

-systèmes OLAP (par exemple Mondrian, Oracle, MDX, ...)

-bases de données (par exemple Postgres, ...)

-developpement applications web (par exemple Tomcat, services web, java scripts, ajax, ...)

-Java

Une expérience des SIG, des systèmes Spatial OLAP ou de Map4Decision sera un plus.

Le candidat devra être rigoureux, organisé et à l'aise dans un contexte de travail pluridisciplinaire.

Contacts scientifiques :

Sandro Bimonte, sandro.bimonte@irstea.fr – Irstea Clermont-Ferrand

Elodie Edoh-Alove, edoh-alove@geosystems.fr - Geosystems, Paris

Benoît FONTAINE benoit.fontaine@mnhn.fr - MNHN, Paris

Equipe d’accueil :

Equipe COPAIN, laboratoire de recherche « Technologies et système d’information pour les agro-systèmes » (UR TSCF), Irstea, centre de Clermont-Ferrand http://www.irstea.fr/tscf

Projet : CAPTIVEN (lauréat des appels "Carnot PME") financé par l’ANR.

Diplôme demandé : Master ou ingénieur ou doctorat, en informatique décisionnelle ou géomatique.

Salaire : niveau ingénieur d’étude

Durée : 8 mois

Date de début : en 2016 selon disponibilité du candidat Responsable : Sandro Bimonte, chargé de recherche, HDR, https://sites.google.com/site/sandrobimonte/home

Description du travail :

L’équipe COPAIN travaille en collaboration avec la société Clermontoise en informatique Agaetis (spécialisé en « Big Data »), sur la conception d’un système d’entrepôt de données pour le stockage et le traitement de gros volumes de données géoréférencées de type champs continus.

L’objectif du travail sera la conception d’un ensemble d’outil logiciel améliorant l’utilisation d’un système OLAP spatial, mis en place dans le cadre de travaux de recherche précédents autour des entrepôts de données pour les champs continus.

Les tâches seront :

1. La conception de fonctions de configuration du système OLAP spatial 2. La conception d’une interface d’affichage cartographique adapté aux résultats des requêtes 3. La mise en place de tests et benchmarks.

Le projet est réalisé en collaboration avec l’entreprise Clermontoise Agaetis, partenaire du projet.

Connaissance souhaitée :

Le candidat devra connaître au moins l’un des sujets :

- Base de données et Entrepôts de données, OLAP – les outils utilisés dans le projet sera Mondrian et Postgres/Postgis

- Cartographie Web (Openlayers, etc.)

Merci de contacter rapidement :

Sandro Bimonte (encadrant), sandro.bimonte@irstea.fr, tél : 04 73 44 06 66 ou François Pinet (responsable de l’équipe COPAIN), francois.pinet@irstea.fr, tél : 04 73 44 06 26

*************************************************************************************************************************************

OFFRE DE THÈSE SUSCEPTIBLE D’ÊTRE FINANCÉE

Titre : Handling missing data in Spatial big data warehouse: application to agricultural data

Equipement structurant : CRI

Labos impliqués : LIMOS (1) – IRSTEA (2) – CRGM (3)

Encadrants : Engelbert Mephu Nguifo1, Sandro Bimonte2, Libo Ren1,3

Date de début envisagée : Octobre 2015

Pour candidater envoyez un CV detaillé et vos notes de M2 à: sandro.bimonte@irstea.fr; mephu@isima.fr et ren@isima.fr

Résumé :

Nowadays more and more spatial data are available from sensors networks, Web data, open data, etc (spatial big data). Simulation models require more and more data for example for calibration, but in this context several quality issues arise that have important drawbacks on the success of geo-business intelligence projects. In particular, missing values are usually present in these huge quantities of spatial data limiting analysis capabilities for spatial decision-makers the goal of this PhD thesis is to provide some new methods issued from data mining, statistics and linear programming to handle missing data.

These methods should be scalable and time performing in order to being be applied to big data. Parallel and distributed processing of our approach will be developed in the PhD thesis. Our contribution will be validated with various agricultural data related to resource management. Technologies such as SPARK/SHARK [13] or MapReduce [14] will be targeted in the thesis. The CRI-Auvergne infrastructure will be needed for the development of our approach.

Description détaillée

Contexte et problématique

Aujourd’hui, grâce aux nouveaux moyens d’acquisition (données du Web, réseaux de capteurs, etc.) de plus en plus de sources de données spatiales sont disponibles pour des fins analytiques (« Spatial Big Data ») pour alimenter les modèles de simulation. Un entrepôt de données spatiales (EDS) est une « collection de données spatiales orientées sujet, intégrées, non volatiles et historisées, pour l’aide à la décision » (Bédard et al. 2001) exploitables pour alimenter les modèles (voir Truong et al., 2014). Ces données sont analysées en utilisant les opérateurs SOLAP qui permettent l’exploration en ligne des données entreposées selon le modèle spatio-multidimensionnel. Les opérateurs SOLAP intègrent des fonctions d’agrégation qui permettent la visualisation des données à différents niveaux de détails ou granularités. Au niveau des granularités fines, on retrouve les données détaillées ou micro données, alors que les données agrégées sont retrouvées au niveau des granularités élevées. Les données ou mesures agrégées résultent des calculs (somme, moyenne, etc.) opérés sur les données détaillées. Cependant, les valeurs incomplètes sont endémiques aux bases de données (Dyreson et al., 2003). Cette assertion est valable pour les EDSs. Leur présence peut influencer négativement la qualité des mesures agrégées (décisionnelles), puisque les résultats des analyses fondées sur des données incomplètes peuvent êtres inexacts (Dyreson et al., 2003).

La définition et l’implémentation des EDS pour le Spatial Big Data représentent une piste prometteuse et peu explorée car elle implique la redéfinition des concepts principaux des EDS classiques (stockage, operateurs d’analyse et restitution). En effet, le Spatial Big Data concerne les données géographiques issues des capteurs et modèles de simulation. Ces derniers produisent des grandes quantités de données hétérogènes à différentes échelles spatio-temporelles avec de nombreux problèmes de qualité (Bimonte, 2015 ; Shekhar et al. 2012).

Dans ce cadre particulier, les méthodes pour la gestion de la qualité des données et en particulier l’incomplétude de données tel quel définies dans les EDSs classiques (Koueya et al., 2014) doivent être reformulées : « Quelles sont les données « utiles » pour l’estimation des données manquantes ? », « Comment exploiter la variété de données pour l’estimation des données manquantes ? », « Comment définir des méthodes d’estimation efficaces en temps de calcul ? », « Comment restituer aux décideurs les données estimées et les données originales dans les outils SOLAP ? ».

Dans ce projet, nous expérimenterons nos travaux sur l’évaluation des données manquantes pour l’analyse et la gestion des ressources des exploitations agricoles. Les données de base utilisées seront des gros volumes de données spatiotemporelles issus notamment du Web et de réseaux de capteurs. Un exemple d’utilisation des données est de prévoir les répercussions de changement de certaines pratiques sur les exploitations agricoles. Cette expérimentation se fera dans la suite des données collectées et identifiés dans précédents projets d’IRSTEA, tels que les projets Energetic et EDEN (Bimonte et al., 2013).

Etat de l'art:

La présence de valeurs manquantes dans les bases de données est un problème ancien qui s’est toujours posé lors de l’exploitation de données réelles (Rubin, 1976 ; Rioult, 2005). Ce problème est abordé dans de nombreux domaines tels que la statistique, les bases de données, la fouille de données etc., et de nombreuses solutions sont proposées (Wohlrab L. et Furnkranz J., 2011 ; Eekhout I, et al., 2012). Notons que l’estimation ou la prédiction occupe une part importante dans ces solutions. Dans le contexte des bases de données multidimensionnelles (BDM), plusieurs travaux visent à réutiliser les solutions existantes dans d’autres domaines. Les travaux, tels que Abdelbaki et al. (2012), Rabasèda et al. (2011) s’orientent vers le couplage des cubes de données OLAP à la fouille de données, afin de tirer avantage des méthodes éprouvées de prédiction disponibles. Dans la proposition de Xintao et al. (2002), les modèles logistiques et log linéaires sont combinés pour estimer les valeurs manquantes à partir des exemples connus. D’autres travaux (Ahmed et Miquel, 2005) s’inscrivent dans le contexte spatio-temporel et utilisent les fonctions d’interpolation spatiales et temporelles pour l’estimation des faits manquants. Ces méthodes de prédiction sont inductives, car partant des exemples connus pour prédire les faits manquants : ce sont les méthodes d’estimation horizontales. Parce que issues pour la plupart d’autres domaines, elles ne tiennent pas fondamentalement compte de la présence des mesures agrégées stockées garant du temps de réponse réduit lors des analyses. En intégrant les valeurs estimées, l’agrégation peut présenter un biais par rapport aux valeurs connues d’avance.

Une autre famille des travaux part plutôt des mesures agrégées stockées pour prédire/estimer les faits détaillés manquants : ce sont les méthodes d’estimation descendantes. Dans ce registre, Camossi et al. (2006[) proposent deux fonctions d’estimation descendantes ou fonctions de raffinement. Dans Palpanas et al. (2005) , les auteurs estiment les faits détaillés à partir des mesures agrégées en utilisant le principe de l’entropie maximale et un algorithmique itératif d’ajustement proportionnel. Dans Xintao et al (2002) les auteurs transforment le problème d’estimation des faits détaillés à partir des mesures agrégées en un système linéaire, et proposent de résoudre le système par la méthode de décomposition selon les valeurs singulières (SVD). En effet, l’approche descendante n’est pas adaptée dans le contexte des données géographiques marqué par une forte corrélation des données. Car une valeur prédite par cette approche peut être extrêmement différente des autres valeurs connues de la base.

Il existe de nombreuses méthodes horizontales pour les BDM spatiales, mais aucune, au meilleur de notre connaissance, ne prend en compte la présence éventuelle des mesures agrégées qui est une caractéristique essentielle des BDM dans le processus d’estimation. Et en intégrant les valeurs estimées, elles entraînent des incohérences sur l’agrégation par rapport aux données stockées et connues d’avance.

Objectifs scientifiques:

Dans le cadre d’un travail récent (Koueya et al., 2014), nous avons proposé une approche qui adapte les méthodes d’estimation existantes pour la prises en compte des caractéristiques principales des BDM spatiales que sont les corrélations et la multigranularité. Cette approche s’articule autour de deux méthodes. La première est un prédicat de sélection qui aide les fonctions d’estimation à prendre en compte seulement les données sémantiquement utiles en utilisant l’organisation hiérarchique des données dans les BDM. La seconde est une méthode d’ajustement des valeurs estimées aux mesures agrégées connues.

L’objectif de cette thèse sera dans un premier temps de revisiter ces méthodes et de les caractériser, et dans un second temps, d’étudier leur passage à l’échelle dans un environnement d’abord séquentiel, puis parallèle et distribué afin de traiter les données massives présentes dans les EDS. Le recours aux technologies de type SPARK/SHARK ou MapReduce (Eldawy et Mokbel, 2014) sera envisagé pour l’étude de la scalabilité des méthodes.

L’infrastructure du CRI-Auvergne sera dès lors nécessaire pour le test à grande échelle des méthodes proposées.

Bibliographie

[1] Y. Bédard and J. Han, “Fundamentals of Spatial Data Warehousing for Geographic Knowledge Discovery,” Geographic Data Mining and Knowledge Discovery, 2001.

[2] Bimonte S. Spatial OLAP for agri-environmental data and analysis: Lessons learned. MIPRO 2015 to appear[R8]

[3] BIMONTE, S., PRADEL, M., BOFFETY, D., TAILLEUR, A., ANDRE, G., BZIKAHA, R., CHANET, JP. - 2013. A new sensor-based Spatial OLAP architecture centered on an agricultural farm energy-use diagnosis. International Journal of Decision Support System Technology, vol. 5, n° 4, p. 1-20

[4] Dyreson C. E, Pedersen T. B. et Jensen C. S. (2003). Incomplete information in multidimensional databases, In Multidimensional Databases, pages 282-309. Maurizio Rafanelli(ed), Idea Group Publishing.

[5] KOUEYA, N., BIMONTE, S., MEPHU NGUIFO, E. - 2014. Une nouvelle approche d'estimation pour les entrepôts de données multi-granulaires incomplètes.10ème journées francophone sur les Entrepôts de Données et l'Analyse en ligne EDA 05/06/2014-05/06/2014, Vichy, p. 129-144 16 p.

[6] Shashi Shekhar, Viswanath Gunturi, Michael R. Evans, KwangSoo Yang: Spatial big-data challenges intersecting mobility and cloud computing. MobiDE 2012: [R9]

[7] Ahmed Eldawy, Mohamed F. Mokbel: Pigeon: A spatial MapReduce language. ICDE 2014: 1242-1245[R10]

[8] Rubin D.B. (1976). Inference and Missing Data. Biometrika, 29, 159-183.

[9] Rioult F. (2005). Extraction de connaissances dans les bases de données comportant des valeurs manquantes ou un grand nombre d’attributs. Thèse de doctorat, Université de Caen Basse-Normandie (spécialité Informatique).

[10] Xintao W. et Barbara D. (2002). Learning missing values from summary constraints, SIGKDD Explorations, Volume 4, Issue 1, page 30

[11] Wohlrab L. et Furnkranz J. (2011). A review and comparison of strategies for handling missing values in separate-and-conquer rule learning, J. of Intelligent Information Systems, 36(1) :73-98.

[12] Eekhout I., Boer M. R.,Twisk JosW. R., Vet Henrica C.W. et Heymans M.W. (2012). Missing data : a systematic review of how they are reported and handled. Epidemiology, September ; 23(5) :729-32

[13] SPARK, https://spark.apache.org/, access date March 10, 2015

[14] Hadoop MapReduce, http://hadoop.apache.org/, access date March 10, 2015[R11]

[15] Truong, Thai M., Amblard, F., Gaudou, B. and Sibertin-Blanc, C., 2014, "To calibrate & validate an agent-based simulation model, an application of the combination framework of BI solution & Multi-agent platform", 6th International Conference on Agents and Artificial Intelligence (ICAART), Angers, France, 6-8 March.[R12]

[16] Abdelbaki W., Sadok B. Y., et Messaoud R. B. (2012). Une approche connexionniste pour l’extension de l’olap à des capacités de prédiction. EDA, volume B-8 of RNTI, page 72-81. Hermann.

[17] Rabasèda S. L., Boussaid O., Niemczuk A. B. et Messaoud R. B. (2011). Prédiction dans les cubes de données olap. Conférence Méditerranénne sur l’Ingénierie Sur des Systèmes Complexes (MISC’11), Agadir, Maroc.

[18] Ahmed T. et Miquel M. (2005). Multidimensional Structures Dedicated to Continuous Spatiotemporal Phenomena. In : JACKSON et al. 22th British National Conference on Databases, Sunderland, UK. Berlin Heidelberg : Springer, 29-40 p. LNCS 3567.

[19] Camossi E., Bertolotto M. et Bertino E. (2006). A multigranular object-oriented framework supporting spatio-temporal granularity conversions. International Journal of Geographical Information Science, 20(5) :511-534.

[20] Themis Palpanas, Nick Koudas, Alberto Mendelzon (2005) Using datacube aggregates for approximate querying and deviation detection, IEEE Transactions on Knowledge and Data Engineering, 17(11) :1465-1477.