Abstracts

- Analyse de données de biodiversité en milieu agricole (projet ANR VGI4Bio), Sandro Bimonte, Irstea

La conservation de la biodiversité et sa relation avec les pratiques agricoles représente actuellement un défi majeur, car elle affecte les caractéristiques environnementales, sociales, économiques et autres activités humaines. Les données d’observation peuvent être nécessaires à grande échelle spatiale ou temporelle pour englober un large éventail de situations afin d’obtenir des résultats significatifs.

Cela implique que des centaines ou des milliers d’observateurs doivent être mobilisés, à un coût qui serait prohibitif s’ils devaient être payés. Par conséquent, dans ce projet, nous définirons un ensemble d’outils statistiques et de modèles de comportement d’observateurs pour extraire et visualiser des données précises et pertinentes à partir de la masse de données opportunistes (données Volunteer Geographic Information – VGI) afin de produire des indicateurs significatifs de la biodiversité.

De plus, comme les systèmes VGI ne fournissent pas d’outils d’analyses complexes, nous utiliserons l’OLAP spatial (SOLAP) pour analyser ces bio-indicateurs agricoles. Étant donné que les utilisateurs finaux sont différents et nombreux, nous définirons une nouvelle méthodologie de conception de participative pour l’implémentation des modèles SOLAP pour les bio-indicateurs agricoles.

- Stockage et analyse de données des DAC (Distributeur Automatique de Concentré) Canards, Alexandre Journaux, INRA

Les missions du Cati Sicpa sont de mettre en place des outils pour l’intégration de données de phénotypage (de l’acquisition au traitement statistique) et d’en assurer leur valorisation. Ces outils permettent la mesure de différents caractères phénotypiques chez l’animal (ex : comportement alimentaire, social, sexuel, réaction au stress).

Depuis quelques années, les avancées technologiques dans des domaines aussi variés que l’informatique, l’électronique ou la physique appliquée impactent directement les dispositifs expérimentaux. Nous voyons l’émergence de nano ordinateurs nomades ou de capteurs embarqués, miniaturisés, autonomes, géo localisés et dont l’enregistrement et la sauvegarde des données produites massivement doivent être assurés par des capacités de stockages de plus en plus importantes.

Au niveau du Cati Sicpa, nous avons mis en place plusieurs protocoles qui utilisent ces nouvelles technologies :

• Etude du comportement alimentaire du canard avec la mise en place de distributeurs automatisés de concentrés (DAC).

• Etude du comportement de la truie par rapport à ses porcelets avec la mise en place d’un accéléromètre sur la mère.

• Etude de l’activité des déplacements de la reine dans la ruche avec la mise en place d’une puce RFID sur la reine et d’antennes sur les cadres de la ruche.

• Etude du comportement social de la vache dans l’étable avec la mise en place de capteurs et d’antennes dans les bâtiments d’élevage.

Tous ces outils collectent des masses très importantes de données à des fréquences très rapides. Ils permettent donc de faire du phénotypage à haut débit. Cependant, les outils traditionnels pour gérer les données rencontrent des problèmes de performances pour l’interrogation et l’optimisation du stockage. Afin d’anticiper et de résoudre ces problèmes, le Cati Sicpa s’intéresse aux technologies orientées Big Data. Une première solution utilise une architecture basée sur les technologies Cassandra (pour le stockage) et Spark (pour la parallélisassions des traitements). Cette architecture répond parfaitement au besoin du protocole DAC pour les canards. Il reste maintenant à concevoir une solution générique pour tous les autres protocoles.

- Proposition d'une architecture pour un système d'information pervasif de surveillance environnementale et agricole (projet Smart Village - Smart Paesi), Thierry Antoine-Santoni, Università di Corsica

L’Università di Corsica Pasquale Paoli, le CNRS, EDF SEI Corse et la SITEC (société corse d’informatique) propose de construire dans le cadre d’un programme scientifique (Smart Village - Smart Paese : émergence de territoires intelligents) la définition du Smart Village, dans le contexte des Smart City. Notre description du village intelligent repose sur quatre éléments : le développement durable, les infrastructures informatiques/numériques, l’éducation/e-citoyenneté et les activités agricoles. L’ensemble du dispositif du village intelligent s’appuie sur un système d’informations pervasif (SIP). Les SIP sont souvent considérés comme une évolution des SI traditionnels. Ils se distinguent par leur capacité à percevoir le contexte de l’utilisateur et à gérer sa mobilité. Ils sont évolutifs et hétérogènes, pro-actif en réagissant au stimuli de l’environnement. Ils intègrent les données de systèmes de divers systèmes (en particulier d’objets connectés ou de réseaux de capteurs) pour les restituer de manière intelligente. Dans le cadre du projet Smart Village nous proposons une architecture de SIP pour la visualisation de données environnementales et agricoles à cinq actions :

- Collecter un ensemble de données = par le biais d’un réseau de capteurs sans fil LoRaWAN sur les bâtiments communaux, sur la qualité de l’air, de l’eau, de stations météo, d’un champ de safran bio, du tracking d’un élevage porcin, une chaufferie biomasse, une centrale hydroélectrique.

- Stocker : les données sont stockées dans une base de données NoSQL à l’aide d’Elasticsearch

- Analyser : extraire les données et pouvoir proposer des études relatives à chaque cas d’utilisation des capteurs.

- Prédire : utilisation des données pour alimenter un modèle de prédiction Smart Entity, basé sur des algorithmes de Machine Learning

- et Restituer : afficher les données collectées et prédites selon différentes catégories d’utilisateur et d’utilisation à l’aide de tableaux de bord : chercheur, municipalité, éleveur, safranier et population.

- Pôle national de données de biodiversité : vers la mise en place de services et outils pour faciliter l'accès, la structuration et l'analyse des données de biodiversité mettant en avant les principes "FAIR" (Facile à trouver, Accessible, Interopérables, Réutilisable), Yvan Le Bras, MNHN

En mars 2018, le Ministère de l’Enseignement supérieur, de la recherche et de l’innovation a inscrit sur sa feuille de route la création d’une nouvelle infrastructure intitulée Pôle National de données de biodiversité (PNDB).

Les missions du PNDB s’inscrivent dans une approche mettant en avant les principes FAIR (https://www.force11.org/group/fairgroup/fairprinciples) et consistent à :

1. fournir un accès aux jeux de données et de métadonnées, à des services associés et à des produits dérivés des analyses ;

2. promouvoir l’animation scientifique pour identifier les lacunes et favoriser l’émergence de dispositifs portés par des communautés d’utilisateurs et producteurs ;

3. faciliter le partage des pratiques avec les autres communautés de recherche, favoriser le partage des données et leur réutilisation, s’insérer dans la réflexion de la future infrastructure Système Terre.

4. favoriser la cohérence avec les efforts nationaux, européens et internationaux relatifs à l’accès et à l’exploitation des données de recherche sur la biodiversité, à la promotion de produits et services.

Le montage de cette e-infrastructure se structure autour de la mise en place de produits et services organisés en 3 volets :

- la donnée et métadonnée, le but étant de faciliter 1/ l'accès à des données brutes, primaires et complètes, aussi ouvertes que possible et 2/ la structuration des données par le renseignement de métadonnées détaillées rendant possible leur réutilisation large tout en 3/ identifiant les ressources terminologiques et ontologiques existantes pertinentes dans le but de faciliter leur usage.

- traitement de la données,le but étant de permettre à l'ensemble des scientifiques d'avoir accès à la donnée de biodiversité et aux outils d'analyse de ces données notamment pour les coupler avec des données hétérogènes de type télédetection, climat ou autre.

- animation, à travers la participation à des formations et la tenue d'ateliers portant notamment sur 1/ la structuration des données via métadonnées et ontologies et 2/ l'accès et l'analyse de données de biodiversité.

-Analyse de données dans le cadre de la transition agro-écologique et du changement climatique aux Antilles, Martine Collard, Université des Antilles

Notre équipe au LAMIA (laboratoire de Mathématiques et Informatique) à l'université des Antilles, conduit des travaux d'analyse de données en lien avec l'agriculture, notamment dans le cadre d'un projet européen ERA4CS Climate Services.

L'agriculture est aux Antilles un secteur important historiquement et socialement. Il peut de plus participer à l'atténuation des effets du changement global en s'engageant dans la transition agro-écologique passant de grandes monocultures d'exportation (canne à sucre, banane) à une agriculture plus diversifiée, plus durable et répondant aux besoins locaux. Le changement climatique se manifeste par des températures en hausse, des périodes de sécheresse et un dérèglement des saisons. Certaines plantes comme la canne à sucre ont un cycle de croissance très dépendant des deux saisons connues sous le nom d'hivernage (sècheresse) et de carême (humidité et chaleur). Si on observe des variations importantes sur les productions agricoles, les études sur l'impact du changement climatique sur ces cultures sont rares. Dans ce contexte, nous avons initialement conçu une approche de type fouille de données pour extraire des motifs par analyse croisée des données météorologiques, des projections climatiques et des données de productions agricoles. Mais le manque de données, leur qualité, leur niveau d'agrégation nous conduit à rechercher d'autres approches sur des données plus variées dont des corpus de textes.

- Développement d’une méthode d’exploration et d’analyse de résultats de simulations issus du modèle de cultures STICS, Tassadit Bouadi, IRISA

Avec l’augmentation des questions posées à l’agriculture, de la connaissance des systèmes et de la puissance des moteurs de calcul, les modèles de simulation tendent à se complexifier et fournissent des quantités croissantes de données de nature hétérogène. Ces données ne sont généralement pas totalement analysées, car leur volume est difficile à explorer et car l’utilisateur ne s’intéresse souvent qu’à une partie des résultats. De plus, ces données sont souvent perdues après leur valorisation alors qu’elles pourraient être utilisées ultérieurement pour répondre à une autre question. Ce constat suscite un besoin de méthodes permettant le stockage sur le long terme des données de simulations, ainsi que leur exploration et leur interrogation, notamment pour répondre à des questions multicritères. Un entrepôt de données permettant l’exploration multidimensionnelle des simulations d’un modèle agro-hydrologique a récemment été développé par (Bouadi et al., 2017) afin d’améliorer la gestion de l’azote à l’échelle d’un bassin versant. L’objectif de notre travail est d’adapter cette méthode à l’exploration et l’analyse de simulations issues du modèle de cultures STICS (Brisson et al., 2003) et produites à l’échelle de la France dans le cadre de l’étude « les prairies françaises : « Production, exportation d’azote et risques de lessivage » (Graux et al., 2017). STICS simule la production des cultures ainsi que les flux présentant un risque/bénéfice pour l’environnement à l’échelle de la parcelle et de la rotation culturale, en fonction du contexte pédoclimatique et des pratiques culturales. Une base de données relationnelle a été développée et permet aujourd'hui le stockage des données de simulations. Nous avons ensuite fait évoluer cette base de données vers un entrepôt de données adapté au caractère spatio-temporel des résultats de simulation. Cet entrepôt permet notamment une exploration facilitée et une analyse interactive des données archivées. Par la suite, nous souhaitons coupler l’analyse en ligne avec des algorithmes de fouille de données (i.e. requêtes skyline hiérarchiques, motifs discriminants, etc.), afin de permettre aux acteurs de formuler de nouvelles questions en combinant des critères environnementaux contradictoires, et de trouver les solutions compromis associées à leurs attentes, et de détecter et faire ressortir les données susceptibles de les intéresser.

  • Valoriser les données d’épidémiosurveillance végétale : de la collecte aux outils prédictifs, Charles Cernay, Acta - les instituts techniques agricoles

En réponse aux enjeux environnementaux et de santé, l’agriculture française s’engage dans une réduction des produits phytosanitaires utilisés en protection des cultures. Dans certaines situations agronomiques, la marge de réduction est potentiellement très forte. Mieux raisonner le pilotage des traitements à partir d’une information prédictive utile aux agriculteurs et aux professionnels agricoles est une solution envisagée. Depuis 2009, le Bulletin de Santé du Végétal (BSV) s’inscrit dans ce contexte. Son information est basée sur des indicateurs sanitaires, spécifiques à l’espèce cultivée. Ces données sont issues de plusieurs réseaux d’observations de maladies et de bioagresseurs. Ces observations sont géolocalisées et capitalisées dans différentes bases de données. Ces bases de données - spécifiques à chaque culture et accessibles à différents niveaux - sont entretenues et harmonisées par différents acteurs de l’épidémiosurveillance végétale (e.g., instituts techniques agricoles, chambres d’agriculture, etc.). Actuellement, le BSV propose un diagnostic et une analyse de risque épidémiologique à partir de ces données. L’information extraite de ces données reste souvent limitée en cours de campagne agronomique. Différentes approches d’analyse et de modélisation des données ont été mobilisées (surtout sur le blé et vigne) : modèle linéaire mixte, modèle de survie, random forest. Les résultats encouragent la mise à disposition opérationnelle de ces modèles en cours de campagne pour apporter des informations prédictives, qui pourraient aider les agriculteurs et les acteurs de l’épidémiosurveillance à raisonner leurs traitements phytosanitaires. L’ancrage dans des réseaux d’observations existant permet d’envisager ce déploiement opérationnel sans nécessiter la collecte d’informations supplémentaires. Le potentiel pour créer de nouveaux outils prédictifs à partir de cette forte masse de données reste prometteur, en combinant ces modèles avec d’autres sources d’informations comme des co-variables météorologiques ou en mobilisant d’autres approches de data science et de machin learning, peu ou pas explorées jusqu’à maintenant.