Contexte
L'Irstea a mis en place un réseau de capteurs sans fil permettant de mesurer des données météorologiques en différents points de son exploitation agricole d'expérimentation.
Ces données sont envoyées à un système d'information central et stockées dans une base de données relationnelles.
Avec l'avènement des technologies web sémantique et le développement du web de données, de nouveaux modes de stockage et d'interrogation de données de capteurs sont proposés.
Ainsi, le W3C a proposé de nouveaux standards comme :
des nouveaux formats de représentation de données sous forme de triplet RDF.
des nouveaux langages de représentation des schémas de données : RDFS, OWL, etc.
un nouveau langage d'interrogation de données : SPARQL.
Des systèmes de gestion de données compatibles avec ces standards sont maintenant disponibles :
les systèmes de stockage sous forme de tripleStore RDF.
des services SPARQL EndPoint permettant d'interroger ce type de données avec une requête SPARQL.
Un exemple de ce type de système est la plateforme Virtuoso Open-Source Edition.
Objectif
Le but de ce stage est d'étudier ces nouveaux modèles et les outils associés pour rendre compatible les données de capteurs d’Irstea aux technologies du web sémantique.
Le but est donc de transformer les données relationnelles en triplet RDF en suivant les recommandations du W3C et de les mettre à disposition par l'intermédiaire d'un SPARQL EndPoint.
Le stage se déroulera de la manière suivante :
1. Etude des outils de transformation de données (ETL comme Talend ou Transformation à base de mapping).
2. Recherche des schémas de données relatifs aux données de capteurs déjà publiées sur le web de données.
3. Définition d'un schéma de données RDFS pour les données de capteurs d'Irstea.
4. Mise en place d'une procédure de transformation des données d'Irstea en triplets RDF en suivant le schéma défini précédemment.
5. Etude des systèmes de stockage et d'interrogation de triplets RDF.
6. Mise en place d'un système de stockage et d'interrogation des triplets RDF d'Irstea.
7. Evaluation du système avec des utilisateurs d'Irstea.
Références :
D2R : http://richard.cyganiak.de/2008/papers/d2r-server-iswc2006.pdf serveur (http://d2rq.org/d2r-server). interrogation de BDR avec SPARQL à base de mapping
CubicWeb: http://www.cubicweb.org/ une plateforme pour manipuler des données web sémantique avec le language python
Compétences :
informaticien de niveau Bac +4/5 ou niveau équivalent ingénieur
la langue de travail est le français, mais l’anglais est obligatoire pour lire la documentation des outils.
compétence en programmation objet, en bases de données, en modélisation et en manipulation de fichiers XML
motivée et autonome, la personne recrutée devra savoir trouver les outils demandés, les tester et faire une étude comparative
savoir rédiger correctement un rapport
capacité en gestion de projet, tenir les délais et en organisation de réunions
avoir des compétences dans les standards du web sémantique est un plus.
Informations :
localisation: Irstea de Clermont Ferrand, site d’Aubière, France.
contact email: catherine.roussey at irstea.fr
Le stage est indemnisé environ 436,05 euros par mois.
durée de travail 35 h par semaine pendant 4 à 6 mois (à discuter)
début : dès que possible( prévoir un délai d'un mois pour signer la convention)
si le candidat est intéressé par la recherche possibilité de faire une thèse en 2013 sur la publication de données à partir d'un réseau de capteurs sans fil.
Les candidats doivent envoyer leur CV, une lettre de motivation, leurs bulletins de notes des 2 dernières années (*) et un des rapports professionnels qu'ils ont rédigés personnellement à catherine.roussey at irstea.fr
(*) il faut au moins un bulletin provenant d'une formation en France, si le candidat n'a pas effectué ses deux dernières années une formation en France, il peut envoyer un bulletin partiel de sa formation en cours.