PPS-ET5-BigData
Cours de programmation BigData destiné aux étudiants de 5ème année de Polytech Paris-Saclay
Stéphane Vialle, Professeur at CentraleSupelec
Stephane.Vialle@centralesupelec.fr
Cours de programmation BigData destiné aux étudiants de 5ème année de Polytech Paris-Saclay
Stéphane Vialle, Professeur at CentraleSupelec
Stephane.Vialle@centralesupelec.fr
Thème et objectifs du cours :
Ce cours à comme objectif d'appréhender l'ingénierie BigData par la pratique de la programmation map-reduce à travers les environnements Spark et Hadoop, puis l'ingénierie des bases de données avec le passage des BdD relationnelles vers les BdD NoSQL. Un cours sur les métriques de performances dans les systèmes distribués complète l'ensemble.
Les principaux concepts du cours seront illustrés dans des TD puis mis en oeuvre lors de plusieurs TP. Des mesures et analyses de performances seront effectués pour chaque développement réalisé, et serviront de validation à toutes les démarches d'optimisation.
Contenu du cours :
Algorithmique map-reduce de Spark
Optimisation d'un code Spark
Système de fichiers distribués d'Hadoop (HDFS), principe du "sharding"
Déploiement d'un code Spark
Evolution des BdD SQL vers les BdD NoSQL, présentation de BdD NoSQL
Présentation et programmation en MongoDB
Métriques de performances des systèmes distribués, concept de "passage à l'échelle"
Supports de cours (slides, TD et TP) :