PPS-ET5-BigData
Cours de programmation BigData destiné aux étudiants de 5ème année de Polytech Paris-Saclay
Stéphane Vialle, Professeur à CentraleSupelec
Stephane.Vialle@centralesupelec.fr
Gianluca Quercini, Maitre de Conférence à CentraleSupélec
Cours de programmation BigData destiné aux étudiants de 5ème année de Polytech Paris-Saclay
Stéphane Vialle, Professeur à CentraleSupelec
Stephane.Vialle@centralesupelec.fr
Gianluca Quercini, Maitre de Conférence à CentraleSupélec
Thème et objectifs du cours :
Ce cours à comme objectif d'appréhender l'ingénierie BigData par la pratique de la programmation map-reduce à travers les environnements Spark et Hadoop, puis l'ingénierie des bases de données avec le passage des BdD relationnelles vers les BdD NoSQL. Un cours sur les métriques de performances dans les systèmes distribués complète l'ensemble.
Les principaux concepts du cours seront illustrés dans des TD puis mis en oeuvre lors de plusieurs TP. Des mesures et analyses de performances seront effectués pour chaque développement réalisé, et serviront de validation à toutes les démarches d'optimisation.
Contenu du cours :
Algorithmique map-reduce de Spark
Optimisation d'un code Spark
Système de fichiers distribués d'Hadoop (HDFS), principe du "sharding"
Déploiement d'un code Spark
Evolution des BdD SQL vers les BdD NoSQL, présentation de BdD NoSQL
Présentation et programmation en MongoDB
Métriques de performances des systèmes distribués, concept de "passage à l'échelle"
Supports de cours (slides, TD et TP) :