Ce module est une introduction à la nouvelle discipline, interdisciplinaire et émergente : « la science de données » (« data science » en anglais). Nous sommes à l'intersection de
la statistique,
l'informatique,
la visualisation de données,
les sciences physiques, chimiques et biologiques (et autres).
Les cours seront organisés autour de trois axes :
Modélisation statistique et apprentissage statistique (« machine learning » en anglais).
Outils de programmation et « big data ».
Quelques cas réels.
Structure :
15h de cours (6 × 2,5h) - les vendredis à 13h15
15h de TD (6 × 2,5h) - les vendredis à 16h00
5 TD/TP à rendre
Contenu :
Probabilités, statistiques et analyse exploratoire des données
Apprentissage supervisé :
Régression
k-nn
SVM
Arbres de classification et de régression
Ré-échantillonnage et autres méthodes de régression
Apprentissage supervisé :
Réseaux de neurones de type MLP
Introduction aux réseaux profonds
Apprentissage non supervisé :
ACP
k-means
Arbres hiérarchiques
Utilisation des Notebooks en R et Python
Mail : mark.asch@u-picardie.fr
Horaires : vendredi matin dans mon bureau
G. Saporta, Probabilités, Analyse de Données et Statistique, Technip, 1990.
M. DeGroot, M. Schervish, Probability and Statistics, Addison Wesley, 2002.
Spiegel, Murray et Larry Stephens, Statistique: Cours et problèmes, 3ème édition, Série Schaum/McGraw Hill. 2000.
V. Mayer-Schönberger et K. Cukier. Big Data: La révolution des données est en marche. Robert Laffont. 2014.
H. Laude. Data Scientist et langage R - Guide d'autoformation à l'exploitation des Big Data. Editions ENI. 2016.
M. Lutz. Data Science : fondamentaux et études de cas: Machine Learning avec Python et R. Eyrolles. 2015.
I. Goodfellow, Y. Bengio, A. Courville. Deep Learning. MIT Press. 2016. (http://www.deeplearningbook.org )
L'Apprentissage Profond (traduction de (8) par F. Bach). Massot. 2018.
James, Witten, Hastie, Tibshirani. An Introduction to Statistical Learning with Applications in R. Springer 2017. (statlearning.com/ )