Science des données (IFT3700/IFT6758)

Alain Tapp
alain.tapp@gmail.com
AA3345
Disponibilité: les mardis de 14h30 à 16h00.





Examen INTRA (30%)

Examen FINAL (40%)
  • Plan de l'examen
  • 12/17/2018
  • Lun 09:30 - 12:29
  • N-615 Pav. Roger-Gaudry
Travail 1 
Travail 2 
  • Remise avant le 17 décembre à 11h59
  • Version française
  • English version
Plan de cours


  1. Les données
    1. Audio et vidéo 
    2. Text
    3. Données structurées
    4. Collecte de données
    5. Nettoyage de données
    6. Bases de données relationnelles
  2. Méthodologie (English)
    1. Méthode scientifique
    2. Jeu de données
    3. Modéliser (paramètres)
    4. Probabilité bayésienne
    5. Test d'hypothèse (p-values)
    6. Rappel statistique et Corrélation
    7. Relations causales
  3. Partitionnement de données (English)
    1. Distance et similarité
    2. Regroupement hiérarchique
    3. Algorithme espérance-maximisation
      1. k-moyenne
      2. GMM
    4. DBSCAN
  4. Réduction de dimensionnalité (English)
    1. PCA
    2. PCoA
    3. ISOMAP
  5. Prédiction (English)
    1. KNN
    2. Arbres de décision
    3. Méthode d'ensemble (Forest aléatoire)
    4. Inférence bayésienne
      1. GMM pour la classification
      2. Réseau bayésien général
      3. Réseau naïf
      4. HMM
    5. SVM avec ou sans noyau
  6. Réseau de neurones
    1. Mise en contexte
    2. Apprentissage
    3. Applications
  7. Découverte de patrons
    1. Recherche d'information
      1. Par similarité (LSH)
      2. Générale
    2. Recherche de patrons
      1. Anomalies
      2. closed patterns, max-patterns, and association rules  
    3. Données massives
      1. Hadoop
      2. MapReduce
  8. Éthique 
    1. Aspect légal
    2. Vie privée
    3. Justice et biais
    4. Transparence et reddition de compte
    5. Assainissement de données

TPs

  • 10 sept. pas de TP
  • 17 sept. pas de TP, Visionnement de vidéos
  • 24 sept. Statistique, corrélation et méthodologie
    demo1.ipynb, demo1_solutions.ipynbmnist_train.cvs, mnist_test.cvs 
  • 1 oct. (CONGÉ, élection)
  • 8 oct. (CONGÉ)
  • 15 oct. Visualisation 1
    demo2, silhouette
  • 22 oct. (RELÂCHE)
  • 29 oct. Visualisation 2
    demo4, adulte
  • 5 nov. Prédiction 1 
  • 12 nov. Prédiction 2 
  • 19 nov. Découverte de patrons 1
  • 26 nov. Découverte de patrons 2
  • 3 déc. Étique

Outils


Youtube

    Ouvrages pertinants

    • WIKIPEDIA
    • Mining of Massive Datasets (Jure Leskovec, Anand Rajaraman, Jeff Ullman) (PDF)
    • Techniques d'apprentissage (Hugo Larochelle)
    • Factfulness: Ten Reasons We're Wrong About the World – and Why Things Are Better Than You Think, Hans Rosling, 2018.
    • Thinking, Fast and Slow, Daniel Kahneman, 2012.
    • Nudge: Improving Decisions About Health, Wealth, and Happiness, Richard H. Thaler, 2009.
    Assistant d'enseignement

    • Philippe Brouillard (philippebrouillard@gmail.com)
    • Arnaud L'Heureux (arnaud.heureux500@gmail.com)

    Évaluation
    Travail 1: 15%
    Travail 2: 15%
    Intra: 30%
    Final: 40%




    Comments