Descripción del curso

Objetivo

El objetivo de la Minería de Datos (MD) es extraer información interesante/útil a partir de datos. En muchos casos esta información  tiene la forma de patrones no evidentes en los datos y, dependiendo de su complejidad, puede llegarse a hablar de conocimiento. La minería de datos se basa en técnicas propias de la estadística y el aprendizaje de máquina, y tiene una estrecha relación con áreas tales como las bases de datos y la computación de alto desempeño.

El objetivo de este curso es estudiar conceptos fundamentales de aprendizaje computacional, reconocimiento de patrones y estadísitca que son la base para la construcción de modelos descriptivos y predictivos de minería de datos, así como su aplicación  a la solución de diferentes problemas prácticos.

    Metodología

    • Los conceptos fundamentales de cada tema del curso se presentan y se aclaran en clase.
    • Los estudiantes resuelven talleres de aplicación de los conceptos cubiertos en el curso.
    • Los estudiantes desarrollan un proyecto de minería de datos a lo largo del curso.

     Sesión          Tema          Talleres  Entregas  Material
     Agosto 3-4 1. Introducción a la minería de datos
    Fabio A. González
       
     1 1.1 Motivación
    1.2 Metodología CRISP-DM
        [TSK05] Cap 1
    CRISP-DM 1.0
     2 1.3 Datos  Taller 1   [TSK05] Cap 2
     3 1.4 Análisis exploratorio     [TSK05] Cap 3
     Agosto 31
     Septiembre 1
    2. Modelamiento descriptivo
    Fabio A. González
      Proy entrega 0
    Tarea 1
     
     4 2.1 Reglas de asociáción   Taller 2
    [TSK05] Cap 6
     - Presentación
     - Capítulo  
     5 2.2 Agrupamiento   Taller 3   [TSK05] Cap 8
     - Presentación
     - Capítulo
    [TSK05] Cap 9
     6 2.3 Reducción de la dimensionalidad      Intro to PCA
     Septiembre 21-22 3. Modelamiento predictivo 
    Fabio A. González
      Proy entrega 1
    Tarea 2 
    Métodos Predictivos
     7 3.1 Arboles de decisión     [TSK05] Cap 4
     - Presentación
     - Capítulo
     8 3.2 Modelos bayesianos   Taller 4   [TSK05] Cap 5
    [Alp10] Cap 3
     9 3.3 Otros modelos predictivos
    3.3 Regresión y series de tiempo
        [TSK05] Cap 5
    K-nearest neighbors tutorial
     Octubre 12-13 4 Minería de datos a gran escala 
    Raúl Ramos
         Tema 4
     10 4.1 Paralelización de algoritmos   Proy entrega 2   
     11 4.2 Procesamiento distribuido y escalabilidad  Taller 5    
     12 4.3 Diseño y análisis de experimentos de minería de datos  Taller 6    
     Noviembre 9-10 5 Finalización
    Fabio A. González
         
     13 5.1 Métodos de kernel y máquinas de vectores de soporte     Introd. to kernel methods
    Support Vector Machines (Smola)
    [Alp10] Cap 3
     14 5.2 Presentación proyecto      
     Noviembre 18      Proy entrega 3   
     Noviembre 30 Examen final     Tarea 3

    Evaluación

            
    Proyecto 30%
    Examen 30%
    Talleres 20%
    Tareas 20%

    Notas Finales

    Bibliografía

    • [TSK05] Pang-Ning Tan, Michael Steinbach, Vipin Kumar,  2005, Introduction to Data Mining, Addison-Wesley. (sitio web del libro)
    • [Wit11] Witten, I.H. and Frank, E. and Hall, M.A., 2011, Data Mining: Practical machine learning tools and techniques, 3Ed, Morgan Kaufmann (sitio web del libro)
    • [HK06] Jiawei Han, Micheline Kamber, Data Mining: Concepts and Techniques, 2nd Ed, Morgan Kaufmann Publishers. (sitio web del libro)
    • [Alp10] Alpaydin, E. 2010 Introduction to Machine Learning, 2nd Ed. The MIT Press. (sitio web del libro)
    • [DHS00] Duda, R. O., Hart, P. E., and Stork, D. G. 2000 Pattern Classification (2nd Edition). Wiley-Interscience.
    • [DM1.0] P. Chapman et al., 2000,  CRISP-DM 1.0: Step-by-step data mining guide, SPSS Inc
    Recursos