IMT 3114: Fundamentos Matemáticos de Ciencia de Datos

Esta es la página oficial del curso IMT3114, segundo semestre de 2017, ofrecido por la Escuela de Ingeniería de la Pontificia Universidad Católica de Chile

Equipo Docente

  • Profesor: Cristóbal Guzmán
  • Ayudante: Max Levill

Horario

  • Cátedras: Lunes y Viernes, 14:00-15:20
  • Ayudantías: Miércoles, 14:00-15:20
  • Trabajo Personal: 4 horas semanales

Objetivos del Curso

  • Familiarizarse con la noción de aprendizaje estadístico
  • Analizar algoritmos de aprendizaje en el contexto PAC (probablemente, aproximadamente correcto)
  • Estudiar modelos y aplicaciones de la teoría de aprendizaje
  • Implementar algoritmos de aprendizaje de forma rigurosa, teniendo en cuenta las distintas etapas de aprendizaje (entrenamiento, validación y testeo) y las técnicas para prevenir sobreajuste

Contenidos

  1. Desigualdades de Concentración: 4 clases
  2. Aprendizaje PAC (probablemente, aproximadamente correcto): 3 clases
  3. Complejidad de Rademacher y Dimensión VC (Vapnik-Chervonenkis): 3 clases
  4. SVM (Support Vector Machines): 3 clases
  5. Kernels: 3 clases
  6. Boosting: 3 clases
  7. Aprendizaje convexo: 4 clases
  8. Aprendizaje en línea: 3 clases
  9. Reducción de dimensionalidad: 3 clases

Evaluaciones

  • Tareas por cada capítulo
  • Una tarea computacional
  • Un proyecto final

Tareas

  1. Hacer 2 ejercicios de su elección de la guía de desigualdades de concentración (NO los resueltos en ayudantía; a lo más uno entre el problema 9 y el 10). Entrega: Viernes 18 de Agosto en la clase

Proyectos

La evaluación final del curso es un proyecto, el cual pueden escoger entre los siguientes tópicos

  1. Deep Learning: El objetivo de este proyecto es presentar una introducción al aprendizaje de redes neuronales, y las técnicas de optimización que se usan actualmente para aprendizaje profundo (especialmente backpropagation y su interpretación como un método de gradiente estocástico). Finalmente, los alumnos deberán investigar situaciones que permiten un aprendizaje eficiente de redes profundas vía gradiente estocástico y/o situaciones donde este algoritmo falla. Referencias:
  2. No-Discriminación en Aprendizaje: Se busca investigar nociones de justicia o no-discriminación en el contexto de aprendizaje supervisado, y aplicar dichas nociones a datos reales o ficticios. Los alumnos deberán ofrecer recomendaciones sobre la aplicabilidad de estas técnicas y sus alcances, con una mirada crítica. Referencias:
  3. Aprendizaje Robusto: Recientemente se han logrado avances significativos en desarrollar algoritmos eficientes de aprendizaje que son robustos ante la presencia de outliers, esto incluye problemas fundamentales como estimación de parámetros de distribuciones Gaussianas. El objetivo es investigar los desarrollos recientes en algoritmos de aprendizaje que son robustos a la presencia de outliers, e implementar estos métodos con datos reales o ficticios para aplicaciones de interés. Referencias:
  4. Reducción de Dimensionalidad: El objetivo es investigar algoritmos rápidos y determinísticos que exploten la geometría de los datos para mejorar la reducción de dimensionalidad. También se podrán investigar conexiones con otros problemas, como locality-sensitive hashing, clustering, compressed sensing, etc. Referencias:
  5. Privacidad Diferencial: Introducir las herramientas básicas de privacidad diferencial, y aplicarlas con datos reales o ficticios en aplicaciones de interés. El proyecto también podría incluir el estudio de análisis adaptativo de datos, como una herramienta para reutilizar el conjunto de testeo en problemas de aprendizaje.

Información de Interés

Referencias

Este curso se basa principalmente en los siguientes libros:

Una lectura interesante en relación a los objetivos del curso

Otros cursos de teoría de aprendizaje y ciencia de datos

Principales conferencias del Área