Machine Learning para Ciencia de Datos
Instructor: Dr.Ing Felipe Meza-Obando
Instructor: Dr.Ing Felipe Meza-Obando
Este curso proporciona una introducción moderna al aprendizaje automático (Machine Learning, ML) en el contexto de la Ciencia de Datos. A través de clases teóricas y sesiones prácticas, los estudiantes explorarán el ciclo completo del desarrollo de modelos, desde la definición del problema hasta la evaluación y comunicación de resultados, utilizando herramientas ampliamente adoptadas en la industria como Python, scikit-learn y pandas.
Al finalizar el curso, el estudiante será capaz de:
Comprender las fases fundamentales del proceso de ML dentro del ciclo de ciencia de datos.
Aplicar técnicas de modelado supervisado y no supervisado a conjuntos de datos reales.
Evaluar y mejorar modelos predictivos mediante validación cruzada y ajuste de hiperparámetros.
Reconocer los desafíos éticos y técnicos contemporáneos del ML.
Comunicar hallazgos y modelos de forma efectiva y fundamentada.
1. Introducción a ML y Ciencia de Datos
Presentación del curso, tipos de aprendizaje (supervisado/no supervisado), fases del proceso ML, ciclo CRISP-DM, herramientas y casos de aplicación reales.
2. Preparación y exploración de datos (EDA)
Técnicas para limpieza, imputación, transformación y codificación de variables. Visualización exploratoria, detección de valores atípicos y correlaciones.
3. Modelos supervisados I: Regresión y clasificación básica
Regresión lineal, regresión logística, métricas de evaluación (MAE, RMSE, accuracy), primeros modelos con scikit-learn.
4. Modelos supervisados II: Árboles de decisión, Random Forest y SVM
Árboles como modelos interpretables, mejora con Random Forest, introducción a SVM. Discusión sobre overfitting, selección de variables y trade-offs de complejidad.
5. Validación y mejora de modelos
Separación de datos, validación cruzada (K-fold), pipelines, normalización y ajuste de hiperparámetros con GridSearchCV.
6. Modelos no supervisados
Clustering (K-means, DBSCAN, jerárquico), reducción de dimensionalidad con PCA, visualización en espacios latentes.
7. Tópicos actuales en Machine Learning
Interpretabilidad de modelos, detección de sesgos y fairness, introducción a AutoML, aprendizaje activo, ML en la nube, tendencias y aplicaciones emergentes, entre otros.
8. Proyecto final y presentación
Desarrollo de un caso práctico completo, desde la formulación hasta la entrega del modelo. Presentación de resultados y discusión crítica.
Clases magistrales combinadas con sesiones prácticas en notebooks (Python).
Uso de datasets reales y desafíos progresivos.
Integración de trabajo en equipo, discusión guiada y autoevaluación.
Un proyecto final como elemento de síntesis del aprendizaje.
Géron, A. (2022). Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow (3rd ed.)
Joel Grus, Data Science from Scratch
Documentación oficial de:
Conocimiento básico de Python (listas, funciones, estructuras de control).
Familiaridad con conceptos básicos de estadística (media, varianza, regresión simple).
Comprensión general de álgebra lineal (vectores, matrices).