Probabilidad y Machine learning 2024

Departamento de Matemática

Exactas - UBA

Probabilidad y Machine Learning 2020

Profesor: Pablo Groisman

@pgroisma

Materia optativa para la Lic., Prof. y Doc en Cs. Matemáticas y Lic. en Cs. de Datos.

Cuatrimestre: 1ro 2024.

Inicio de clases: primera semana de clases.

Puntaje sugerido: 4 puntos (M) / 96hs (LCD).

Horario: lunes y miércoles de 17 a 20 hs.

Interesados: completar formulario1 y unirse al grupo de telegram

Requisitos: al menos un curso de probabilidad. En principio no más que eso, pero quienes tengan conocimientos de teoría de la medida (por haber cursado Análisis Real, Análisis Avanzado u otra) o probabilidad avanzada, serán aprovechados, al igual que los que tengan conocimientos de Machine learning.

Disclaimer: Esta es una materia de matemática, más precisamente de probabilidad. Vamos a probar teoremas y todo eso (pero no sólo eso!). Los problemas que trataremos están motivados por cuestiones relativas al aprendizaje automático (ML), pero vamos a hacer matemática. Esa matemática nos servirá, entre otras cosas, para entender mejor los fundamentos detrás de muchos métodos en ML. No es una materia pensada para aprender ML. Los que ya sepan algo de ML, lo van a aprovechar, los que no sepan nada, se llevarán una buena idea de qué va la cosa, pero este no es el lugar recomendable para quienes buscan aprender ML a secas. O sea, no es necesario saber ML para hacer la materia pero si tu objetivo se centra en aprender ML es conveniente hacer otro tipo de cursos, como puede ser Aprendizaje Automático (dictada por DC). Ya enterados, si siguen con ganas, son todes bienvenides!

Modalidad: 2 clases semanales de 3hs que serán divididas en 2hs de teórica y 1h de resolución de problemas/consultas.

Aprobación: Entregas periódicas de ejercicios y elección de un tema para exponer y defender en forma de póster.

Programa (en construcción)

Guías de problemas

Guía nro 1

Guia nro 2

Introducción

El aprendizaje automático (machine learning) es un área interdisciplinaria que usa técnicas estadísticas para conseguir que sistemas computacionales tengan la habilidad de aprender (por ejemplo, mejorar progresivamente su performance en una tarea específica) de los datos, sin ser explícitamente programados.

El desarrollo y estudio de los algoritmos suele involucrar muchas herramientas de diversas áreas de la matemática, entre ellas álgebra lineal, optimización, probabilidad, estadística, geometría analítica, análisis y cálculo.

Se genera entonces una retroalimentación: herramientas matemáticas se utilizan para resolver problemas de machine learning y estos problemas generan a la vez nuevas herramientas, ideas, teorías, técnicas, problemas, etc. intrínsecos a la propia matemática. Algunos ejemplos:

Pregunta 1: si elegimos una función al azar definida en un espacio de alta dimensión, ¿qué pinta tiene?¿cuántos puntos críticos? ¿cuántos mínimos locales?¿que relación tiene esto con el entrenamiento de redes neuronales profundas?

Pregunta 2: si hacemos un paseo al azar por puntos elegidos aleatoriamente (un grafo aleatorio), ¿que pinta tiene? ¿podemos decir algo sobre su probable trayectoria? ¿puede darnos esa trayectoria información sobre el proceso que generó los puntos y sobre posibles nuevos puntos que podría generar ese proceso?

Pregunta 3: si tenemos un montón de puntos elegidos al azar en una superficie, ¿cómo podemos usarlos para extraer información sobre la geometría y/o la topología de la superficie?¿cómo podemos usar esa información geométrica/topolóagica para obtener información sobre el proceso que genera los puntos?

Pregunta 4: ¿es posible definir un "promedio" entre distribuciones de probabilidad? ¿qué propiedades debe tener?¿cómo se calcula? ¿qué utilidad tiene?

Estas cuatro preguntas han generado una serie de problemas (abiertos) en matemática. Sus soluciones parciales, además de ayudar a entender varias cuestiones intrínsecas de la matemática, permitieron y permiten avances y comprensión en el campo del aprendizaje automático.

En esta materia nos dedicaremos a este tipo de problemas. En el camino pasaremos tanto por temas "básicos" como por temas de investigación actuales.

Habrá espacio para que cada quien haga su camino en base a su formación y sus intereses (no hay que asustarse ni por el nivel de dificultad ni por el nivel de aburrimiento 😉)

La materia será más un paseo por algunos de los problemas que un intento de cubrir en forma exhaustiva algún tópico. Parte del trabajo de los participantes del curso será elegir un tópico de su interés y profundizar en él. Nos detendremos en donde nos encontremos a gusto y apuraremos el paso cuando consideremos que es mejor hacerlo de esa forma.

En este sentido, el programa detallado será determinado junto con los participantes, pero abajo listamos algunos de los posibles temas, con la intención de estudiar un subconjunto de ellos.

Programa tentativo

El aprendizaje automático como problema matemático. Enfoques, estrategias, problemas, soluciones y no-soluciones.
Maldiciones, bendiciones y sorpresas en dimensiones altas. Geometría de esferas, bolas e hipercubos en dimensión alta. Bendiciones: ley de los grandes números, grandes desvíos y teoría asintótica. Concentración de medidas. Lema de Johnson-Lindenstrauss. Generación de puntos aleatorios en dimensión alta.
Grafos y redes aleatorios. Clustering. PageRank, k−means, paseos al azar y clustering espectral. Principios de invarianza. Convergencia espectral del laplaciano en grafos.
Redes neuronales. Teorema de aproximación universal y el problema de la geometría del paisaje. Matrices aleatorias. Fórmula de Kac-Rice. Spin glasses y mecánica estadística. La maldición-bendición del paisaje. El fenómeno del doble-descenso.
El problema de transporte óptimo. Distancia de Wasserstein. Acoplamiento. Estimación de densidad y entrenamiento de redes neuronales. El problema del baricentro de Wasserstein.
Aprendizaje de variedades. Procesos puntuales. Paseos al azar, percolación de primera pasada y aprendizaje de distancias. Isomap. Distancia de Fermat.
Paseos al azar con refuerzo: localización y recurrencia. Aprendizaje por refuerzos.
Máquinas de Boltzmann y filtrado colaborativo. Gibbs sampler. MCMC.

Bibliografía

Libros

Ian Goodfellow, Yoshua Bengio, and Aaron Courville. Deep Learning. MIT Press, 2016.

Trevor Hastie, Robert Tibshirani, and Jerome Friedman. The elements of statistical learning. Springer Series in Statistics. Springer, New York, second edition, 2009. Data mining, inference, and prediction.
Mehryar Mohri, Afshin Rostamizadeh, and Ameet Talwalkar. Foundations of Machine Learning. The MIT Press, 2012.
Cédric Villani. Optimal transport, old and new, volume 338 of Grundlehren der Mathematischen Wissenschaften [Fundamental Principles of Mathematical Sciences]. Springer-Verlag, Berlin, 2009.
Bandeira, Singer, Strohmer. Mathematics of Data Science. (draft)
Cristopher Bishop, Pattern Recognition and Machine Learning, 2006.
Bradley Efron, Trevor Hastie, Computer Age Statistical Learning, algorithms, evidence and data science, Cambridge University Press, 2016.
Michael Nielsen, Neural Networks and Deep Learning.
Molnar, Christoph. "Interpretable machine learning. A Guide for Making Black Box Models Explainable", 2019.

Artículos

Nicolás García Trillos and Dejan Slepcev, A variational approach to the consistency of spectral clustering, 2018.
Bartlett, Peter L., Andrea Montanari, and Alexander Rakhlin. Deep learning: a statistical viewpoint. Acta numerica 30 (2021): 87-201.
C. Douglas Howard and Charles M. Newman. Euclidean models of first-passage percolation. Probab. Theory Related Fields, 108(2):153–170, 1997.
Max Kuang and Esteban G. Tabak. Sample-based optimal transport and barycenter problems. Comm. Pure and Appl. Math., 2017.
Ruslan Salakhutdinov, Andriy Mnih, and Geoffrey Hinton. Restricted boltzmann machines for collaborative filtering. In Proceedings of the 24th international conference on Machine learning, pages 791–798. ACM, 2007.
Ulrike von Luxburg, A tutorial on Spectral Clustering, 2006.
P. Groisman, M. Jonckheere, F. Sapienza, Nonhomogeneous first-passage percolation and distance learning, 2018.
F. Sapienza, Distancia de Fermat y geodésicas en percolación euclı́dea: teorı́a y aplicaciones en Machine Learning, Tesis de Licenciatura, Exactas - UBA, 2018.
Anna Choromanska, Mikael Henaff, Michael Mathieu, Gérard Ben Arous, Yann LeCun, The Loss Surfaces of Multilayer Networks, Artificial intelligence and statistics, 192-204, 2015.
Marco Baity-Jesi et al, Comparing dynamics: deep neural networks versus glassy systems. J. Stat. Mech., 2019.
Charu C. Aggarwal, Alexander Hinneburg, Daniel A. Keim, On the Surprising Behavior of Distance Metrics in High Dimensional Space, ICDT, 2001.
M. Belkin, D. Hsu, S. Ma, and S. Mandal, Reconciling modern machine-learning practice and the classical bias–variance trade-off, Proceedings of the National Academy of Sciences, 116 (2019), pp. 15849–15854.