Probabilidad y Machine learning 2024

Departamento de Matemática

Exactas - UBA


Probabilidad y Machine Learning 2020


Profesor: Pablo Groisman

@pgroisma


Materia optativa para la Lic., Prof. y Doc en Cs. Matemáticas y Lic. en Cs. de Datos.


Cuatrimestre: 1ro 2024.

Inicio de clases:  primera semana de clases.

Puntaje sugerido: 4 puntos (M) / 96hs (LCD).

Horario: lunes y miércoles de 17 a 20 hs. 


Interesados: completar formulario1 y unirse al grupo de telegram


Requisitos: al menos un curso de probabilidad. En principio no más que eso, pero quienes tengan conocimientos de teoría de la medida (por haber cursado Análisis Real, Análisis Avanzado u otra) o probabilidad avanzada, serán aprovechados, al igual que los que tengan conocimientos de Machine learning.


Disclaimer: Esta es una materia de matemática, más precisamente de probabilidad. Vamos a probar teoremas y todo eso (pero no sólo eso!). Los problemas que trataremos están motivados por cuestiones relativas al aprendizaje automático (ML), pero vamos a hacer matemática. Esa matemática nos servirá, entre otras cosas, para entender mejor los fundamentos detrás de muchos métodos en ML. No es una materia pensada para aprender ML. Los que ya sepan algo de ML, lo van a aprovechar, los que no sepan nada, se llevarán una buena idea de qué va la cosa, pero este no es el lugar recomendable para quienes buscan aprender ML a secas. O sea, no es necesario saber ML para hacer la materia pero si tu objetivo se centra en aprender ML es conveniente hacer otro tipo de cursos, como puede ser Aprendizaje Automático (dictada por DC). Ya enterados, si siguen con ganas, son todes bienvenides!


Modalidad: 2 clases semanales de 3hs que serán divididas en 2hs de teórica y 1h de resolución de problemas/consultas.

Aprobación: Entregas periódicas de ejercicios y elección de un tema para exponer y defender en forma de póster.

Programa (en construcción)

Guías de problemas

Guía nro 1

Guia nro 2

Introducción

El aprendizaje automático (machine learning) es un área interdisciplinaria que usa técnicas estadísticas para conseguir que sistemas computacionales tengan la habilidad de aprender (por ejemplo, mejorar progresivamente su performance en una tarea específica) de los datos, sin ser explícitamente programados.


El desarrollo y estudio de los algoritmos suele involucrar muchas herramientas de diversas áreas de la matemática, entre ellas álgebra lineal, optimización, probabilidad, estadística, geometría analítica, análisis y cálculo.


Se genera entonces una retroalimentación: herramientas matemáticas se utilizan para resolver problemas de machine learning y estos problemas generan a la vez nuevas herramientas, ideas, teorías, técnicas, problemas, etc. intrínsecos a la propia matemática. Algunos ejemplos:


Pregunta 1: si elegimos una función al azar definida en un espacio de alta dimensión, ¿qué pinta tiene?¿cuántos puntos críticos? ¿cuántos mínimos locales?¿que relación tiene esto con el entrenamiento de redes neuronales profundas?

Pregunta 2: si hacemos un paseo al azar por puntos elegidos aleatoriamente (un grafo aleatorio), ¿que pinta tiene? ¿podemos decir algo sobre su probable trayectoria? ¿puede darnos esa trayectoria información sobre el proceso que generó los puntos y sobre posibles nuevos puntos que podría generar ese proceso?

Pregunta 3: si tenemos un montón de puntos elegidos al azar en una superficie, ¿cómo podemos usarlos para extraer información sobre la geometría y/o la topología de la superficie?¿cómo podemos usar esa información geométrica/topolóagica para obtener información sobre el proceso que genera los puntos?

Pregunta 4: ¿es posible definir un "promedio" entre distribuciones de probabilidad? ¿qué propiedades debe tener?¿cómo se calcula? ¿qué utilidad tiene?


Estas cuatro preguntas han generado una serie de problemas (abiertos) en matemática. Sus soluciones parciales, además de ayudar a entender varias cuestiones intrínsecas de la matemática, permitieron y permiten avances y comprensión en el campo del aprendizaje automático.


En esta materia nos dedicaremos a este tipo de problemas. En el camino pasaremos tanto por temas "básicos" como por temas de investigación actuales.


Habrá espacio para que cada quien haga su camino en base a su formación y sus intereses (no hay que asustarse ni por el nivel de dificultad ni por el nivel de aburrimiento 😉)


La materia será más un paseo por algunos de los problemas que un intento de cubrir en forma exhaustiva algún tópico. Parte del trabajo de los participantes del curso será elegir un tópico de su interés y profundizar en él. Nos detendremos en donde nos encontremos a gusto y apuraremos el paso cuando consideremos que es mejor hacerlo de esa forma.  


En este sentido, el programa detallado será determinado junto con los participantes, pero abajo listamos algunos de los posibles temas, con la intención de estudiar un subconjunto de ellos.


Programa tentativo


Bibliografía

Libros



Artículos