Matemáticas para el aprendizaje automático
Matemáticas para el aprendizaje automático
El problema del aprendizaje. Aprendizaje supervisado, no supervisado, por refuerzo. La maldición de la dimensionalidad y el dilema sesgo-varianza [Bis, CZ, Hay].
Complejidad, dimensión de Vapnik-Chervonenkis, aprendizabilidad [AB, BHK].
Minimización de funciones: el método del descenso del gradiente [Nes].
Bases ortonormales y Principal Component Analysis.
Sistemas redundantes y sparse dictionary learning [AEB, LBRN].
Desarrollo y aplicaciones contemporáneas de la inteligencia artificial.
El perceptrón y el perceptrón multicapa; relación con la actividad del cerebro [Bis, DA, Hay].
Backpropagation para el cálculo del gradiente [Bis, Hay, BP].
El teorema de aproximación universal [Pin, SCC].
Aproximación con redes profundas [Yar, DHP].
Algoritmos adaptativos de optimización [Zin, DHS, KB].
El método del gradiente estocástico como proceso de difusión [LTE].
Programación dinámica y Policy Iteration [Put].
El algoritmo Reinforce y el Policy Gradient Theorem [SB].
Redes Convolucionales y UNet, invariancias, y análisis de imágenes.
Transformers y procesamiento del lenguaje natural.
Elementos de métodos generativos y modelos de difusión.
[AEB] M. Aharon, M. Elad, A. Bruckstein. K-SVD: An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation.
[AB] M. Anthony, P. L. Bartlett. Neural Network Learning. Theoretical Foundations. Cambridge University Press, 1999.
[Bis] C. M. Bishop. Pattern Recognition and Machine Learning. Springer, 2006.
[BHK] A. Blum, J. Hopcroft, R. Kannan. Foundations of Data Science. Cambridge University Press, 2020.
[BP] J. Bolte, E. Pauwels. A mathematical model for automatic differentiation in machine learning. Conference NIPS 2020.
[CZ] F. Cucker, D. X. Zhou. Learning Theory. An approximation theory viewpoint. Cambridge University Press, 2007.
[DA] P. Dayan, L. F. Abbott. Theoretical Neuroscience. Computational and Mathematical Modeling of Neural Systems. MIT Press, 2001.
[DHP] R. DeVore, B. Hanin, G. Petrova. Neural network approximation. Acta Numerica 30 (2021).
[DHS] J. Duchi, E. Hazan, Y. Singer. Adaptive Subgradient Methods for Online Learning and Stochastic Optimization. Journal of Machine Learning Research 12 (2011).
[GBC] I. Goodfellow, J. Bengio, A. Courville. Deep Learning. www.deeplearningbook.org
[Hay] S. Haykin. Neural Networks and Learning Machines. Pearson, 3 rd ed. 2009.
[KB] D. P. Kingma, J. L. Ba. ADAM: A method for stochastic optimization. Conference ICLR (2015).
[LBRN] H. Lee, A. Battle, R. Raima, A. Ng. Efficient sparse coding algorithms. Advances in Neural Information Processing Systems 19 (NIPS 2006).
[LTE] Q. Li, C. Tai, W. E. Stochastic Modified Equations and Dynamics of Stochastic Gradient Algorithms I: Mathematical Foundations. Journal of Machine Learning Research 20 (2019).
[Nes] Y. Nesterov. Introductory Lectures on Convex Optimization. A Basic Course. Kluwer, 2004.
[Pin] A. Pinkus. Approximation Theory of the MLP model in neural networks. Acta Numerica 8 (1999).
[Put] M. L. Puterman. Markov decision processes: discrete stochastic dynamic programming. Wiley 2014.
[SCC] U. Shaham, A. Cloninger, R. R. Coifman. Provable approximation properties for deep neural networks. Applied and Computational Harmonic Analysis 44 (2018).
[SB] R. S. Sutton, A. G. Barto. Reinforcement learning. An introduction. MIT Press, 2018.
[Yar] D. Yarotski. Error bounds for approximations with deep ReLU networks. Neural Networks 94 (2017).
[Zin] M. Zinkevich. Online Convex Programming and Generalized Infinitesimal Gradient Ascent. Conference ICML (2003).