Machine Learning (2018)
Informações Gerais:
Horário das aulas: 24/9/2017 -- 21/12/2017, sexta-feira 14:20 -- 18:00
Sala: 1028
Horário de atendimento: quinta-feira 10h-11h ou sob agendamente prévio.
AVISO:
- Primeira aula será excepcionalmente segunda-feira dia 24/9/2018
- Aula do dia 14/12/2018 será remarcada
- Data de entrega da lista do dia 23/11 adiada para dia 26/11.
Pré requisitos
É suposto que o aluno possui conhecimentos sobre probabilidade, algebra linear, cálculo multivariado, otimização, e programação.
Objetivo da disciplina
Neste curso os alunos desenvolverão um entendimento sobre os limites sobre o que podemos aprender com os dados e como fazê-lo. O estudante desenvolverá um entendimento sobre os compromissos básicos assumidos quando estimamos modelos baseados nos dados e suas armadilhas mais comuns. Ao fim do curso espera-se que o aluno seja capaz de: implementar (e ser crítico) modelos básicos de machine learning; formular o problema de aprendizagem de máquinas precisamente, em termos das entradas e saídas do modelo; selecionar um modelo e algoritmo adequado para o problema, aplicar este algoritmo em dados reais, e interpretar os resultados; providenciar medidas indicativas de quão efetivo foi o aprendizado; e, idealmente, ler de forma crítica artigos científicos publicados nesta área.
Ementa
O problema do aprendizado estatístico (o que é aprendizado?). Treinamento vs teste (dimensão Vapnik-Chervonenkis, treinamento e generalização). Modelo linear (regressão linear, não linear e logística). Overfitting. Princípios da aprendizagem por máquinas: navalha de Occam, viés de amostra e data snooping. Métodos baseados em similaridade (vizinho mais próximo, funções de base radial, estimação de densidades). Redes neurais (MLP, treinamento, aproximação e regularização). Máquinas de vetor de suporte. Considerações finais (ferramentas utilizadas no aprendizado de máquinas).
Bibliografia obrigatória
[LFD] Abu-Moustafa, Y.S., Magdon-Ismail, M., e Lin H-S. (2012) Learning from data. AMLBook.com.
O livro adotado possui capítulos extras e um forum online book.caltech.edu/bookforum e é usado por vários professores ao redor do mundo e cursos no EDX . Utilizem o forum de forma respeitosa e em sua linguagem original (inglês). Caso percam alguma aula, sugiro que visitem o site amlbook.com e busquem a versão online ministrada por um dos autores. Apesar deste curso ser suficientemente diferente, o material online pode servir de guia.
Avaliação
O aluno será avaliado através de listas de exercícios individuais. Caso o aluno colabore com outros ao solucionar as listas, deve deixar explicito a pessoa e a extensão da contribuição. Alguns exercícios podem estar solucionados na web. Solicito que não copiem a solução por motivos óbvios.
Exercícios:
- (5/10) LFD Ex. 1.10, 1.11, Pr. 1.5, 1.10
- (19/10) LFD Ex 2.4, Pr. 2.19, 2.24
- (26/10) LFD Ex. 3.4 Pr. 3.11, 2.22
- (9/11) LFD Pr. 4.4, 4.25, 5.2, 4.23 (sugerido, mas não obrigatório, ESL 3.27)
- (26/11) (Combinado em sala com alunos) LFD Ex. 6.9 Pr. 6.13, 6.21, 6.22
- (30/11) LFD Ex. 6.13, 6.14 Pr. 6.24, 6.28
- (7/12) (Combinado em sala com alunos) LFD Pr. 7.5,
7.11 (não é exatamente uma pergunda..),7.14 - (21/12) -> 26/12 LFD Pr. 8.5, 8.7, 8.8, 8.14
Calendário (estimado) das aulas - atualizado semanalmente
Bibliografia auxiliar
Livros:
- [ESL] Hastie, T., Tibshirani, R., Friedman, J. (2013) The elements of statistical learning. Springer.
- [DGL] Devroye, L., Gÿorfi, L., e Lugosi, G. (1996) A probabilistic theory of pattern recognition. Springer-Verlag. Avançado
- [MRT] Mohri, M., Rostamizadeh, A., Talwalkar, A. (2012) Foundations of machine learning. MIT Press, Cambridge, MA.
- [SLS] Hastie, T., Tibshirani, R., & Wainwright, M. (2015). Statistical learning with sparsity: the lasso and generalizations. CRC press. Chicago
- Murphy, K.P. (2013) Machine learning: a probabilistic perspective. MIT Press, Cambridge, MA.
- Bühlmann, P. and van der Geer, S. (2012) Statistics for high-dimensional data. Springer.
- Hastie, T., Tibshirani, R., Wainwright, M. (2015) Statistical learning with sparsity. CRC Press.
- Giraud, C. (2015) Introduction to high-dimensional statistics. CRC Press
Artigos e capítulos de livro:
- [BBL] Bousquet, O., Boucheron, S. and Lugosi, G. (2004) Introduction to statistical Learning Theory. Advanced Lectures on Machine Learning: ML Summer Schools 2003, Canberra, Australia, February 2 - 14, 2003, Tübingen, Germany, August 4 - 16, 2003, Revised Lectures.
- [CKV] Celebi, M.E., Kingravi, H.A. and Vela, P.A., 2013. A comparative study of efficient initialization methods for the k-means clustering algorithm. Expert Systems with Applications, 40(1), pp.200-210.
- [SS] Smola, A.J. and Schölkopf, B., 2004. A tutorial on support vector regression. Statistics and computing, 14(3), pp.199-222. (long)
Aproximação universal das Redes Neurais:
- [GC89] Cybenko, George. "Approximation by superpositions of a sigmoidal function." Mathematics of control, signals and systems 2, no. 4 (1989): 303-314.
- [HKS89] Hornik, Kurt, Maxwell Stinchcombe, and Halbert White. "Multilayer feedforward networks are universal approximators." Neural networks 2, no. 5 (1989): 359-366.
- [HSK90] Hornik, Kurt, Maxwell Stinchcombe, and Halbert White. "Universal approximation of an unknown mapping and its derivatives using multilayer feedforward networks." Neural networks 3, no. 5 (1990): 551-560.
- [AB93] Barron, Andrew R. "Universal approximation bounds for superpositions of a sigmoidal function." IEEE Transactions on Information theory 39, no. 3 (1993): 930-945.
- [AB94] Barron, Andrew R. "Approximation and estimation bounds for artificial neural networks." Machine learning 14, no. 1 (1994): 115-133.