Parte 1 - Perceptron
Treinamento supervisionado vs. não supervisionado - Explique a diferença entre treinamento supervisionado e não supervisionado, destacando qual se aplica ao perceptron clássico.
Função de ativação - Qual a função de ativação empregada originalmente no perceptron? Qual a principal limitação dessa escolha?
Limitações do perceptron - Qual a principal limitação do perceptron em termos de capacidade de classificação? Cite um exemplo clássico de problema que ele não resolve.
Dimensão da matriz de pesos - Um perceptron é treinado para atuar como classificador em um problema com 10 classes. Dado que os vetores de entrada têm 20 atributos (variáveis), determine: (a) a dimensão da matriz de pesos sinápticos (incluindo o nó bias); (b) o número total de parâmetros (pesos e bias).
Inicialização de pesos - Qual a estratégia recomendada para a inicialização dos pesos sinápticos de um perceptron? Por que não é adequado inicializá-los todos com zero?
Embaralhamento de amostras - Qual o objetivo do embaralhamento (shuffling) dos vetores no conjunto de treinamento no início de cada época? Quando é recomendável empregá-lo?
Pré-processamento dos dados - Qual a diferença entre min-max scaling e padronização ? Em que situações a padronização é mais indicada?
Parâmetros vs. Hiperparâmetros - Qual a diferença entre parâmetros e hiperparâmetros em um modelo de aprendizado de máquina? Dê exemplos no caso do perceptron.
Parte 2 - MLP
Pré-processamento dos dados
Qual o objetivo da normalização das variáveis de entrada no treinamento de uma rede neural?
Descreva uma situação na qual pode ser necessário normalizar os alvos (targets) no treinamento supervisionado de um MLP.
Num dado problema de regressão, a função de ativação na camada de saída de um MLP é a (logsig). Sabendo-se que os alvos variam de –0.5 a 0.9, pergunta-se: será necessário normalizar os alvos? Para qual intervalo? E se fosse usada a função tansig?
Taxa de aprendizado e treinamento
Quais as desvantagens de empregar uma taxa de aprendizado fixa muito elevada? E muito pequena?
Quais os possíveis benefícios decorrentes do uso de taxas de aprendizado decrescentes no treinamento de MLPs?
Descreva duas formas de acelerar a convergência no treinamento de um MLP.
O que é o problema do gradiente evanescente? Como afeta o treinamento de MLPs? Como mitigar esse problema?
Funções de ativação e performance
Qual a diferença entre funções de ativação (de neurônios) e funções de performance (no treinamento supervisionado)? Cite 3 funções de cada tipo.
Em que camada de um MLP a função de ativação softmax é empregada?
O que é a saturação dos neurônios em um MLP? Como prevenir sua ocorrência?
Cite uma função de ativação tipicamente empregada em redes neurais profundas por reduzir a saturação dos neurônios no treinamento supervisionado. Esboce seu gráfico.
Posso utilizar uma função de ativação softmax na camada de saída de um MLP empregado em um problema de previsão de séries temporais? Justifique sua resposta.
Hiper-parâmetros, critérios de parada e regularização
Descreva 5 hiper-parâmetros de um MLP.
Descreva 5 critérios de parada para o treinamento de um MLP.
O que é overfitting? Descreva 2 maneiras para preveni-lo.
Cite 2 tipos de regularização.
Estrutura e número de parâmetros
Um MLP é treinado como um classificador de um dataset com 10 classes. O MLP tem 2 camadas escondidas, com 5 e 8 neurônios respectivamente. Se os vetores de entrada têm 6 atributos, e usa-se codificação one-hot dos alvos, pergunta-se: quantos parâmetros livres há nesse MLP?
Avaliação de desempenho
Um classificador neural binário é avaliado por meio de um conjunto de teste balanceado com 100 vetores. Sabendo que a sensibilidade da 1ª classe é 80%, e que a precisão da 2ª classe é 70%, monte a matriz de confusão deste classificador, indicando os valores de precisão e sensibilidade por classe, bem como a acurácia.
Séries temporais
Como é construído o conjunto de treinamento de um MLP em um problema de previsão de séries temporais? Como é feita a separação entre o conjunto de treinamento e teste? Pode-se usar *shuffling* nessa situação?
Redução de dimensionalidade
Cite 3 alternativas para a redução de dimensionalidade no treinamento de um MLP.
Interpretação de curvas de treinamento
Sobre a Figura 1, que descreve o treinamento de um MLP, pergunta-se: (a) Qual a função de performance do MLP? (b) Quantas épocas durou o treinamento? (c) Em que época o erro de treinamento foi mínimo? (d) Em que época o erro de validação foi mínimo? (e) Se fosse usado early stopping, com número máximo de falhas de validação igual a 4, em que época o treinamento seria interrompido? Nesse caso, o estado final da RNA seria dado pelos pesos sinápticos de qual época? Justifique sua resposta.
Parte 3 - Classificador Naive Bayes
Qual a premissa que torna os classificadores naive bayes ingênuos (naive)?
O que é PCA? Quais as possíveis vantagens de empregar PCA: (a) no treinamento de MLPs? (b) no treinamento de classificadores bayesianos?
Sejam A e B dois eventos independentes. Se P(A)=0.75, e P(B|A)=0.5, qual o valor de P(B)?
Dados P(A)=0.8, P(B|A)=0.9 e P(A|B)=0.95, calcule P(B).
Sejam A, B e C eventos independentes. Seja D o evento conjunto, i.e., A intersecção B interseção C. Sejam P(A)=0.9, P(B)=0.8 e P(C)=0.5 as probabilidades marginais dos eventos A, B e C. Calcule P(D).
Parte 4 - Árvores de Decisão
Sobre a Figura 2, que ilustra a divisão do espaço de atributos (x1 e x2, nos eixos horizontal e vertical, respectivamente) em hiper-retângulos mapeando classes distintas, pede-se: (a) Esboce uma árvore de decisão binária correspondente ao mapeamento da Figura 2; (b) Quantos nós de decisão tem essa árvore? (c) Quantos nós folha há nessa árvore? (d) Qual a profundidade dessa árvore? (e) Escreva uma base de regras correspondente à essa árvore de decisão. (f) Quantas regras há nessa base de regras?
Cite 3 diferenças entre os algoritmos ID3 e CART.
Descreva 3 parâmetros que podem ser utilizados para prevenir o overfitting no treinamento em árvores de decisão.
Quais as 2 razões pelas quais ao induzir árvores de decisão diversas vezes, com o mesmo conjunto de treinamento e sem modificar nenhum parâmetro, pode-se obter árvores diferentes?
A Figura 3 representa uma etapa da indução de uma árvore de decisão. Deve-se escolher entre os parâmetros A1 e A2 para o teste no nó de decisão atual. A distribuição das amostras (entre as 2 classes) nos nós-filhos são exibidas para ambos os casos (i.e., escolhendo A1 ou A2). Decida qual o melhor atributo a ser selecionado utilizando: (a) o índice de Gini; (b) a entropia.
Figura 1
Figura 2
Figura 3