04 de Julho de 2017
O experimento: sinais de sonar são lançados de um cilindro metálico (imitando uma mina) ou de uma rocha aproximadamente cilíndrica em vários ângulos e sob várias condições. Foram feitas 111 observações a partir do cilindro de metal ("mina") e 97 obtidos a partir da rocha. O sinal transmitido pelo sonar é uma frequência modulada pulsada com frequência crescente. Foram utilizados 90 graus para o cilindro e 180 graus para a rocha. Cada observação é um conjunto de 60 números no intervalo 0 a 1, na qual cada número representa a energia dentro de uma determinado banda de frequência, integrada durante um determinado período de tempo.
Aplicando o método KNN de classificação com k = 1, obteve-se o seguinte resultado.
Antes de aplicar o LDA foi feito o teste de Shapiro Wilk para verificar o pressuposto de normalidade e o teste de Box Cox para verificar o pressuposto de igualdade na matriz de variâncias e covariâncias, ambos os testes mostraram a não verificação das suposições.
Apesar dos pressupostos não terem sido atendidos, o LDA foi realizado e os resultados foram os seguintes.
A análise de discriminante quadrático também precisa do pressuposto de normalidade, mesmo já sabendo que essa suposição não foi atendida, o QDA foi aplicado apresentando os seguintes resultados.
Durante o procedimento de Discriminação Logística, ocorreram problemas de convergência do modelo com todas as variáveis explicativas. Tentou-se ainda, pelo método de seleção de variáveis, fazer um modelo reduzido, porém o procedimento continuou não convergindo.
O método de validação cruzada 10-fold não foi possível de ser implementado nesse banco de dados, pois o tamanho dele foi insuficiente. Logo, para a comparação dos métodos, foi aplicado o método de validação cruzada 3-fold para fazer a média do Erro de Classificação Total (ECT) , que representa a porcentagem média de erros de cada método.
A partir dos resultados acima, nota-se que o melhor dentre os métodos foi o de discriminação logística e logo em seguida o KNN, pois possuem os menores erros de classificação total.
Vale lembrar que o método de discriminação logística obteve erros na convergência, o que pode ter afetado os resultados.