Julho de 2017
Diferentes métodos de diagnosticar o câncer de mama estão disponíveis. Por exemplo: mamografia (menos precisa e não invasiva), PAAF, PAG e biópsia excicional (mais precisa e mais invasiva). Apesar da biópsia cirúrgica ser mais precisa na distinção entre protuberâncias malignas e benignas, trata-se de um procedimento invasivo, demorado e caro.
A Punção Aspirativa por Agulha Fina (PAAF) é um procedimento de diagnóstico baseado em imagiologia médica desenvolvido na Universidade de Wisconsin-Madison com o objetivo de diagnosticar o câncer de mama com precisão muito elevada e invasividade mínima. A técnica consiste na retirada de pequena porção de tecido por aspiração através de uma agulha fina e posterior coloração e análise microscópica. Biópsias por punção aspirativa de agulha fina são procedimentos cirúrgicos seguros, muitas vezes evitando biópsias cirúrgicas maiores (excicionais ou abertas).
Os dados fazem referência a dez variáveis observadas na análise microscópica de 569 amostras juntamente com o diagnóstico (confirmado) por biópsia cirúrgica (M = maligno, B = benigno). Em cada amostra há diversos núcleos e foram registradas 3 medidas para cada uma das variáveis referentes à média (.m), valor extremo (.ev) e desvio padrão (.sd), totalizando p = 30 dimensões para o problema de classificação.
O objetivo foi comparar diferentes técnicas de classificação (KNN, LDA, QDA e Logística) para essa base de dados tendo como referência o erro total de classificação e a sensibilidade (verdadeiros positivos) baseado no procedimento leave-one-out (LOO).
Inicialmente, verificou-se as suposições necessárias para que a Análise de Discriminante Linear pudesse ser usada, porém foi notado, por meio do teste de Shapiro-Wilk, que as variáveis xi não são normais e, pelo teste de Box Cox, que as matrizes de variâncias e covariâncias não são iguais.
Apesar das suposições não serem atendidas, o LDA foi aplicado no banco de dados, apresentando os seguintes resultados:
As análises de discriminantes quadráticas são alternativas para dados em que a suposição de normalidade é verdadeira, porém as matrizes de variâncias e covariância são diferentes.
Como foi dito anteriormente, a suposição de normalidade não foi verificada, porém o LQD foi aplicado no banco de dados, apresentando os seguintes resultados.
Durante o procedimento de Discriminação Logística, ocorreram problemas de convergência do modelo com todas as variáveis explicativas, onde todas as probabilidades foram ajustadas para zero ou um, onde probabilidade zero indicaria um tumor beniigno e probabilidade um indicaria um tumor maligno. Tentou-se ainda, pelo método de seleção de variáveis, fazer um modelo reduzido, porém o procedimento continuou não convergindo.
Utilizando a técnica de KNN, onde plota-se os dados e classifica-se a nova observação avaliando a quais grupos pertencem os k vizinhos mais próximos a ela. Utilizando k = 1, foram obtidos os seguintes resultados.
Para comparar os métodos, foi utilizado o método LOO para fazer a média da medida de Erro de Classificação Total, que representa a porcentagem média de erros do método. Além do ECT, também foram feitas as curvas de ROC, que são gráficos que mostram a relação normalmente antagônica entre as sensibilidades e especificidades dos métodos.
O método Leave-One-Out é um procedimento de validação cruzada que divide o banco de dados em cada observação e a partir dessa divisão, uma observação é utilizada para teste e as outras n−1 observações são utilizadas para as estimações dos erros. O procedimento é realizado n vezes alternando o conjunto de teste.
Sensibilidades e Erro de Classificação Total (com Base no LOO)
Considerando os Erros de Classificação Total (ECT), tem-se que o melhor método foi o de discriminação Logística, pois apresentou o menor ECT. Os métodos de LDA e QDA apresentaram os mesmos resultados, e o pior método trabalho foi o KNN com k = 1.
Em relação às sensibilidades, todos os métodos possuem altos valores, tanto em relação aos tumores malignos quanto em relação aos tumores benignos. Porém, se descaram os métodos de Discriminação Logística e KNN, com especificidades de 100% em ambos os tipos de tumor.
Como dito anteriormente na seção de Discriminação Logística, o método não convergiu e os resultados podem ter sido influenciados.
As curvas de ROC permitem evidenciar os valores para os quais existe maior otimização da sensibilidade em função da especificidade que corresponde ao ponto em que se encontra mais próxima do canto superior esquerdo do diagrama, uma vez que o o índice de positivos verdadeiro é 1 e o de falsos positivos é zero.
A medida que um critério para o teste positivo tona-se mais rigoroso, o ponto da curva correspondente a sensibilidade e a especificidade movimenta-se para baixo e para a esquerda (sensibilidade menor e especificidade maior). Se adotar um critério menos evidente, para identificar os positivos, o ponto da curva se movimentará para cima e para a direita (sensibilidade maior, especificidade menor).
É importante ressaltar que a curva de ROC referente ao método de Discriminação Logística ficou como apresentado acima pelo fato de todos os pontos terem coincido na especificidade 1 e no índice de falsos positivos 0.