Para o SR2, o grupo decidiu seguir com uma maneira alternativa de definir a probabilidade de um atestado ser aceito, a mudança foi feita para melhorar a correlação e eficiência dos modelos. Vale lembrar que pelo grupo não ter conseguido acesso aos dados do cliente a implementação dos modelos ficou muito limitada pois o grupo teve que trabalhar com dados gerados aleatoriamente durante o processo. O grupo chegou a receber uma parte dos dados que estavam divididos em 6 arquivos do excel, mas eram todos empresariais, com poucas linhas e que não tinham valor para a solução. Como pode ser visto na imagem abaixo, tem muitas informações utéis mas somente 6 linhas, então o grupo seguiu para uma segunda opção que seria gerar dados baseado nesse arquivo.
Como a categorização de CIDs é algo muito complexo e não tivemos acesso aos CIDs utilizados pelo cliente, usamos uma categorização de 20 capítulos, com as suas probabilidades de serem aceitas decididas pelo grupo. A intenção do grupo era receber os dados do cliente e, com base neles, prever se um atestado seria aceito ou não. No entanto, como isso não foi possível, tivemos que decidir entre dois caminhos. O primeiro seria a criação das probabilidades com base no conhecimento do grupo, escolha que o grupo seguiu. O segundo seria basear-se em um conjunto de dados criado aleatoriamente pelo grupo e pegar a quantidade de vezes que um atestado que possui uma CID e tempo específico aparece, formando assim as probabilidades, por exemplo, vendo quantas vezes os atestados de pacientes diagnosticados com a CID 1 vão ser aprovados quando tiverem 3 dias de licença, digamos que 100 foram aprovados e 50 reprovados, então a cada 3 pacientes, 2 seriam aprovados, tendo assim a probabilidade de 66.6%. Contudo, como os dados foram gerados aleatoriamente, essas probabilidades ficariam desproporcionais e não condizentes com a realidade. Portanto, a segunda ideia foi descartada.
Capitulos da CID escolhidos:
Capítulo I: Algumas doenças infecciosas e parasitárias
Capítulo II: Neoplasias [tumores]
Capítulo III: Doenças do sangue e dos órgãos hematopoéticos e alguns transtornos imunitários
Capítulo IV: Doenças endócrinas, nutricionais e metabólicas
Capítulo V: Transtornos mentais e comportamentais
Capítulo VI: Doenças do sistema nervoso
Capítulo VII: Doenças do olho e anexos
Capítulo VIII: Doenças do ouvido e da apófise mastoide
Capítulo IX: Doenças do aparelho circulatório
Capítulo X: Doenças do aparelho respiratório
Capítulo XI: Doenças do aparelho digestivo
Capítulo XII: Doenças da pele e do tecido subcutâneo
Capítulo XIII: Doenças do sistema osteomuscular e do tecido conjuntivo
Capítulo XIV: Doenças do aparelho geniturinário
Capítulo XV: Gravidez, parto e puerpério
Capítulo XVI: Algumas afecções originadas no período perinatal
Capítulo XVII: Malformações congênitas, deformidades e anomalias cromossômicas
Capítulo XVIII: Sintomas, sinais e achados anormais de exames clínicos e de laboratório, não classificados em outra parte
Capítulo XIX: Lesões, envenenamento e algumas outras consequências de causas externas
Capítulo XX: Causas externas de morbidade e mortalidade
Criamos um segundo dataset somente com as colunas de CID e Tempo, simulando um atestado para poder usar um modelo de predição para auxiliar na decisão dos atestados serem aceitos ou não
O grupo aplicou os modelos de árvore de decisão, random forest e GBDT e comparou os seus resultados para poder saber qual seria o melhor para a solução. No caso do grupo, o GBDT foi o que melhor se encaixou, dando um resultado muito superior aos outros modelos testados anteriormente como o KNN
KNN
Acurácia: 71.6%
Melhor k: 8
Caso aplicado a validação cruzada, ele ficaria com 76% de acurácia
Decision tree
Random Forest
GBDT
Por fim, aplicamos o modelo GBDT no dataset que simularia os atestados, adicionando assim uma coluna de Resultado, onde o número 0 representaria os atestados aceitos e o número 1 representaria os atestados recusados