"Como trabalhar com grandes volumes de dados de forma centralizada visando apresentar informações úteis para melhorar as estratégias da empresa"
O dataset retrata atestados médicos que a SafeCare é encarregada de fazer a intermediação entre o colaborador/paciente e a empresa do colaborador. A base de dados foi gerada por código por meio da dependência Faker da linguagem Python. As colunas bem como o formato dos seus valores foram baseados nos dados verdadeiros que a SafeCare possui. Essas são as colunas do dataset gerado:
Nome: nome do colaborador
CPF: CPF do colaborador
Data: data em que o atestado foi emitido
Unidade Atendimento: Nome do Hospital, clínica ou outro departamento médico,
Nome Prescrito: nome do médico que prescreveu o atestado,
CRM: CRM do prescritor,
Tempo: tempo em dias de afastamento do colaborador,
Hora de Entrada: hora da entrada do paciente,
Hora de Saída:hora da saída do paciente,
CID: Classificação Estatística Internacional de Doenças e Problemas Relacionados com a Saúde,
Aceito: se a empresa aceitou o atestado ou não,
Observação: observação,
Origem: SUS, Hospital Particular, clinica, etc
Recepção: recepção,
Especialidade: especialidade médica.
Foi criada uma lógica para que uma probabilidade do atestado ser aceito ou não fosse calculado durante a geração das linhas. Sendo assim, essa probabilidade foi usada para definir o valor da coluna ‘Aceito’.
Infelizmente, para o SR1 não foi possível a utilização de uma base de dados do cliente, devido a limitações de comunicação com o cliente que geraram falta de tempo para que o processo de obtenção dos dados fosse realizado. Para o uso da própria base de dados da SafeCare seria necessário um processo contratual que se tornou inviável para o contexto do SR1. Porém é visado o uso da base de dados da SafeCare para o SR2.
Podem existir CIDS (especialidades médicas) que devido a sua gravidade e impacto podem gerar mais atestados aprovados. Exemplos: atestados de cardiologia podem ser considerados mais graves que atestados dermatológicos.
Um tempo de afastamento muito grande provavelmente terá mais chance de ser reprovado
Essa análise vai mudar quando o grupo tiver acesso aos dados do cliente
A correlação foi fraca porque os dados foram gerados aleatoriamente, eles não tiveram relação, a única exceção foi CID e Aceito pois definimos a partir da gravidade do CID a probabilidade de uma pessoa ser aceita ou não.
Foi utilizado as métricas de classificação mais populares em todos os modelos, a Acurácia, Precisão, Recall e F1-Score
Resultado das métricas no KNN com validação cruzada:
O resultado foi o esperado, valores baixos por causa do problema da geração dos dados, que faz com que a correlação entre as colunas tendam a 0.
Aplicar um modelo K-NN para descobrir se o atestado é aceito ou não.
Resultado do KNN
Resultado do KNN com a validação cruzada:
(o link para o colab esta na seção de links do relatório)
Passar pelo processo contratual e adquirir a base de dados da SafeCare.
Começar o processo de centralização dos dados.
Refazer as análises e hipóteses com a base de dados verdadeira.
Possivelmente remodelar o nosso modelo ML.