Algoritmo Genético
Modelo Matemático apoiado por um Algoritmo Genético para classificação de Fake News na Web
Somos um projeto de pesquisas formado por alunos do curso técnico em informática juntamente com professores da área de informática e filosofia. Considerando os problemas gerados a partir da disseminação das fake news, foi desenvolvido um modelo matemático inspirado em [Ferreira et al. 2020], tomado aqui como trabalho de referência, para classificar e detectar as notícias falsas publicadas em sites. Este projeto foi aprovado a partir do edital 53/2020 da PROPES.
Equipe de desenvolvimento
Ana Luisa D. Almeida, discente do 2° ano de Técnico em Informática no Instituto Federal de Mato Grosso - Campus Pontes e Lacerda Fronteira Oeste
Gabriel C. Carrara, discente do 3° ano de Técnico em Informática no Instituto Federal de Mato Grosso - Campus Pontes e Lacerda Fronteira Oeste
Isabele B. Prates, discente do 2° ano de Técnico em Informática no Instituto Federal de Mato Grosso - Campus Pontes e Lacerda Fronteira Oeste
Letícia C. T. Nascimento, discente do 3° ano de Técnico em Informática no Instituto Federal de Mato Grosso - Campus Pontes e Lacerda Fronteira Oeste
Pedro H. O. Souza, discente do 3° ano de Técnico em Informática no Instituto Federal de Mato Grosso - Campus Pontes e Lacerda Fronteira Oeste
Thiago R. Almeida, discente do 2° ano de Técnico em Informática no Instituto Federal de Mato Grosso - Campus Pontes e Lacerda Fronteira Oeste
Renato C. Cani, Professor de Filosofia no Instituto Federal de Mato Grosso - Campus Pontes e Lacerda Fronteira Oeste
João Gabriel R. Silva, Professor de Informática no Instituto Federal de Mato Grosso - Campus Pontes e Lacerda Fronteira Oeste
Desenvolvimento do projeto
O modelo deste trabalho estabelece sete critérios correspondentes a elementos estruturais de uma notícia, que foram selecionados usando como base o trabalho de referência [Ferreira, 2020], estes critérios são: C1) Existência Autor; C2) Título da notícia em caixa alta; C3) Nota do (Page Rank) do site; C4) Posição do site que veicula a notícia analisada no ranking do Google; C5) Quantidade de notícias similares; C6) Média do (Page Rank) das notícias similares; C7) Média das posições dos sites que veiculam notícias similares. Para cada notícia, são extraídas informações que resultam em notas para cada um dos critérios. Em seguida, foi aplicado um algoritmo genético (AG) com o objetivo de encontrar o melhor balanceamento entre os pesos atribuídos a cada critério, a fim de identificar os fatores que mais impactam a classificação de notícias.
O objetivo deste trabalho é desenvolver um algoritmo genético que melhore a ponderação dos valores de cada critério, trazendo aprimoramento da acurácia da avaliação da veracidade das notícias. Ao todo, foi utilizado 100 notícias veiculadas em sites, sendo 50 delas para ajuste dos parâmetros do algoritmo genético e 50 delas para sua validação. Nesta pesquisa, promovemos modificações no modelo matemático para classificação de fake news apresentado por [Ferreira et al. 2020] visando uma melhor taxa de acertos na identificação das notícias.
Algoritmo Genético
Algoritmo genético - Os AG's são algoritmos de inteligência computacional inspirados na teoria da evolução e são facilmente aplicáveis a problemas de otimização, requerendo apenas a modelagem de indivíduos como exemplos de soluções e de uma função de aptidão a mensurar a qualidade dos indivíduos [Holland John 1975].
Em nosso trabalho, formulamos um indivíduo como sendo um vetor de 7 posições, no qual cada valor corresponde à relevância de um dos critérios. As restrições impostas pelas Equações 2 e 3 devem ser respeitadas por todos os indivíduos.
Equação 2 Equação 3
N
Ci ∈ [0,1] ∀i ≤ N ∑ Pi= 1
i=1
Os parâmetros do algoritmo genético utilizados foram 100 indivíduos submetidos a 100 gerações com taxa de cruzamento de 50% e de mutação de 5%.
O extrator de valores dos critérios a partir da URL da notícia, a busca por notícias similares e o algoritmo genético foram implementados na linguagem de programação Python, com auxílio de bibliotecas (urllib.request, requests, search, difflib, urlparse, sys, json).
Código:
Resultados
P = Pesos
C = Critérios 1 (Existência Autor) , Critérios 2 (Título da notícia em caixa alta), Critérios 3 ( Nota do (Page Rank) do site) , Critérios 4 (Posição do site que veicula a notícia analisada no ranking do Google), Critérios 5 (Quantidade de notícias similares),Critérios 6 (Média do (Page Rank) das notícias similares), Critérios 7 (Média das posições dos sites que veiculam notícias similares.)
C1 C2 C3 C4 C5 C6 C7
Pesos encontrado pelo indivíduo
Comparação entre as classificações
Algumas considerações do projeto
Neste trabalho, desenvolvemos um algoritmo genético para ajuste de parâmetros de um modelo matemático modificado para classificação de fake news na Web; A abordagem apresentada foi eficiente, visto que obteve taxa de acerto maior que a taxa alcançada pelo trabalho antes da modificação; Trabalhos futuros consistem na coleta de um maior número de notícias da Web e na utilização de outras técnicas de inteligência computacional.
*Curiosidades do projeto*
Este projeto teve o privilégio de participar de um evento da comunidade IF "WORKIF", " Festival da Mentira do IFMT campus Primavera do Leste" e de ser aceito em um evento nacional "ENCOMPIF".
Apresentação do Projeto realizada no Festival da Mentira do IFMT campus Primavera do Leste no dia 12/12/2020
Apresentação do Projeto no 7º Workshop de Ensino, Pesquisa, Extensão e Inovação do IFMT
Aceite para a publicação do Artigo do Projeto no Encontro Nacional de Computação dos Institutos Federais