Algoritmo Genético

Modelo Matemático apoiado por um Algoritmo Genético para classificação de Fake News na Web

Somos um projeto de pesquisas formado por alunos do curso técnico em informática juntamente com professores da área de informática e filosofia. Considerando os problemas gerados a partir da disseminação das fake news, foi desenvolvido um modelo matemático inspirado em [Ferreira et al. 2020], tomado aqui como trabalho de referência, para classificar e detectar as notícias falsas publicadas em sites. Este projeto foi aprovado a partir do edital 53/2020 da PROPES.

Equipe de desenvolvimento

Ana Luisa D. Almeida, discente do 2° ano de Técnico em Informática no Instituto Federal de Mato Grosso - Campus Pontes e Lacerda Fronteira Oeste


Gabriel C. Carrara, discente do 3° ano de Técnico em Informática no Instituto Federal de Mato Grosso - Campus Pontes e Lacerda Fronteira Oeste


Isabele B. Prates, discente do 2° ano de Técnico em Informática no Instituto Federal de Mato Grosso - Campus Pontes e Lacerda Fronteira Oeste


Letícia C. T. Nascimento, discente do 3° ano de Técnico em Informática no Instituto Federal de Mato Grosso - Campus Pontes e Lacerda Fronteira Oeste


Pedro H. O. Souza, discente do 3° ano de Técnico em Informática no Instituto Federal de Mato Grosso - Campus Pontes e Lacerda Fronteira Oeste


Thiago R. Almeida, discente do 2° ano de Técnico em Informática no Instituto Federal de Mato Grosso - Campus Pontes e Lacerda Fronteira Oeste


Renato C. Cani, Professor de Filosofia no Instituto Federal de Mato Grosso - Campus Pontes e Lacerda Fronteira Oeste


João Gabriel R. Silva, Professor de Informática no Instituto Federal de Mato Grosso - Campus Pontes e Lacerda Fronteira Oeste


Desenvolvimento do projeto

O modelo deste trabalho estabelece sete critérios correspondentes a elementos estruturais de uma notícia, que foram selecionados usando como base o trabalho de referência [Ferreira, 2020], estes critérios são: C1) Existência Autor; C2) Título da notícia em caixa alta; C3) Nota do (Page Rank) do site; C4) Posição do site que veicula a notícia analisada no ranking do Google; C5) Quantidade de notícias similares; C6) Média do (Page Rank) das notícias similares; C7) Média das posições dos sites que veiculam notícias similares. Para cada notícia, são extraídas informações que resultam em notas para cada um dos critérios. Em seguida, foi aplicado um algoritmo genético (AG) com o objetivo de encontrar o melhor balanceamento entre os pesos atribuídos a cada critério, a fim de identificar os fatores que mais impactam a classificação de notícias.

O objetivo deste trabalho é desenvolver um algoritmo genético que melhore a ponderação dos valores de cada critério, trazendo aprimoramento da acurácia da avaliação da veracidade das notícias. Ao todo, foi utilizado 100 notícias veiculadas em sites, sendo 50 delas para ajuste dos parâmetros do algoritmo genético e 50 delas para sua validação. Nesta pesquisa, promovemos modificações no modelo matemático para classificação de fake news apresentado por [Ferreira et al. 2020] visando uma melhor taxa de acertos na identificação das notícias.

Algoritmo Genético

Algoritmo genético - Os AG's são algoritmos de inteligência computacional inspirados na teoria da evolução e são facilmente aplicáveis a problemas de otimização, requerendo apenas a modelagem de indivíduos como exemplos de soluções e de uma função de aptidão a mensurar a qualidade dos indivíduos [Holland John 1975].

Em nosso trabalho, formulamos um indivíduo como sendo um vetor de 7 posições, no qual cada valor corresponde à relevância de um dos critérios. As restrições impostas pelas Equações 2 e 3 devem ser respeitadas por todos os indivíduos.

Equação 2 Equação 3

N

Ci ∈ [0,1] ∀i ≤ N ∑ Pi= 1

i=1

Os parâmetros do algoritmo genético utilizados foram 100 indivíduos submetidos a 100 gerações com taxa de cruzamento de 50% e de mutação de 5%.

O extrator de valores dos critérios a partir da URL da notícia, a busca por notícias similares e o algoritmo genético foram implementados na linguagem de programação Python, com auxílio de bibliotecas (urllib.request, requests, search, difflib, urlparse, sys, json).

Código:

Resultados

P = Pesos

C = Critérios 1 (Existência Autor) , Critérios 2 (Título da notícia em caixa alta), Critérios 3 ( Nota do (Page Rank) do site) , Critérios 4 (Posição do site que veicula a notícia analisada no ranking do Google), Critérios 5 (Quantidade de notícias similares),Critérios 6 (Média do (Page Rank) das notícias similares), Critérios 7 (Média das posições dos sites que veiculam notícias similares.)

C1 C2 C3 C4 C5 C6 C7

Pesos encontrado pelo indivíduo

Comparação entre as classificações

Algumas considerações do projeto

Neste trabalho, desenvolvemos um algoritmo genético para ajuste de parâmetros de um modelo matemático modificado para classificação de fake news na Web; A abordagem apresentada foi eficiente, visto que obteve taxa de acerto maior que a taxa alcançada pelo trabalho antes da modificação; Trabalhos futuros consistem na coleta de um maior número de notícias da Web e na utilização de outras técnicas de inteligência computacional.

*Curiosidades do projeto*

Este projeto teve o privilégio de participar de um evento da comunidade IF "WORKIF", " Festival da Mentira do IFMT campus Primavera do Leste" e de ser aceito em um evento nacional "ENCOMPIF".

Apresentação do Projeto realizada no Festival da Mentira do IFMT campus Primavera do Leste no dia 12/12/2020

Apresentação do Projeto no 7º Workshop de Ensino, Pesquisa, Extensão e Inovação do IFMT

Aceite para a publicação do Artigo do Projeto no Encontro Nacional de Computação dos Institutos Federais