A reescrita de dados enriquece o banco de dados, dando mais contexto aos dados para melhorar a precisão das respostas do Retriever.
Processamento de PDFs em entrada
A etapa de partição é usada para segmentar o arquivo pdf em blocos estruturados (texto e tabelas) de acordo com os títulos, enquanto configura limites de tamanho para agrupar ou dividir o texto conteúdo. Ao dividir os documentos em peças menores e mais definidas, torna-se mais fácil processá-los com ferramentas de processamento de linguagem natural ou outros algoritmos de IA, porque estes ferramentas funcionam melhor em dados organizados de tamanho apropriado. Isso também facilita o gerenciamento as diferentes secções do documento (tabelas e texto) para tratamento diferenciado.
A parte de classificação passa pelos elementos extraídos do PDF e classifica-los em duas categorias: elementos do tipo "tabela" e elementos do tipo "texto", de acordo com o seu tipo, em seguida, adiciona-los a uma lista categorized_elements como objetos contendo o tipo e o texto associado.
Código de reescrita
Esta parte do código reformula elementos de texto e tabelas a partir de um documento, manter o seu conteúdo, alterando a sua redação. Um prompt forte foi criado, o chat GPT 4o mini foi usado para reescrever os chunks, os chunks são vinculados e um documento pdf é criado como saída.
angela.colas@usp.br, jp.aras1@usp.br, carlosjedwab@usp.br | Engenharia de Computação