Geração de relatórios sintéticos com LLMs
e redução de texto baseado em busca semântica
Uma ferramenta para melhorar os sistemas de Retriever.
Uma ferramenta para melhorar os sistemas de Retriever.
Contexto
As plataformas Offshore da Petrobras apresentam falhas operacionais, documentadas em relatórios utilizados para apoiar o sistema interno de Q&A da empresa. No entanto, a escassez de estes relatórios limitam a disponibilidade de dados para um efetivo treinamento em IA. Este estudo investiga uso de IA para gerar relatórios sintéticos para superar as limitações dos dados e explorar se resumindo os relatórios pode produzir dados sintéticos de alta qualidade sem exceder token. Este artigo foi criado para entender como os insumos resumidos podem aprimorar Respostas de IA, melhorando a eficiência do sistema de perguntas e respostas da Petrobras.
Objetivo
O objetivo principal desta pesquisa é explorar a viabilidade de geração de relatórios sintéticos de falhas utilizando IA, abordando as limitações impostas pela escassez de dados e otimizando a eficácia do sistema interno de perguntas e respostas da Petrobras. Especificamente, os objetivos são:
1. Geração de texto sintético: Crie relatórios sintéticos com base em conjuntos de dados simulados ou
dados existentes da Petrobras, garantindo que esses relatórios sintéticos reflitam com precisão
estrutura e conteúdo da documentação de falhas reais.
2. Avaliar as restrições e soluções de tamanho de entrada: investigar o impacto do uso
resumidas versões de relatórios de falhas como prompts de entrada para superar o limite de token
restrições de Grandes Modelos de Linguagem (LLMs) e determinar se os resumos ainda podem
produzir respostas de alta qualidade.
3. Avaliação da qualidade: Definir e aplicar métricas para avaliar a qualidade e relevância
dos relatórios sintéticos e passagens resumidas, comparando-os com reais
relatórios e questionários esperados para validar a eficácia da abordagem proposta.
Um projeto em 3 etapas
Membros do projeto
O projeto foi realizado durante o ano de 2024 por três estudantes de engenharia da computação. Para qualquer informação adicional, recomenda-se a consulta da monografia.
angela.colas@usp.br, jp.aras1@usp.br, carlosjedwab@usp.br | Engenharia de Computação