Uma ferramenta de resumo de dados selecionados com base na pergunta feita na entrada do Retriever foi desenvolvido nesta parte. As passagens muito longas (comum em tabelas) não são aceitas pela LLM. Essa ferramenta permite aumentar o limite de contexto das LLMs na etapa de geração de respostas.
O resumo de dados utilizando um embedder, um splitter e um scorer funciona como um pipeline estruturado em três etapas principais:
Embedder: Primeiro, utiliza-se um embedder para transformar os dados em representações numéricas (embeddings). Essas representações capturam os significados e as relações entre as partes do texto, facilitando a comparação e análise. Ferramentas como modelos de linguagem (ex.: BERT, Sentence Transformers) são frequentemente usadas para essa etapa.
Splitter: Em seguida, o splitter divide o texto em segmentos menores, como parágrafos ou frases, garantindo que cada parte seja gerenciável e significativa. Essa divisão é essencial para evitar a perda de informações importantes e para garantir que o algoritmo lide com blocos de texto adequados ao processamento.
Scorer: Por fim, o scorer atribui uma pontuação a cada segmento, avaliando sua relevância em relação ao objetivo do resumo. Essa avaliação pode ser baseada em similaridade semântica, frequência de palavras-chave ou métricas específicas para o contexto do texto. Os segmentos com pontuação mais alta são então selecionados para compor o resumo final.
angela.colas@usp.br, jp.aras1@usp.br, carlosjedwab@usp.br | Engenharia de Computação