A Geração Aumentada por Recuperação (em inglês, Retrieval-Augmented Generation ou RAG) é uma técnica de inteligência artificial que melhora a qualidade das respostas de Grandes Modelos de Linguagem (LLMs), como o que alimenta o ChatGPT. O RAG permite que o modelo consulte uma base de conhecimento externa e confiável antes de gerar uma resposta.
Imagine que está a fazer um teste. Um LLM tradicional responde com base no conhecimento que "memorizou" durante o seu treino, como um aluno a fazer um teste de memória. Já um LLM com RAG pode consultar um livro ou anotações durante o teste (um "teste com consulta") para garantir que a sua resposta é precisa e baseada em factos.
Os Grandes Modelos de Linguagem, apesar de impressionantes, têm algumas limitações:
Conhecimento Desatualizado: O conhecimento de um LLM está congelado no tempo, limitado aos dados com que foi treinado. Ele não conhece eventos ou informações que surgiram após o seu treino.
"Alucinações": Por vezes, os modelos podem "inventar" factos, informações ou fontes que parecem plausíveis mas são falsas. Isto acontece quando não têm a informação correta na sua base de treino.
Falta de Conhecimento Específico: Um LLM de uso geral não tem acesso a informações privadas ou de nicho de uma empresa (e.g., manuais técnicos, base de dados de clientes, relatórios internos).
Falta de Transparência: É difícil saber de onde o modelo retirou a informação para formular uma resposta, o que gera desconfiança.
O RAG foi criado para resolver diretamente estes problemas, tornando as respostas da IA mais fiáveis, precisas e transparentes.
O processo do RAG pode ser dividido em três passos principais:
1. Recuperação (Retrieval)
Quando um utilizador faz uma pergunta (um prompt), o sistema RAG não envia essa pergunta diretamente ao LLM. Primeiro, ele utiliza a pergunta para pesquisar e recuperar informações relevantes de uma fonte de dados externa. Esta fonte pode ser:
Uma coleção de documentos da empresa (PDFs, e-mails, etc.).
Uma base de dados.
APIs ou mesmo a internet.
Esta pesquisa é frequentemente feita com a ajuda de bases de dados vetoriais (vector databases), que são otimizadas para encontrar informações semanticamente semelhantes à pergunta do utilizador, e não apenas por palavras-chave.
2. Aumento (Augmentation)
A informação relevante encontrada no passo anterior é então adicionada ao prompt original do utilizador. O sistema cria um novo prompt, mais detalhado, que inclui o contexto recuperado.
Prompt Original: "Qual é a política de devolução da nossa empresa?"
Informação Recuperada: "A nossa política, atualizada a 25 de junho de 2024, permite devoluções até 30 dias com o recibo original..."
Prompt Aumentado (enviado ao LLM): "Contexto: A nossa política, atualizada a 25 de junho de 2024, permite devoluções até 30 dias com o recibo original. Pergunta: Qual é a política de devolução da nossa empresa? Responde com base no contexto fornecido."
3. Geração (Generation)
Finalmente, este prompt aumentado é enviado para o LLM. Com o contexto adicional e factual, o modelo pode agora gerar uma resposta precisa, relevante e baseada nos dados fornecidos, em vez de depender apenas do seu conhecimento interno e estático.
Respostas Mais Precisas: Ao basear-se em fontes de dados externas e atuais, o RAG reduz significativamente as "alucinações" e aumenta a fiabilidade das respostas.
Conhecimento Sempre Atualizado: As empresas podem manter as suas bases de conhecimento sempre atualizadas sem a necessidade de retreinar o LLM, um processo caro e demorado. Basta atualizar os documentos na fonte de dados.
Transparência e Confiança: Como o sistema recupera a informação de uma fonte específica, é possível citar a origem dos dados, permitindo que os utilizadores verifiquem a veracidade da resposta.
Custo-Benefício: Implementar o RAG é muito mais económico do que retreinar continuamente um LLM para incluir novos dados ou conhecimento específico de um domínio.
Em resumo, o RAG é uma evolução crucial que transforma os modelos de IA generativa de "sábios" com conhecimento estático em "investigadores" dinâmicos, capazes de encontrar e utilizar a informação mais relevante para dar respostas mais úteis e seguras.