Le RAG (Retrieval Augmented Generation) est une notion importante à comprendre car elle influence les résultats de recherche à nos questions cliniques. Pour dépasser les limites des données de leur entrainement et pour augmenter l'explicabilité en donnant des références, les LLM modernes combinent souvent des approches mixtes. Certains LLM vont ajouter une recherche sur le web avec des références associées.
D'autres outils sont plutôt bâtis comme de gros moteurs de recherche vectorielle et vont se servir des réponses de leur recherche pour "augmenter" leur requête et générer des réponses plus adéquates liées à des références. C'est ce que l'on appelle la Récupération Augmentée par Génération (RAG).
Les RAG utilisent en général une recherche vectorielle plutôt qu'une recherche par mots-clés, bien que parfois les 2 puissent être combinés. Voir le schéma ci-dessous qui explique la différence entre les 2 concepts de recherche:
Comme mentionné dans la page sur Réponse à des questions cliniques, un LLM qui serait pur va être incapable de référencer correctement d'où il tire les informations fournies. Avec le RAG, l'IA va analyser des sources externes et pourra les citer. Ci-dessous, qui montre à gauche un LLM pur, au centre de la recherche vectorielle et à droite un modèle de LLM avec du RAG vectoriel.
Alors que le LLM est entrainé pour trouver le prochain mot:
Un système avec RAG va prendre une requête, transformer cette question en vecteurs (embedding), puis comparer ces vecteurs à une base de vecteurs existante pour trouver les documents les plus pertinents. Ensuite ces documents seront ajoutés comme contexte à la requête du LLM pour générer une meilleure réponse qui pourra être référencée.
Le RAG peut se faire sur l'Internet général (ex. Perplexity configuré web ou même un LLM configuré pour recherche web), sur une base d'articles scientifiques définie (Comme Consensus ou Elicit), sur une base de connaissance (comme OpenEvidence) ou même sur une base de connaissances privée que vous avez créée (comme Notebook LM de Google).
Pour des lectures complémentaires, vous pouvez visiter le site de NVIDIA qui explique le RAG. Ce blogue traite aussi du RAG dans la recherche documentaire.