L'intelligence artificielle peut nous aider à palier à un manque de connaissances soit pour une question clinique ou sur le plan académique pour monter par exemple un cours ou une présentation.
Tous les éléments discutés antérieurement, comme la manière de faire une requête correctement, la possibilité d'erreurs générées (hallucinations, bullshitting), de biais, doivent être pris en compte, car le clinicien demeure toujours responsable de l'emploi qu'il fera des résultats de sa requête.
Le principal problème en médecine avec les outils d'IA, c'est qu'ils peuvent être dans l'erreur avec confidence! Ce sont d'excellents politiciens!
Une étude récente de mars 2025: AI Search Has A Citation Problem, démontre le taux alarmant de fausses réponses. de pages 404, ... Au lieu d'admettre qu'elle ignore la réponse, l'IA a tendance à inventer une réponse avec confidence.
Lorsque le clinicien doit répondre à une question clinique, il peut utiliser plusieurs sources d'information à sa disposition. Ci-dessous, un exemple de sources d'information possibles:
Il n'existe malheureusement pas UN outil d'IA qui va à la fois couvrir toutes ces sources d'information et donner le poids qui devrait convenir à chacune de ces sources.
Il n'est pas évident de regrouper les divers outils d'IA, chacun ayant des caractéristiques propres, ses forces et ses faiblesses, mais pour simplifier, nous avons divisé en 3 catégories d'IA qui peuvent aider à trouver de l'information clinique, soit:
Les LLM d'IA généraux comme ChatGPT qui a propulsé les LLM fin 2022. Initialement des LLM purs, ils offrent en général maintenant une recherche en temps réel sur le web.
Les LLM qui vont se concentrer sur des bases d'articles scientifiques. L'Université Laval offre actuellement des licences à Elicit Plus en projet pilote
Les LLM entrainés spécifiquement sur des bases de données médicales.
Dans la section Académisme, nous avons également mis NotebookLM qui permet de limiter sa recherche à ses propres notes (RAG privé).
À ces 3 catégories, il s'ajoute une 4e catégorie qui elle vise à poser des hypothèses diagnostiques à partir du tableau clinique du patient.
Rechercher dans l'Internet général comporte ses avantages vu la multiplicité des sources de données, mais augmente le risque de réponses moins pertinentes, biaisées ou basées sur des inférences.
Concentrer ses recherches uniquement sur des articles médicaux scientifiques limite ces risques, mais néglige le fait qu'une grande partie du savoir médical utilisé pour nos décisions cliniques ne provient pas d'articles scientifiques récents, mais de livres médicaux, de guides de pratique comme ceux de l'INESSS ou d'autres sources d'organismes scientifiques et gouvernementaux qui ne sont pas publiés sous forme d'articles scientifiques. Se priver de ce savoir peut éclipser la meilleure réponse à nos questions cliniques.
Certains outils vont se concentrer sur leur propre base de données médicales déjà structurées. Encore une fois, bien que moins à risque d'erreurs, elles ne donneront pas accès aux guides plus régionaux. On pense par exemple à l'antibiorésistance qui peut varier considérablement d'une région à l'autre.
Donc, avant d'utiliser un agent d'IA pour répondre à une question clinique, il faut bien se questionner sur ce que l'on recherche et où l'on pense que l'IA devrait trouver la réponse. Le "One size fits all" n'existe pas.
Avant de se servir des données, il faut valider les sources, il y a souvent des erreurs, même dans les outils plus ciblés, ne serait-ce que sur l'interprétation que l'IA aura fait de l'information provenant de sa source.
Outils d'IA(LLM) généraux
Les LLM généraux peuvent s'avérer pratiques pour nous orienter vers des pistes de solution à une question clinique si celle-ci est bien formulée (voir L'art de la requête), car leur emploi est convivial et rapide.
Cependant:
De part leur entrainement sur l'Internet général et leur structure, ce sont les outils qui demeurent le plus à risque d'erreurs (appelées hallucinations, bullshitting,...).
Un LLM pur ne peut pas véritablement citer ses références de manière fiable, et c'est l'une de ses limitations majeures.
Quand un LLM pur semble "citer" des sources, il :
Reproduit des patterns vus durant l'entraînement (format de citation, noms d'auteurs fréquents)
Génère des références plausibles basées sur des associations statistiques
"Hallucine" souvent des citations qui semblent réalistes mais sont inventées.
Pourquoi c'est problématique:
Pas de traçabilité : Le LLM ne "sait" pas d'où vient une information spécifique.
Mélange d'informations : Une "réponse" peut combiner des éléments de milliers de sources différentes.
Fausses citations : Le modèle peut inventer des DOI, des noms d'auteurs, ou des titres d'articles qui n'existent pas.
De plus en plus, les grands LLM ajoutent des récherches sur Internet, et donc peuvent fournir certaines références vérifiables.. Mais il peut encore arriver que le LLM soit trop confiant et invente sa référence provenant du mode LLM au lieu de ses références Internet, surtout si vous lui demandez ses références. Même avec la recherche sur Internet, il arrive que la référence n'existe plus ou ne corresponde pas exactement avec l'objet de la recherche. Revoir l'article: AI Search Has A Citation Problem
Ce que vous devriez faire:
Vérifiez que la référence existe.
Soyez critique pour les faits spécifiques importants.
Croisez les informations pour les décisions importantes.
Tout en demeurant prudent et vigilant, certaines études dont celle-ci tendent à démontrer que le clinicien assisté d'un LLM a de meilleures performances que s'il n'utilise que des moyens de recherche traditionnels.
Le 27 mars 2025, Anthropic, développeurs de Claude AI, ont publié leurs études sur "Tracing the thoughts of a large language model". Les résultats peuvent parfois être perturbants! Malheureusent, l'on constate que les LLM peuvent fournir une réponse exacte mais inventer totalement un pseudo-raisonnement qui semble logique mais n'est pas valide pour arriver à cette réponse! Il faut donc demeurer prudent et critique face aux réponses fournies. Il y a également un article "On the Biology of a Large Language Model" avec une partie sur Medical Diagnosis.
L'étude "STRATEGIC INTELLIGENCE IN LARGE LANGUAGE MODELS EVIDENCE FROM EVOLUTIONARY GAME THEORY" parue le 4 juillet 2025 permet d'en apprendre davantage sur les stratégies utilisées par de grands LLM, comme ceux de Google, OpenAI et Anthropic. On y voit que les LLM peuvent "exploiter" l'adversaire pour gagner.
Il faut noter également qu'une simple recherche Google standard nous donne désormais un résumé généré également par Gemini.
Notez que de vous inscrire gratuitement et vous connecter au LLM que vous souhaitez explorer et utiliser (par courriel, compte Apple, Microsoft ou Google) vous permettra non seulement de conserver un historique de vos conversations, mais également de débarrer des outils comme de joindre des fichiers (sans avoir à aller chercher la version payante).
Pour tenter de distinguer les forces et faiblesses des divers LLM, j'ai posé fin 2024, début 2025 à chacun des outils ci-dessous (sauf DeepSeek) la question suivante, en enlevant bien entendu leur propre nom:
Peux-tu de manière concise et de liste à puce me décrire tes principales forces et faiblesses par rapport aux intelligences artificielles génératives suivantes: ChatGPT, Copilot, Gemini et Claude AI?
Les réponses dans chaque IA!
Outils basés sur la recherche d'articles scientifiques avec un LLM pour l'interprétation
Pendant des années, nous avons été habitué à des moteurs de recherche traditionnels comme Google qui fonctionnaient par mot-clé.
Ce n'est plus le cas en général des moteurs de recherche contemporains, incluant Google qui utilise des éléments vectoriels depuis 2013 et qui vont fonctionner très majoritairement par recherche sémantique, vectorisation. Voir Vector Embeddings Explained et aussi la page sur le RAG. Cette manière de fonctionner va augmenter considérablement les chances que vous trouviez l'article désiré.
Il existe plusieurs outils d'IA spécialisés dans la recherche et l’analyse d’articles scientifiques.
Pour obtenir une réponse clinique fondée sur des recherches existantes → Consensus donnera en général une réponse plus facile d'interprétation avec les références pertinentes. Il existe une version gratuite et une version payante.
Pour une revue de littérature scientifique en vue d'un cours, d'une présentation, d'un travail de recherche, les autres moteurs de recherche scientifique peuvent s'avérer intéressant. Il en existe plusieurs, la liste suivante et celle sous Académisme et recherche sont partielles.
Il est à noter que la bibliothèque de l'Université Laval fournie actuellement une licence d'un an à Elicit Plus et à Consensus Entreprise à sa communauté. Les membres ont également accès à Copilot et le Web of Science Research Assistant. Suivre ce lien.
Perplexity peut également être intéressant, car c'est un moteur de recherche mixte, qui peut être configuré pour rechercher le web en général et/ou une base d'articles scientifiques. Il insiste sur la fiabilité et le référencement de ses résultats.
Puisque les recommendations de ces moteurs de recherche modernes sont directement en lien avec des articles scientifiques, il est plus facile de valider les sources de l'analyse et le risque d'erreurs est donc moindre... mais pas totalement absent. Elicit par exemple considère avoir un taux de précision d'environ 90%. L'on constate parfois également que le lien entre l'interprétation de l'IA et le contenu de l'article est pour le moins ténu!
Cependant, comme pour les LLM généraux, ces moteurs de recherche vont avoir accès aux abstract et au contenu "open source" des revues médicales, mais de manière générale, pas au contenu payant des grandes revues médicales, ce qui peut limiter dans une certaine mesure leurs réponses. Début avril 2025, Elicit annonçait être passé de 30 à 40% dans la proportion de ses articles complets, le reste étant des "abstracts" au niveau de ses recherches.
De plus, comme la recherche se fait sur des articles scientifiques, il est possible que certaines questions cliniques ne pourront être répondues, car une grosse partie du savoir médical provient d'opinion d'experts, de la pratique et non pas nécessairement de recherches publiées.
IA avec bases de données médicales spécialisées
Bien qu'ils puissent être limités par le contenu de leur base de données, et que des erreurs d'interprétation de l'IA demeurent possible, les outils d'IA entrainés et qui recherchent des bases de données validées par des pairs demeurent les moins à risque d'inférer des réponses inexactes.
Certains outils plus récents comme OpenEvidence créé en 2023 ont été entrainés sur des données validées par les pairs comme celles du groupe NEJM. La resssource est gratuite pour les professionnels de la santé qui s'enregistrent.
Il existe également plusieurs ressources de contenu médical révisé par les pairs qui existent parfois depuis de nombreuses années, mais qui se voient récemment greffer des outils de recherche améliorés par l'intelligence artificielle.
On pense à Dynamed, qui donne des références basées sur des évidences et à laquelle l'Université Laval est abonnée, qui a sorti récemment une version Dyna AI mais qui n'est actuellement disponible qu'aux États-Unis. Il faudra surveiller dans les prochains mois et années si celle-ci devient disponible au Canada et si l'abonnement de l'Université Laval inclut cet outil d'intelligence artificielle.
Medscape, une autre ressource bien connue depuis des années greffe également des éléments d'intelligence artificielle.
Pathway MD, dans lequel des médecins de Montréal sont impliqués, recours également à l'intelligence articielle.
Wikimedica, dans laquelle plusieurs cliniciens et/ou ex-étudiants de l'Université Laval sont impliqués travaille également à l'intégration de l'intelligence artificielle.
Des outils au stade de la recherche comme Google AMIE seront à surveiller au cours des prochains mois/années.
Autres outils d'IA pour la réponse à une question clinique:
Une autre catégorie qui va certainement aller en croissant, est celle des LLM qui visent spécifiquement à vous suggérer des diagnostics différentiels et des plans de traitement à partir d'un tableau clinique. Il y a bien entendu des recoupements entre les catégories, mais ici, on va retrouver des LLM qui ont été entrainés sur des données de patient et des diagnostics et conduites au lieu d'être entrainés sur l'Internet ou des articles scientifiques.
Qu'en est-il maintenant de l'aide que l'IA peut apporter dans le raisonnement clinique?
Pour répondre à cette question, il faut comprendre les différences entre le raisonnent humain en médecine et le fonctionnement de l'IA.
Autres références: