權威醫學期刊研究：大型語言模型幾乎都有認知障礙

摘要:

一項發表於《英國醫學期刊》（BMJ）的研究使用蒙特婁認知評估（MoCA）測試大型語言模型的認知功能，結果顯示這些模型普遍存在輕度認知功能障礙。在滿分30分、26分以上視為正常的MoCA測試中，ChatGPT-4o得分26分，ChatGPT-4和Claude各得25分，Gemini 1.0僅得16分。這些模型在語言理解、注意力和摘要能力方面表現良好，但在視覺與空間能力測試中表現不佳，例如在路徑描繪和畫鐘測驗中未達人類標準。此外，Gemini在延遲回憶測試中表現不佳，顯示其記憶保持能力不足。研究指出，這些缺陷可能限制大型語言模型在臨床環境中的應用。此外，AI缺乏同理心，難以理解複雜視覺場景，並可能產生錯誤或誤導性資訊（稱為AI幻覺），這些都是在醫療應用中需要克服的挑戰。因此，AI目前尚無法取代人類醫生，但有潛力成為醫療工作的強大助手。

編者認為，長久以來，關於 AI 取代醫生的問題歷久不衰。這篇文章在AI醫療應用上，由於AI技術的限制，有值得探討的倫理問題。

問題點:

1.可信度與風險，其中涉及「AI幻覺」以及責任歸屬問題

2.AI的認知局限(記憶不穩定、缺乏視覺與空間能力)

3.AI缺乏同理心（Empathy）導致患者信任問題、人性關懷問題。

內容為編者看法且藉助ChatGPT工具整理報導

Page updated

Report abuse