🔺AI模型快速發展,如果想挑選AI大型語言模型,您可以參考Arena.AI、OpenRouters、SuperClue的排行榜,通常是根據自己的任務來挑選自己需要推理能力、編程能力、多模態能力 (能否輸入與輸出圖像影音)、上下文窗口 (能上傳多少資料量)等來決定。不過這些排行榜也不一定跟自己的使用經驗一致,還是需要自己體驗與選擇適合自己的AI。另外,許多模型現在會根據任務決定要調度哪個型號的模型來提供服務,除非自己特別選擇Pro或思考模式,可能就會被分配到比較平凡的模型資源。Gemini雖然官方說支援100萬Tokens的上下文窗口,然而要在AI studio才真的能調用到這樣的上下文處理能力,有網友實際測試Gemini網頁板只能存取32K的Tokens。
🔺許多網站都會介紹不同AI模型,並會一步一步引導您操作ChatGPT、Gemini、Claude、Perplexity、Grok,也有許多Youtube影片介紹,可以先了解一下這些AI模型的基本使用策略,可能就會發現不太需要另外購買其它AI工具。
🔺挑選AI工具時,可以用ROBOT框架來思考:
可信度 Reliability:AI工具開發者是否值得信賴?願意揭露多少資訊?是否可能開發具偏見的工具?
目標 Objective:AI工具開發者的動機與目的為何?是否會影響此工具的使用?
偏誤 Bias:此AI工具可能造成什麼偏誤與倫理議題?
來源 Owner:技術擁有者是公司、政府、學術單位或個人?是否會影響取用機會?
類型 Type:這是什麼類型的工具?適合用在什麼場合?
🔺若您是針對AI學術搜尋工具來評比,您可以參考Utah大學圖書館設計的評分項目 (以下說明皆是最理想的狀態,並非所有AI都能達到):
探索能力:容易理解此介面的使用方式、相同的指令可以獲得類似且合邏輯的回覆、提問指令與獲得答案之間有高度關聯性、有篩選功能以利限縮資料查詢範圍。
搜尋能力:資料來自具有同儕審查或具權威的學術期刊、能查到的資料量與使用學術資料庫能查到的差不多、查詢結果的前十篇的摘要與標題看起來確實與研究問題有關、查詢結果前十篇中至少七篇為近五年資料。
文獻回顧/評析能力:能有效涵蓋多種研究方法與世界各地的研究、能準確且有效地傳達重點研究結果且能正確說明研究方法(有些不會交代研究方法)、引用的資料之間有明顯的關聯性且在視覺上容易理解、可以平衡分析引用出處的優缺點並指出研究缺口。
付費選項:免費版即可使用多樣化功能、付費版CP值很高(支付的價格可以使用充分的功能)。
新加坡管理大學SMU有持續介紹多種學術AI搜尋工具,很可以追蹤相關文章。
🔺使用前請閱讀AI工具的資料來源、隱私政策、資料蒐集與使用政策、定價機制,確定自己可以接受才開始使用。
🔺建議先用熟悉的領域知識來測試與檢驗AI生成結果,來了解這個AI工具的能與不能,並且模擬AI工具帶來的最壞後果。有些AI工具即使符合其他人的需求,也未必符合自己的任務需求。
🔺現在許多AI工具都有大量廣告強調功能強大的一面,建議審慎評估後再付費訂閱(由於AI模型發展迅速,很多AI工具的功能可能會被最新模型取代,可以先逐月訂閱避免一次訂一年),且避免到處註冊不同AI工具與提供個人資料。
🔺您可以使用Perplexity與Grok詢問該工具的使用經驗,Perplexity可以在查詢框下方找到設定「連接器與來源」處選擇「社交」獲得Reddit討論區的網友分享 (您也可以在此選擇「學術」來限定查詢資料範圍為學術文獻,不過要注意Perplexity用中文提問就會尋找中文資料來源、會減少資料的豐富性),Grok則能查到X/Twitter上的網友分享。不過要注意,許多廠商會用自己的網站寫「最好的10大OO工具」並把自家產品放置其中,或是在討論區假裝網友發言宣傳自家產品,因此AI找到的未必會是真實使用經驗。您可以從自己相信的Youtube頻道或其他社群論壇來獲得實際使用的評測經驗。
🔺由於您最清楚自己需要執行的任務,建議您可以和AI討論出一套檢驗AI能力的方式,像是詢問AI「我通常的任務需要進行OOXX、並且希望達成OOXX的標準,請幫我設計一個檢驗AI是否能協助我完成此任務的測試題目,並且說明設計此測試題目的原因,以及我可以怎麼評估AI的表現?」通常AI都會提供一個還不錯的測試題目與評分量表(如下文GPT與Gemini的建議)。
GPT設計的評分項目
任務表現:對你的測試題表現如何? 常錯亂掰(1分)/有用但需大量校對(3分)/大多準、可直接用(5分)
可驗證性:能否清楚標示不確定、提供依據? 很難檢查(1分)/勉強可追(3分)/可追溯、可引用、可要求對照(5分)
隱私合規:能否符合你資料的敏感度? 風險高不清楚(1分)/有部分控管(3分)/清楚可控、可管理(5分)
成本總額:價格+人工成本? 貴且省不了時間(1分)/勉強打平(3分)/明顯省時省錢(5分)
整合與流程:能否融入你的工具鏈? 很卡(1分)/還行(3分)/很順、少切換(5分)
穩定與可持續:更新後是否可控、是否易被綁死? 不穩(1分)/普通(3分)/穩、可匯出可替換(5分)
Gemini的建議作法
定義成功指標: 在開始前設定明確的量化KPI。例如:「客服平均處理時間減少20%」、「代碼錯誤率降低10%」或「內容產出速度提升2倍」。
建立評分量表:
準確性 (40%):事實無誤,引用正確。
相關性 (30%):直接回答問題,無冗言。
完整性 (15%):涵蓋所有要求的點。
清晰度 (10%):結構易讀。
語法與風格 (5%):符合品牌語氣。
並行測試 (A/B Testing): 使用相同提示詞測試不同工具並比較輸出 。
您可以在GPT store找到很多人做的小工具,也可以自己設計指令與知識庫來開發自己的小工具(如下圖)
現在最新發展趨勢是使用Claude skills與Manus、Notion的Agent功能 (OpenClaw有資安問題建議先詳盡了解後再嘗試)
圖書館e學習網有一系列AI工具的影片,請注意影片發布時間來決定是否要參考,AI工具迭迨迅速,圖書館以資料庫介紹優先,其餘AI工具的介紹未必能趕上最新進度。
主流AI模型現在都有發展Deep Research功能,AI會根據您的一個提問,開始一連串的思考與資料蒐集,並且綜整蒐集到的資料內容組織架構,寫出一篇參考多篇資料的報告(GPT的Deep Research現在還可以中途打斷AI的思考過程與調整方向)。有人實際測試,指出AI的Deep Research的可信度會比一般AI搜尋更高,因此如果真的要使用AI幫忙找資料,可以考慮使用此功能。
根據圖書館的測試結果,若為AI模型缺乏訓練資料的主題 (例如臺灣歷史或社會事件),即使動用Deep Research,良好的推理能力也無法改變缺乏豐富高品質資料的限制,仍然會有幻覺、錯誤、虛擬文獻,且AI會充滿自信地引用品質不佳的期刊或網路資料來佐證論點。使用Deep Research很適合用來初步掌握一個領域的基本概況、獲得關鍵字,也可以從AI找到的資料進行文獻滾雪球,但是不建議直接當成自己的作業或論文來使用。另外,如果您使用他人研究的研究問題當成指令請AI產生一篇Deep Research報告,AI很有可能會在網路上找到這篇研究並以此研究做為主幹內容、稍加填充其他資料完成報告,若您直接使用這份報告,也就很高機率的複製他人研究、形成抄襲行為。建議您,只要是AI搜尋結果,不管是Perplexity還是Deep Research,雖然都有標示來源出處網址好像很可信,但都還是要點回資料內容驗證後再引用,AI沒有提供資料出處也沒有人工查證的資料,日常生活中可以使用,但在學術論文中就不要輕易引用。
許多學術型AI工具也有發展Deep Research功能,且實際測試結果比通用型AI更好。學術型AI工具因為是基於學術資料庫的內容,能確保答案內容的可信度,不過仍有資料不夠全面的狀況,仍須根據自己的研究主題資料在哪裡而去更完善的收集資料。下表為幾種擁有Deep Research功能的AI學術工具比較簡表,請特別留意現行的學術型AI工具資料查詢範圍主要基於Semantic Scholar和Open Alex,理工領域的近代英文期刊較多,若您的研究領域是人文社會且需要中文資料、史料、台灣社會經濟法律政策等,則這類工具未必能幫上忙。
使用學術型AI工具時的指令設計方式會跟一般搜尋不同,不再需要請AI扮演角色或強調輸出的風格,因為這類學術型AI工具是為了學術用途而設計,整個機制都考量了研究者的需求,因此只要清楚講出自己的研究問題即可。雖然學術型AI工具可以用白話文的方式互動,不需要轉換關鍵字,但是仍建議您在提問中使用學術與專業用語,實測這將能獲得更佳的查詢結果。
在此介紹這些西方文獻主流的學術AI搜尋工具,並非鼓勵大家訂購,而是許多美國圖書館館員也會介紹這些工具給他們的讀者,讓大家了解可能其他研究者正在使用什麼樣的工具,也能從這些工具學習到一些使用通用型AI的策略。許多學術AI工具可以接Zotero書目管理工具,若您有使用Zotero可以整合AI使用看看。
學術搜尋AI工具大致可以分成四種類型:
資料搜尋:
Google Scholar Lab:免註冊、免費使用。以提問的方式來獲得google scholar的資料推薦,一次會提供10筆資料與條列這10筆資料的重點,可以點選「更多結果」來增加10筆資料。Google scholar Lab會先大量查詢與評估後才提供這些資料,因此需要花一點時間等待。雖然網頁上說僅能英文提問,然而測試中文提問也可以回答,只是僅有部分中文資料會用中文摘述資料內容重點、其它資料仍會以英文摘述重點。有使用者指出Google Scholar Lab確實能幫他們篩選出更相關或之前查不到的資料,然而也有人被推薦了不相關或較舊的資料。另外,同一問題重新提問或用不同語言提問都會獲得不同的資料推薦,因此建議多幾次提問,或是搭配傳統的關鍵字搜尋與文獻滾雪球,不要只讓自己停在最初被推薦的10筆資料。可參考此評測內容說明。 **請記得設定您的Google Scholar的圖書館連結為政治大學,才能方便從此頁面連回圖書館訂購的資料庫內容而無須付費使用。
Open evidence:需註冊、目前上傳證件照認證可免費使用,乃為醫生打造的AI實證醫學搜尋引擎,可以用中文提問,資料來源為NEJM、NEJM Evidence、NEJM AI、NEJM Catalyst 和 NEJM Journal Watch 自 1990 年以來發表的所有內容。請見查詢結果範例頁面,可參考醫生的評測說明。
2. 文獻回顧 (學術型Deep Research):
Undermind:可使用學校信箱註冊獲得免費使用額度。進去頁面後會以對話方式聚焦您的問題、再提供文獻搜尋結果,且會將文獻搜尋結果根據主題概念、時間順序列出,且會提供多種研究人員需要的功能。請參考下圖與查詢結果範例頁面。
Elicit:需註冊、免費使用的額度少,已投入AI學術搜尋多年,獲許多研究者推薦。可以使用自然語言提問探索文獻,文獻結果可以依照欄位並排序,會提供查詢結果部分文獻的摘要。可以上傳檔案讓AI協助閱讀、解釋文章,可以探索研究主題且deep research有參考PRISMA的設計,可以看到AI搜尋與評估文章品質的過程,最終產生的報告也具有專業度。請參考官網說明。
Consensus:需註冊、有免費使用額度。同樣參考PRISMA設計文獻回顧的功能,可以提出一個問題讓AI分析資料並直接回答「對」或「錯」。官網有詳盡的說明與範例展示可以參考。
3. 學術功能綜整平台:
像是SciSpace,使用自然語言提問探索文獻,文獻結果可以依照欄位並排序,會提供查詢結果部分文獻的摘要。同時可以上傳檔案讓AI協助閱讀、解釋文章,有AI協助寫作、改寫、偵測AI內容、產生引文格式、探索研究主題、將PDF檔轉成影片。現在還有AI代理功能,可以完成更多任務 (AI代理任務需要扣點數,免費版較難體驗到,見下圖可大致了解他會動用多種工具、資料來源及完成不同學術任務,可以看到AI的思考與調用工具的過程,評估文獻等過程都有加入學術研究的考量。
4. 文獻探索(文獻滾雪球):
先找到一篇重要的關鍵文章,根據這個文檔可以探索其他有相互引用關係的文章與作者,並能從視覺化圖表來看出文章的年代與引用次數。例如:Litmap、Connected papers、ResearchRabbit。
ResearchRabbit免費使用數量較多,可優先嘗試,請參考官網介紹 How to do a literature review with ResearchRabbit。
目前這些學術搜尋AI工具尚無法取代傳統檢索結果(搜尋結果不夠全面、檢索過程難以複製),然而有助於發掘一些傳統檢索遺漏的資料。「AI and Systematic Reviews: Can AI Tools Replace Librarians in the Systematic Search Process?」這篇研究在2024年測試Research Rabbit、Scite、Consensus、Elicit,發現能找到的相關文章數量低於Web of Science找到的,且發現Consensus和Elicit的資料來源雖然都來自Semantic Scholar,但是卻有不同的文章推薦結果,顯示AI工具的透明度不足。
另外,在生成式AI出現前即有文獻回顧軟體ASReview、Rayyan,有興趣者也可以進一步了解此兩個工具的操作方式。
中文的AI學術搜尋工具
🔺臺鵠人文知識探勘系統:免費使用、要先註冊個人帳號。此系統目前介接「臺灣省議會史料總庫—公報、國家文化記憶庫、明清臺灣相關行政檔案、漢文臺灣日日新報、熱蘭遮城日誌、地名資訊服務網」等資料,可以基於這些資料來回答臺灣歷史問題,回答皆會提供資料出處、且可點選「查核出處」再次驗證。若有意同時查詢網路資料,亦可開啟「網路搜尋功能」。可參考圖書館測試簡報。**AI對於歷史問題的各種幻覺問題可參考「知識之眼」研討會影片內容
🔺中研院地圖小助手:免註冊、免費使用。中央研究院人社中心GIS專題中心所建置的臺灣百年歷史地圖系統已經發布超過3000筆WMTS圖層服務,因為分屬不同網站(城市)服務網址,使用者往往不易搜尋或者介接應用;此外,還有一個情況是使用者希望找尋特定時代、特定地點(地名),卻不知道應該是要運用哪一個圖層。地圖小助手可根據自然語言提問推薦合適的地圖圖層。詳細介紹請見「地圖人工智慧 (Map AI) 工作坊(影片)」
🔺CBETA 電子佛典Online語意搜尋:免註冊、免費使用。目前可鎖定「阿含」、「律」等 23 部類提問,根據經典內容回答。請參考使用說明。
🔺識典古籍:免費使用、Deep Research功能需註冊使用。由北京大學與字節跳動共同開發,北京大學數字人文實驗室有多種數位人文工具(像是「吾與點」資料擷取工具)。在此網站中,可以使用AI助手輔助閱讀理解古籍,也可以使用深度研究功能獲得古籍資料的分析報告,且平台上的古籍持續招募志工校對,以提升資料來源的正確性。請參考下圖說明。北京清華的「漢籍智能集成」、中國國家圖書館的「中華古籍智慧化服務平台」也有AI功能的發展。
NotebookLM可以處理多達50 個來源、每個來源 500,000 字,能同時消化影片、文字內容,AI回答的內容可以對照到文件的段落,有助於進一步核對AI是否有幻覺或錯誤。且可以使用多種預設樣板快速產出心智圖、報告、問答、部落格、影片、Podcast音檔等形式,應該已經成為許多人閱讀資料的好夥伴 (也可以發現許多Podcast都是NotebookLM做出來的)。
在此分享一些小技巧與注意事項:
根據網友測試,NotebookLM並不會看到所有文字,可以拆分成多個小文件上傳後分別詢問,細節一定要自己看全文。
跟NotebookLM對話的內容可以儲存為筆記(Note),也可以將自己的想法筆記當成資料來源,這樣就能讓自己閱讀的資料與自己的想法筆記加總在一起,更能激盪出新想法。
可以上傳自己的報告簡報,讓NotebookLM幫忙規劃簡報的講述時間、模擬聽眾提問、提出修改建議。
問問題時,可以請NotebookLM繪製表格整理資訊、分析時間線與主題叢集、發現文獻缺口與矛盾處。
雖然NotebookLM的來源搜尋功能現在也有Deep Research,但是不論網頁或資料庫都有許多無法取得權限,在此搜尋的效果並沒有到很好,可以考慮先搜尋與精選出需要閱讀的資料實再使用NotebookLM。
實際測試NotebookLM有時候回答時,會出現資料來源內沒有講的東西,可能是來自訓練資料內容而非上傳的資料。因此建議如果需要引用,還是要回去讀全文。
Podcast功能可以自行給指令,像是:「主持人要審閱並討論文件中每個部分的每個資源的所有細節。他們將定義關鍵術語,並提出信息的實際用途。主持人將會很專業、口齒清晰,同時不會互相打斷或頻繁重複字詞和短語。他們會對他們所呈現的內容感到興奮,並在最後概述主要觀點。」英文版的Podcast功能可以打斷中途AI主持人、參與他們的討論(將系統語言切換為英文即可使用此功能)。
您可以參考以下圖說,來看這本NotebookLM用Deep research找到的資料與利用Studio功能做出的各種輸出形式: