講者: 栗永徽博士(鴻海研究院人工智慧研究所長)
地點:國立臺灣大學 天文數學館202演講廳
演講內容(請點選)
演講影片:此講座影片未授權開放
內容摘要:
從電機跨足資訊:以人為本的 AI 之路
栗永徽博士以自身跨領域歷程開場,從臺大電機系一路走入機器學習與人工智慧的世界,最終擔任鴻海研究院人工智慧研究所所長。他分享,相較於傳統電機領域,他更關心與人互動的科技,像是人機互動、AI 和機器人,因此選擇投入 AI 領域,並透過數學補強知識基礎。他的經歷展現了數理背景者如何轉化為 AI 時代的關鍵人才。
AI 新典範:推理模型、代理智能與世界模型
演講中,栗博士詳解 AI 領域最新趨勢,包括大型語言模型的推理能力(如 CoT 思維鏈)、測驗時間縮放(Test-Time Scaling)、以及 AI 代理人(Agentic AI)的崛起。他介紹中國 DeepSeek 模型如何以高效率實現推理能力,並說明世界基礎模型(WFM)與 E2E 自駕車模型的訓練方式。他強調,AI 正從回應式工具邁向自主決策的智能體,未來與人類互動將更加深層且多元。
數學作為引擎:從建模到科學創新
栗博士特別指出數學在 AI 推論中的關鍵地位,包括推理演算法、強化學習與資料建模等技術皆源於數學理論。他鼓勵學生運用 AI 輔助數學研究、提升論證效率與開發新理論架構。他也提醒大家正視資料與算力的極限,未來的挑戰將來自於如何用更少的資源訓練更聰明的模型,而數學人的邏輯與抽象力,正是這條道路上的重要資產。
【演講內容全文】
2025 AI技術趨勢分享與DeepSeek技術簡介
鴻海研究院人工智慧研究所 栗永徽博士
從電機工程到資訊工程的跨界旅程
栗永徽所長畢業於臺灣大學電機工程系,並在美國賓州大學(University of Pennsylvania)攻讀計算機科學碩士,隨後取得美國卡內基梅隆大學(Carnegie Mellon University)之碩、博士學位。其領域由電機工程轉換至資訊工程,因栗所長認為比起電機工程中的半導體、電磁波和微分方程等等,計算機領域跟「人」更為相關,例如:人機互動(HCI, human-computer interaction)、AI以及機器人等等,他較喜歡能夠與人互動的工作,碩士畢業後即進入中華電信從事AI相關事務,並深感數學知識的重要性,自知有所不足,便申請到美國卡內基梅隆大學習得更多關於機器學習(Machine Learning)、 電腦視覺(Converter Vision)和AI方面等前沿技術,之後回到台灣於中央大學任教,2021年鴻海成立鴻海研究院,栗博士受邀成為創所所長並擔任至今。
AI 領域的發展趨勢
栗永徽所長指出,AI 研究進展飛快,特別是在通用人工智慧(Artificial General Intelligence, AGI)的發展上,各大科技公司如OpenAI、Anthropic、Meta皆競相投入,推出如DeepSeek、GPT-4、Sora等技術,改變了 AI 的應用方式。以下栗所長將分為人工通用智慧(Artificial General Intelligence, AGI)、世界基礎模型(World Foundation Models, WFM)和E2E自動駕駛模型(End-to-end Self-Driving)三大部分向大家介紹AI 領域的發展趨勢。
從Scaling Law看AI領域的快速發展
人工通用智慧(Artificial General Intelligence, AGI),意指能在多個任務領域中靈活運用智能,像人類一樣學習、理解和解決問題的人工智慧系統。
半導體領域中的摩爾定律( Moore's law )指相同面積的積體電路上可容納的電晶體數目,每隔約18個月便會增加一倍,在人工智慧領域中亦有類似的法則——縮放法則(Scaling Law),是指在人工智慧模型訓練過程中,模型的性能會隨著訓練數據的增加、計算資源的提升以及模型大小的擴大而改善的規律,栗所長表示當我們有更多算力的時候,增大模型參數是善用算力的最佳作法,可最大化模型的正確率。Open AI近三、四年來推出GPT四代都呈現了Scaling Law,模型大小的成長每次大概十倍左右,而當模型愈來愈大,所需資料亦越來越多,ChatGPT之父Ilya曾云 “We have but one Internet.”現今的瓶頸在於快要將全世界可用的資料用盡了,算力耗時間較以前增很多倍,模型的聰明程度卻只成長一點點,因此GPT-5的發布一直在推遲,Scaling Law是否仍適用於如今的景況呢?
AI領域未來趨勢:推理模型
諾貝爾經濟學獎得主丹尼爾‧康納曼(Daniel Kahneman)在《快思慢想(Thinking, Fast and Slow)》一書中提到人的思考有兩個系統,系統一較快速、直覺且情緒化;系統二較慢、具計畫性且更仰賴邏輯,大部分有價值的問題、工作需運用系統二的思考方式來解決。栗所長指出未來AI領域的發展趨勢將轉向系統二的模式,訓練模型學會推理,思維鏈(Chain-of-Thought, CoT)即是針對困難問題,去分析如何一步步推導出答案。現今已有推理模型,如OpenAI o1、o3和DeepSeek等等,無須使用者下提示去訓練,將問題輸入語言模型,展開不同的想法成為樹狀圖,收集正確答案的推理過程變成訓練資料,使模型學會自己推理,而作法有很多種,包含並行採樣(Parallel Sampling)和逐步修訂(Sequential Revisions),
一般來說,大型語言模型整個訓練過程可分為四步驟:
1. 預訓練(Pre-Training):自監督學習(Self-Supervised Learning)、預測下一個詞元(Next Token Prediction)
2. 後訓練(Post-Training):監督式微調(Supervised Finetuning, SFT)、基於人類回饋的強化學習(Reinforcement learning from human feedback, RLHF)、基於AI回饋的強化學習(Reinforcement Learning from AI Feedback, RLAIF)、偏好校準(Preference Alignment)
3. 提示工程(Prompt Engineering):思維鏈(Chain-of-Thought, CoT)、少樣本學習(Few-Shot Learning)、上下文學習(In-Context Learning)
4. 工具運用:檢索增強生成(Retrieval Augmented Generation, RAG)、網站搜尋(Web Search)
推理模型的訓練即是將一些原本在「提示工程」階段使用特殊的 prompt教導模型學用 CoT的這個過程,加入進「後訓練」的階段,這可以讓模型不需要接受特殊提示即可以自主學會使用CoT的方法解題。這些推理模型在數學、邏輯等等領域的表現非常突出,比如Open AI的o3在解Ph.D程度的問題GPQA Diamond可以達到83分,在專業數學的問題集 EpochAI Frontier Math上可以達到 25.2% 準確度,這些問題對於專業數學家可能需花費好幾個小時,甚至好幾天才能解出來。
AI領域未來趨勢:測驗時間縮放(Test-Time Scaling)
AI領域中大型語言模型(large language model, LLM)近期另一個新典範為測驗時間縮放(Test-Time Scaling),降低預訓練階段的算力,投注更多時間和提升算力在推論階段,當我們提問時,它會思考較久將過程和答案一併呈現,若答案有誤,可以看何處推理錯誤,在自己去修正成正確的方法。
DeepSeek是中國的推理模型,緊緊追隨美國Open AI的發展,無論中國或美國,其共同的研究步驟皆是從基礎模型、持續訓練到強化學習,一步步提升模型的能力,DeepSeek的訓練策略運用良好的技術,包含混合專家模型(Mixture of Experts, MoE)、潛在空間注意力(Multi-head Latent Attention, MLA)、多詞元預測(Multi-token prediction, MTP)以及用於推理模型的群體相對策略優化(Group Relative Policy Optimization, GRPO),DeepSeek整體效果勝過許多模型,儘管新聞報導說明其僅花費五百多萬美金,但實際上儲備了約五萬張GPU,使用2048張H800晶片來訓練V3,亦花費相當多資源。
1. 混合專家模型(Mixture of Experts, MoE)是將單一任務劃分為多個子任務,再由多個子模型分別處理對應的子任務,最終得到整體的預測結果,可減少推論階段的路徑、算力。DeepSeek在MoE原有的專業知識之外,再加上公共常識來改善。
2. 潛在空間注意力(Multi-head Latent Attention, MLA)使用矩陣的秩分解(Low-Rank Approximation)拆分進行,降低矩陣維度以減少矩陣計算量。
3. 多詞元預測(Multi-token prediction, MTP)指一次平行預測好幾個token,可加速模型收斂、提高訓練效率。
4. 群體相對策略優化(Group Relative Policy Optimization, GRPO)是一種強化學習演算法,透過比較多個不同的行動(例如:不同的寫作方式)並進行小的調整來幫助模型學習,降低計算成本的同時保持高效能。相較Open AI使用的的近端策略優化(Proximal Policy Optimization, PPO),不需額外訓練價值模型(Value Model),降低了工程成本。
AI代理時代來臨:從被動回應到自主決策
栗永徽所長表示AI代理(Agentic AI)可能是未來會有兩、三年熱潮的主題, 傳統AI僅是問一題、答一題,我們期待AI能根據使用者指令,做目標導向和規劃以主動進行決策、執行任務並能夠跟真實的世界互動,對環境產生影響,無須一步步教AI怎麼做,它就是一個聰明的代理人。栗所長分享鴻海的董事長常常強調組織目標管理的四個重點:P(Plan)、D(Do)、C(Check)和A(Action),進而反思如何將任務按部就班完成,此即為我們期望AI亦能達到之程度。
數學與AI:推動科學研究的新引擎
對於數學與科學研究者來說,AI 已成為強大工具,例如近期 Google 推出的 Alpha Theorem 2 可解決 IMO(國際數學奧林匹亞)題目,甚至達到金牌選手等級,顯示AI 在數學推理領域的潛力。栗所長建議,數學研究者可以透過 AI 協助檢驗理論、驗證證明步驟,或探索新型態數學結構,從而加速研究進程。
自駕車技術的突破:世界基礎模型與E2E自動駕駛
世界基礎模型(World Foundation Models, WFM)可以預測並生成具有物理感知能力的影片,同時能 夠根據特定用途進行微調。例如,Sora 是由 OpenAI 推出的全新 AI 影音生成工具,我們期待它能成為世界模型的一部分。例如,「如果我要訓練一個自動駕駛模型,可以請 Sora 生成臺北市的街景道路畫面,接著模擬車輛行駛,並生成開車後 10 秒鐘的畫面。」這相當於在世界模型中建立一個實體世界的分身以協助模型訓練,因此世界模型的品質至關重要,未來才能應用於真實世界。另一方面,NVIDIA 預計今年推出的 NVIDIA Cosmos 系統則是專為物理 AI 研究和資料擴增設計。例如,模擬氣體從某處噴出並碰撞球板,探討氣體如何從不同方向散開。這項技術可應用於自駕車訓練,而其關鍵在於龐大的訓練資料。例如,特斯拉透過數十萬輛車在道路上收集資料,但一般公司無法達成這樣的規模,因此可先在虛擬環境中收集資料,再訓練自駕車的三大核心模型:感知(Perception)、預測(Prediction)和規劃(Planning)。在此背景下,NVIDIA Omniverse 與 Cosmos 的結合成為一種優秀的替代方案。
※NVIDIA Omniverse 是一個由 NVIDIA 開發的 開放式協作平台,用於 3D 設計、模擬、即時渲染和 AI 驅動的數字孿生(Digital Twin)開發。它基於 Pixar 的 USD(Universal Scene Description) 技術,並結合 NVIDIA 的 GPU 硬體加速,使 3D 創作者、設計師和工程師能夠跨不同應用程式(如 Maya、Blender、Unreal Engine)進行無縫協作。
栗永徽所長點出自駕車未來會朝向End-to-end training發展,將感知、預測和規劃三部分共同訓練,訓練一個大模型裡面有不同的小模型,特斯拉目前已經在進行End-to-end的model,NVIDIA推出Thor處理器,性能為上一代Orin的20倍,能夠即時處理大量的攝影機、雷達、激光雷達資料。
Q&A 交流
在講座的尾聲,栗所長與聽眾進行了深入討論,探討 AI 在數學研究、資訊安全、未來發展趨勢等議題。首先是關於數學研究,MoE如何理解所需的數要運用哪個子模型來解決問題呢?栗所長表示基本上是數據驅動的方式, 當訓練的資料夠多時就可以去做統計,「我跑了一百個問題,這一百個問題裡面、 Transformer 裡面、 Layer 裡面,Activation比較多的是哪幾個expert model,數據夠多之後,就可以去統計,遇到這類問題的時候,我可以用這個 Transformer 裡面這幾個 專家模型去解這個問題,正確率會比較高。」。
另一個議題是運用 AI來做研究的資訊安全性,栗所長回應如果是關於中國大陸的模型,建議不要使用網頁版、手機app,應下載至電腦離線使用,同時也要確認電腦沒有病毒、沒有被駭客攻擊,而有些AI公司表明使用者若付錢訂閱,可確保內容不外洩,栗所長仍相當建議大家付費訂閱,才能減少限制,使用更多、更強的功能,將它作為良好的學術平台。
除此之外,栗所長也針對大氣科學系同學的提問給予大家建議,「要善用AI工具去輔助你做的事情,不管是科學研究或者是其他同學,無論寫程式或者是寫報表,其實不同的學科都可以善用這些工具來幫助你加速做事情的速度和效能。」
還有一個問題是探討群體相對策略優化(GRPO)無須另外訓練價值模型(Value Model)對於整體的好處為何?栗所長說明主要的好處在於減少訓練模型的時間,但仍會根據較簡單的方式去檢驗,「讓大數據一直跑,如果夠多次的話,那最後排出來的順序,在大多數情況下應該還是會對齊人類的可能性,其實也是我們說的大力出奇蹟,就使用大量GPU一直去run,run久了,最後就會有還不錯的結果。」
最後則是針對能否運用其他模型生成的資料庫,反覆地投餵給主要的AI模型來做訓練,栗所長指出鴻海研究所也在找比較厲害的模型協助產生更全面的資料,而這是性價比較高的作法,可以避開資料來源的版權限制等等複雜的法律問題,又能夠產生足夠多的訓練數據。
結論
栗永徽所長的演講讓我們了解人工智慧的發展正以驚人的速度前進,從基礎模型到推理智能,AI正從工具轉變為具備決策與自主行動能力的智能體,而數學在這場變革中扮演關鍵角色,不僅奠定了AI的理論基礎,也推動了智能推理的進步,隨著資料量的限制逐漸浮現,更高效的學習與推理模式將成為研究焦點。從世界基礎模型到自駕車,AI正在模擬並理解真實世界,未來不僅是技術的突破,更將改變人類與科技的互動方式,開啟全新可能性。