講者: 李正匡博士
地點:國立臺灣大學 天文數學館202演講廳
演講內容(請點選)
內容摘要:
找到自己的定位:從物理挫折到 AI 世界
李正匡博士分享自己並非一路順風的求學歷程,從國中保送考試的落敗,到在大學面對英文教材的掙扎,他逐步理解到與「天才」的差距。然而,他沒有放棄,而是在補習班裡苦練數理,最終憑藉光電模擬研究成果登上頂尖期刊。這段經歷讓他逐漸認清:自己或許無法成為天才,卻能成為「橋樑」,將天才們的想法傳遞給更多人。
跨足業界:從台積電到 NVIDIA
博士在台積電投入良率檢測與機器學習開發,協助團隊節省大量時間與資源,更在公司比賽中獲得佳績。後來,他加入 NVIDIA,成為串聯學術與產業的關鍵窗口,協助多領域研究者應用 GPU 與 AI 技術。他指出,NVIDIA 將 AI 應用拓展至金融、醫療、生技與機器人領域,推動技術真正落地並產生實質影響。
將 AI 傳遞給世界:知識的翻譯者角色
博士強調,在當今 AI 快速發展的時代,真正重要的角色是懂得技術、也能溝通的人。他不只協助科研人員了解 NeMo 等工具,也致力於推動生成式 AI、藥物模擬、情感辨識等應用,甚至以虛擬世界訓練機器人模型。他以親身經歷鼓勵學生:就算不是天才,也可以用自己的方式為世界帶來貢獻。
【演講內容全文】
當不了天才,就當個橋樑,將天才們的想法傳遞給世界
Tech Leader of NVIDIA AI Technology Center-Taiwan 李正匡博士
李博士在求學的歷程中,逐漸發覺自身與本身即有天賦的人之間的差距,例如國三的數學保送考試,他看見題目時不曉得如何計算,但旁邊的同學卻一派輕鬆的寫完考卷。後來這其中有幾位同學考上了建中的數理資優班,而他在後來的聯考過程中,也看見一些同學展現不簡單的長才。
進入建中高三時期,他開始想進入補習班加強自己的能力,在當時遇見教數學的張耀元老師,老師的教學方法不是大量的寫題,而是將大量的題型歸納統整成有系統的學習方式,例如出現特定關鍵字時,可以使用哪些對應方法去解題等等。在那時他花上很長的時間在補習班努力學習,雖然其他的學科沒有那麼理想,但數學跟物理兩門學科成績優異在當年全國進入前兩百名。
因當時的臺大物理系正好是物理跟數學分數加權50%,所以雖然其他學科分數普普通通,剛好足以考上物理系,但辛苦的事情在後面,課程許多都用到英文,而因為語文能力沒有那麼理想,李博士也吃了許多苦頭,像是看見同學上課可以跟老師對答如流,或是討論推導相關疑問等等。在這段時間,他也開始思考人生的方向。後來考碩士班失利,在審慎考慮之下,他重考上了臺灣大學光電工程學研究所。
在研究所的過程中,當時的實驗室學長帶著他進行蒙地卡羅光傳播模擬,類似模擬光束打在人的皮膚上並觀察不同位置光回饋的強度是多少,以偵測人體組織狀態的電腦模擬研究,而蒙地卡羅模擬是將生物組織視為大量散射小球體,而光子撞到物體散開的角度根據Mie Scattering可以計算出角度的機率分佈。
在當時他們想要自己製作一個稱為近紅外光譜儀的儀器,想偵測光子穿過頭殼後打在大腦表面以觀察大腦特定區域是否有在運作。(關於這個研究李博士也為學員舉例:類似醫院急診有款夾手指來偵測血液含氧量的儀器,是利用含氧血和去氧血的顏色不同,吸收光譜的差異做量測。)在之前學長已經有留下一套模擬程式,可以模擬大量光子打入腦部後的傳播狀態,不過那時第一代模擬程式將大腦形狀簡化為五層不同厚度(頭皮、頭殼、脊髓液、灰質、白質)的平板狀疊在一起。當時他認為方塊狀跟實際上相差太大,所以想用真實大腦的形狀製作3D進行模擬,於是學長與陽明大學合作找來真實腦部 MRI的3D圖片,將原本平板狀的腦部五層結構製作成更為真實腦部五層結構的來跑模擬計算,而這項成果卻意外的上了當時的頂尖期刊Optics Express。
在那時李博士感受到成果的喜悅,也以為照這樣發表研究成果的速度很快就能夠拿到博士學位,所以就簽下了直升博士班,但沒想到研究卻是比想像中來得困難。像是光學系統設計、架構光學系統,組裝電腦、訊號擷取、影像處裡等等,或是傅立葉轉換等知識,都還是需要硬著頭皮學習,所以在博士班的過程也花了五、六年的時間才完成。除了研究工作之外,李博士也提到畢業前跟老師的溝通與協調,像是目前的研究後續沒有人進行,需要有學弟進來交接,等交接完才能畢業等等的問題。
後來李博士透過學長的推薦進到長庚大學電機工程學系當助理教授。當助理教授其中一件事情是教必修課程,而其中一門課是教工程數學的線性代數,也因此他找了MIT線上課程不斷的補強自己,也剛好線性代數與後來的AI產業有關,趁機將底子打好之後,後來進到產業很常使用到這部分的內容。
在博士班期間,雖然教授讓他很有自主的空間去思考,以及做出實驗讓教授看結果,不過過程中也發覺撰寫論文的難度,原先只要交給實驗室的學生來操作,但還需要自己來撰寫研究方法等等的內容,因此當時四年間只發表了一篇論文。
正當他為此擔憂時,剛好業界的學弟提起台積電正在徵影像處理背景的研究人員,詢問他是否要加入,剛好之前他已經有光學斷層掃描影像處理的經驗,正好適合這個職缺。
當時台積電有一個工作內容是「良率檢測」,晶片在製造的過程中,需要將電晶體與電路一層層堆疊,這些疊層要使用掃瞄器監測是否有損壞的部分(稱為defect),因為牽涉到需要拍攝上百萬張的照片做判斷,也因此意外的進入機器學習(Machine Learning)的領域。
檢測的過程很有趣但工作量也相當可觀,像是拍攝出來的每張照片會有六十至八十個參數,例如亮度多寡、影像對比度等等,再利用這些參數來判斷當中是否有缺陷。當時在台積電有將近十五位碩博工程師,每天要花上十幾個小時在機台上面架構決策樹(Decision Tree)來判斷是否是defect,這樣的工作相當辛苦,而他加入的一個高手如雲的研發團隊,就是想利用更強的機器學習演算法開發出更快更準的方法,解決工程師們的辛勞。
一開始同事們不太習慣使用研發團隊開發的新技術,並擔心萬一採用了新技術沒有抓到defect會被主管追究,但他不斷在當中溝通協調,讓同事們理解這個新技術的優勢,絕對是有幫助、可以節省時間的,為整個部門節省了大量的時間。
從李博士進入台積電第二年,從傳統的Machine Learning到學習Deep Learning。因台積電每年會舉辦比賽,內容為開發工具為公司省下多少的經費或是創造多少的價值,他們團隊提議可以將這項技術報告出來,而團隊也認為他蠻適合擔任報告者的角色,沒想到因此讓團隊在當年的比賽得到第二名,算是為公司和部門付出相當程度的貢獻。
某天他突發奇想,也許可以整理過去這些年在台積電所做的事情,像是開發AI改善流程的部分,整理到LinkedIn上。沒想到2018年NVIDIA的人資寫信來詢問他是否有意願加入NVIDIA,當時他們需要在學術界以及業界都有經驗的人員,因科技部長陳良基推動新竹國家高速網路中心購買了一套超級電腦 - 台灣杉二代,而那時台灣有七十幾位在各領域研究AI相關學問的教授,陳良基邀請這些學者加入計畫並使用這套超級電腦進行研究,領域非常廣泛像是無人機拍攝結合AI、機器人、醫學影像、文字、語音或影像AI技術等等。也因此他們需要有相關人才可以當這些教授對接的窗口,將NVIDIA開發的工具提供給他們,好讓研究可以更有效率的進行,當時李博士心想:如果在這個位置上,可以和七十幾位做AI的專家們溝通,學習並瞭解他們所做的事情,是很棒的學習成長的機會。於是他在2018年便轉而加入NVIDIA。
從加入NVIDIA到現在,博士一直思考如何將NVIDIA的技術帶到各種不同的領域中,例如NVIDIA有開發大語言模型的訓練工具(NeMo Framework),可以讓商業背景的教授及研究人員可以很容易地將大量金融相關的新聞、財報、公司報告等等資料訓練出一個特化的金融語言模型,並讓這個AI可以進行一些相關的預測等等。從這些合作當中,他也一直致力於將諸多領域的專家開發出來的成果與不同的人們進行交流與溝通,也就是像這次的講題所說的,將天才們的想法傳遞給世界。
博士舉例說明AI技術的發展,如果是同樣規模的訓練資料,假設在十年前的超級電腦的訓練過程需要一年,到現在的超級電腦可能只需要訓練一天就能完成來突顯現今進步的幅度,而NVIDIA開發的運算平台,可以讓你十年前開發的應用程式,也可以延續到未來,並且享受到軟體硬體升級後的的運算速度,這正是他觀察NVIDIA正在做的事情。
原先電腦裡只會有CPU,而如今發現GPU很適合做矩陣運算,原先GPU是運用在遊戲畫面每一個像素的顯示,如果畫面要美麗,就需要用GPU。這正好是NVIDIA在做加速運算的過程中效能很好的部分。
李博士接著說明過去晶片運算能力提升帶來科技的進步;從以往手機只能傳送文字訊息,到現在已經可以觀看影片、傳送圖檔等高解析度的資訊,都是因為晶片發展的緣故。然而日前可做到最小的體積以及資訊都已經接近物理的極限(摩爾定律接近終結),所以目前朝提升運算能力發展的目標,使用GPU做平行化的運算比較適合。
博士提到NVIDIA的三大發展方向為:高效能運算、數位孿生、AI。影像的部分原先已經有在發展,例如電玩、電影等影像處理幾乎都仰賴GPU,而這部分目前已經朝向虛擬實境(數位孿生)發展,而高效能運算(HPC)則是過往科學研究之中有許多領域是利用超級電腦才能完成的模擬研究,例如FDTD光學模擬等等,如今使用GPU可以因高效能的運算而變的有效率。接著是目前第三個方向:AI,這個部份李博士認為其實也是NVIDIA在發展利用GPU做高效能運算的過程中一起帶動起來的領域。
博士接著說明在醫學領域裡,假設人們想要找出人類的基因中,可能會引發或是不會引發疾病的部分,但人與人之間有差異的位置可能在十萬至二十萬DNA之間,並且可能會發生於不同位置,這可能會是龐大的資訊量,所以需要倚靠運算從中找出問題點。
在歐洲有個資料庫:英國生物樣本庫UK Biobank,他們蒐集約五十萬人的DNA及病歷資料,當我們也有自己的DNA資料時,便可以從五十萬人中找出並比對哪些人與我們的DNA分布情況比較接近,我們可能疾病的表現也會稍微類似這些與我們DNA相似的人,像這樣的例子也會需要高效能運算(HPC)。
關於AI,博士也舉例之前一部電影《模仿遊戲》,電影中的主角圖靈(真實存在的歷史人物)在二戰期間發明了圖靈機(類似當今的電腦)好破解敵軍的密碼,而當時圖靈發明了一項測試:圖靈測試,這項測試可以判斷AI是否已經達到人類的水平(AGI, Artificial General intelligence),如果一般人無法辨識與你在溝通的對象是真實人類還是AI,便說明此AI通過了圖靈測試,達到了AGI。在1950到2018年間,大多數的人以為應該不會有AI能夠通過圖靈測試,但若從現在來看,Chat GPT要通過圖靈測試其實已經非常的容易。
以往電腦的效能不佳,故大多數的機器學習演算法大多不需要太大的運算力,像是決策樹,將規則寫好就可以進行,直到2012年深度學習(Deep Learning)技術才開始受到重視,而深度學習其實就是類神經網路(Artificial Neural Network)。1950年雖然已經有類神經網路的說法,但當時的數學似乎證明有其極限,也因為運算力的限制,神經網路的能力很有限(當時神經網路很小),所以長時間被認為這個領域沒有發展的前景。
2010年,史丹佛大學的教授李飛飛在網路上舉辦了活動名為ImageNet Challenge的比賽,請實驗室的學生蒐集大約一千四百萬張的照片做成圖片資料庫,例如人、狗、飛機、花的照片等等,分為一千種類別,他們將圖片庫公布出來,請大家來開發程式,這個程式的目標就是輸入一張照片,要輸出這是一千類中的哪一類別。
第一年比賽的最高分團隊也只拿到73分,其他團隊的分數則是一塌糊塗(平均59分),比賽辦到第二年(2011年)時,第一名也只拿到75分左右,因此經過這兩年,世界上大多數開發團隊都認為極限大概也就是75分左右,無法再更高分了。
沒想到比賽辦到第三年(2012年)有一組團隊不僅超越了75分,甚至達到了85分的準確率 (當年其他所有團隊都仍然突破不了75的天花板),也因此這個演算法AlexNet於當時造成相當大的轟動,因為他們讓AI超越了原本大家以為的極限。
而當年開發的教授與團隊使用的類神經網路AlexNet還需要放在兩張GPU卡(GTX 580)才擺得下,如今的GPU要擺下一千個AlexNet則是沒有問題,這個也就是運算平台的效能提升。
博士也接著以圖表舉例從2012年開始,前面所說的準確度大大的提升,甚至於2018年已經大幅超越了人類,到達了98分的高準確度,也代表影像辨識的領域已經被AI攻克。
2017年Google有一篇論文為《Attention Is All You Need》,在當中提出一個嶄新的關於自然語言處裡領域的模型 - Transformer,在這之後翻譯、語音甚至是文字處理的許多任務都被其攻下,在這之後近代的AI發展有相當大重心是圍繞著這塊發展。
在這當中開發人員也發覺一個規則叫Scaling Law,意思是越大量的資料訓練AI,AI的準確率越強,但如果倚賴人為的標註、給答案會耗費大量的人力與時間,也因此研發出讓AI訓練自己(自監督式學習self-supervised learning)的方式,例如:輸入一篇文章,將部分中間文字拿掉(類似我們的克漏字填空練習題),讓機器自己填上。或是輸入文章後,讓它學會接續後面的文字,類似文字接龍的方式,而這兩種方式,人類都只需要收集大量的文章來訓練AI,不需要自己人為標註答案,可以輕鬆地增加大量訓練資料。
而在這樣的自監督式學習的過程中, AI首先將文字透過類似於查找字典的方式轉成向量(embedding)模式,接著透過一連串矩陣運算根據上下文將embedding向量變成帶有上下文意義的向量。
博士在這邊用一個句子舉例 ,我們閱讀到一個句子 「一個人左手拿蘋果,另一手拿著蘋果手機」如果只透過embedding查字典式的運作,兩個蘋果的向量會完全一樣,但透過前面的自監督式學習,AI就會學到透過上下文,這兩個蘋果根據上下文是不太一樣的東西,這就類似人類大腦會認為兩者不同,是因為依據上下文做判斷的關係。
這也與前面提到的文字接龍有關,機器吸收了大量的文字資料,我們希望它吐出文章後續的內容,它就是這樣不斷吸收龐大的資料,訓練再訓練,所以AI才能夠理解了人類語言。Transformer帶動了整個接下來的發展。博士也運用圖片舉例,生成式AI如何做序列型的資料整合,以及像是將語音,甚至是影音變成序列來運算。
OpenAI在AI的發展佔有關鍵且核心的角色,不過卻沒有Open Source,而Meta雖然市占率不如OpenAI的ChatGPT,不過他們將AI模型開放給其他開發者下載,好讓其他開發人員可以運用這些資訊發展更多不同的可能性。
NVIDIA開發許多工具,其中在大語言模型領域的工具稱為NeMo Framework,可以讓開發者很容易地訓練自己的AI,而李博士未來的任務則是將這樣的工具分享給金融產業的企業們使用,讓這些企業想要採用語言模型,但不曉得如何下手時,便可以提供他們方便的工具下載、訓練、微調、壓縮模型,並且可以有效率地將語言模型串成各式各樣的App提供服務。
博士也用圖片來說明,AI在生物科技的藥物開發的運用,例如使用一款軟體(AutoDock),可以用電腦模擬將藥物分子放進病毒的蛋白質結構之中,看吸引力有多強,而之前的使用CPU做這樣的運算可以一千秒跑四顆,當時NVIDIA想辦法用GPU來運算,最快達到一秒一顆,但如果要跑十億顆可能還是花太長的時間。後來與美國超級電腦中心借用了兩萬七千張的GPU,在一天之內跑完。後續將這些資料交給相關的實驗學家,讓他們將實驗結果順利做出來。所以原本藥物開發原本需要五年至十年的時間,因為這些技術的關係,可以快速縮短至一到兩年。
從疫情之後,也發現原來加速運算可以幫助藥物開發,所以NVIDIA將這些流程的工具分享供大家使用,博士提到執行長黃仁勳也表示,接下來生物科技會是有相當發展性的領域,因為從當中發現目前的技術可以加速流程的進行。
除了藥物開發外,博士也舉例說明曾與陽明大學的林慶波老師團隊共同參加一個比賽,將2000多顆健康的人腦的MRI資料作為輸入,並訓練AI,讓它可以判斷腦的年齡,依據人腦與實際年齡的差距來判斷是否健康,也成為了判斷大腦健康狀態的一種模型。後來在這比賽中也得到全球第四名,後續對於MRI 工具來進行檢測很有幫助。
除了藥物開發外,博士提到曾經與清大的李祈均老師合作參與情感辨識方面的AI競賽,例如從嬰兒的聲音判斷其情緒為開心還是其他的情感,後來此項研究也頗有貢獻。
接下來NVIDIA想發展的領域是機器人開發,但是訓練機器人的AI仍需要極為大量的資料,且機器人要價不菲,如果現實中進行訓練可能會不敷成本。
但如果是在虛擬世界,便可以模擬大量的機器人進行各式各樣的任務,並且收集訓練資料,當機器人被訓練完成,這些虛擬世界訓練好的機器人模型,便可以使用在真實世界中。當然這其中還是有許多需要克服的難題,但從虛擬世界的訓練已經可以大幅加速機器人AI的開發。