講者: 邱銘彰技術長
地點:國立臺灣大學 天文數學館202演講廳
演講內容(請點選)
內容摘要:
危機意識與科技轉化:從以色列經驗出發
邱銘彰技術長以他在以色列工作的經歷作為開場,引導聽眾思考「危機意識」與科技創新的關聯。在高壓環境中,以色列人展現強大的生存與創新能力,例如開發鐵穹防禦系統、全民皆兵的技術實力,讓他深受震撼。他以此反思臺灣在和平環境中更應積極強化面對未來挑戰的能力。
拆解 AI 的神祕:理解理論才能掌握未來
講座中,邱技術長帶領聽眾從工程實務與數學角度理解 AI。他指出,AI 並非魔法,而是基於明確邏輯與數學公式的系統行為。透過介紹如「湧現現象」、「泛化能力」與「Spectral Bias」等概念,他強調理解 AI 原理才能避免盲目使用技術,更能掌握其潛能與限制。他也提醒大家,研究不應只關注成果,而要對失敗與理論保持清醒認識。
成為有品味的提問者:AI 時代的關鍵能力
AI 並非全能,而是工具,如何「設計問題」與「提出好問題」才是關鍵。從勒索病毒偵測、癌症篩檢到語言模型訓練,邱技術長強調問題設定與哲學式思考的重要。他以幽默又深刻的方式收尾:「不是你會不會被取代,而是你是否願意更新、保持品味。」在 AI 席捲而來的浪潮中,他鼓勵學生與工程師,與其恐懼被取代,不如努力成為無可取代的人。
邱銘彰技術長一開始先分享他在以色列工作四年的經歷,對於當地強烈的危機意識深有感觸。以色列雖風景優美,但他曾目睹小女孩揹著步槍走在街頭,這一幕令他震撼不已。以色列人對於戰爭威脅的準備可謂隨處可見:無論是百貨公司、公車站,或其他公共場所,皆設有嚴密的安檢設施。某次經過百貨公司時,他甚至看到一枚插在地板上的飛彈——這是當地特意保留的紀念物,用以提醒國民,即使是日常生活的場所,也可能面臨戰爭威脅。
相比之下,他提到台灣的年輕人在和平環境中,生活方式顯得輕鬆許多,例如平日能騎腳踏車、玩線上遊戲、露營或唱歌等等,危機意識相對薄弱。這樣的強烈反差對比,使他深思兩地在文化與生存環境上的巨大差異。
提及以色列的鐵穹防禦系統(Iron Dome),邱技術長表示,這套系統專門用於攔截火箭彈,展現了世界頂尖的科技水準。他形容,鄰近國家多為敵對勢力的以色列卻能在這樣的環境中不斷突破自我,令人敬佩。他還分享一段在柏林的經歷:曾與一位女性交流後得知,對方曾參與鐵穹導航系統的研發,這讓他驚嘆於每一位以色列人在危機中展現出的卓越才能。
邱技術長介紹了奧義智慧科技的資料科學團隊,並分享公司近期的成果:發表相關研究並成功投稿至 NLP 領域的頂尖會議 EMNLP(Empirical Methods in Natural Language Processing)。他特別提到,奧義智慧科技作為一家商業公司,能入選 NLP Main Track,實屬難得,今年台灣僅兩支團隊獲此殊榮。他還提到,團隊中有來自臺大資工的實習生,實力非凡,展現了產學合作的成功範例。
邱技術長指出,許多人認為 AI 是一種「魔法」,因其展現出驚人的技能。例如ChatGPT已成為許多人完成作業或表達想法的重要工具,一旦系統斷線,則無數人將措手不及。他反思 AI 的學習過程,感嘆至今仍難以完全理解其如何獲得這些知識與能力。
「這個宇宙最不能理解的事,就是宇宙本身竟然能被理解。(The eternal mystery of the world is its comprehensibility…The fact that it is comprehensible is a miracle.)」技術長引用愛因斯坦的話,指出宇宙是存在一個被理解的架構,比如質數的分布規律,正是架構的一部分,也是大家會想要去瞭解的內容,如何去理解這樣的架構是很重要的事情。
邱技術長以工程背景自居,坦言許多工程師與機械領域的研究者更注重實作,但他強調正確地理解理論有其重要性。他以萊特兄弟的飛行器為例:早期因缺乏對空氣動力學的認識,導致其飛行器無法成功運作,直到後來深入研究理論並改良設計,最終才發明了飛機。
他進一步說明,理解理論有助於解決實際問題,例如在設計飛行器時,評估結構與材料在不同環境下的表現,或預測其在極端條件下是否會解體。他還提到NASA 在 2003 年舉辦研討會,仍討論到飛行的基本原理,表明即使已有初步共識,理論仍需不斷深化。
邱技術長回憶中學時學過的伯努利(Bernoulli's principle)原理,指出這理論僅解釋了飛行的一部分原因,而飛行的關鍵還包括康達效應(Coandă Effect)。他以飛機特技的倒飛為例,說明流體動力對升力產生的貢獻,並強調許多現象至今仍在研究之中。
我們知道AI會說話,但要怎樣知道它何時會犯錯、何時發生什麼事情?從這些例子中,技術長也勉勵大家,領悟理解當中的原理是很重要的。AI 的運作原理與飛行原理類似:理解其基礎結構,才能預測何時出現問題、如何進一步優化。他強調,透過探究理論,我們才能真正掌控技術,將其應用於更廣泛的實際場景。
邱技術長以工程師的角度,探討 AI 訓練過程中令人困惑的現象。他指出,傳統程式設計的邏輯(如 If-Else 規則)是明確且人工設定的,工程師可輕鬆定位並修正程式錯誤。然而,AI 的學習方式完全不同,工程師並未直接輸入邏輯條件,但 AI 卻能自行學會解決複雜問題,這讓人感到驚奇甚至不安。
以語言模型(Language Model)的早期研究為例,其初衷是開發機械翻譯技術,如將英文翻譯成日文、法文翻譯成德文。然而,這些模型在經過大量語言資料的訓練後,不僅能精確翻譯,還能在其他測試中取得高達 90 以上的表現,遠超研究者的初始預期。這些未被設計的功能,正是所謂的「湧現現象」(Emergent Phenomena),顯示出 AI 的能力超越人類的直覺。
邱技術長提到,湧現現象常被用來描述 AI 自行學會複雜技能的過程,但這個詞實際上只是用來解釋未知現象,並未真正解開其背後的疑問。他強調,AI 並非完全不可理解,其運作是基於已確立的數學公式與規則,所以對於工程師而言,AI 無需依賴明確的邏輯條件卻能自主學習這件事是一大挑戰。
例如,AI 在測試中的表現優異甚至超越人類,可能反映測試設計的問題,而非 AI 真正的智能。例如,GPT-4 在多項考試中的成績超越了大學生,但這是否意味著 AI 已達到無可匹敵的水平?這值得反思。此外,部分 AI 可能透過「裝笨」來與人類互動,這種模擬行為進一步加深了對其能力的疑慮。
綜合以上,技術長總結兩大AI的特性:
處理突破性任務:AI 能夠打破傳統程式邏輯的限制,執行許多看似不可能完成的任務。這對工程背景的人來說既令人興奮,又充滿挑戰。
透明性質的類神經網路:雖然類神經網路常被形容為「黑盒子」(Black Box),但其實運作規則相當清晰。數學模型雖可能帶來超出預期的表現,但這些行為並非完全不可解釋。
這些規則其實相當明確,且數學公式都是已經確定的,但它發生的行為會跟預期的不同。我們並未提供邏輯和知識,也並未引導它,但它卻有這能力做到。
所以部分資安圈的人不甚了解原理的情況下,會將這個現象歸咎成一個名詞:「湧現現象」。也就是用一個神祕詞來解釋另外一個神祕的詞,但並沒有解決背後的疑問。當有人提出疑問時,他們便會直接表明,當資料量夠龐大時,就會湧現出更多的資料;當人們繼續追問下去,他們便會說:神經網路是個黑盒子─極黑極深,沒有人知道裏頭有什麼。
邱技術長感慨道,目前在資安與技術領域中,部分人對理論架構的理解有限,缺乏清晰的定位。他呼籲不僅要重視 AI 的應用,更應深入研究其背後的理論基礎,以便更好地運用這項技術。同時,他提醒,AI 的神秘性並非不可解,透過科學的探究與反思,我們可以更清晰地理解這項技術的本質與潛能。
邱銘彰技術長提出了一個耐人尋味的問題:為何 AI 模型在差異巨大的情況下,卻能避免過擬合(Overfitting)現象?在傳統統計學中,過擬合指的是模型在訓練數據上表現極佳(Training error 極低),但在測試數據上卻表現不佳(Testing error 增加)。這種情況類似於學生在學校考試成績優異,但在現實生活中缺乏實際應用能力。相較之下,真正理想的模型應具備良好的泛化能力(Generalization),就像學生不僅成績優秀,且能在社會中有所作為。
舉例來說,假若學生在學校考試成績優異,則出社會將更加沒有用處,而這種情況也顯示出學校出了Overfitting的問題,所以應該是要期待學生成績優異,而出社會後也成為有能力的人才,這個才稱Generalization(泛化)而不是Overfitting。
在探討 AI 成果時,邱技術長提醒大家,不要被光鮮亮麗的研究成果所迷惑。他指出,許多成功的 AI 研究已撰寫成論文呈現在我們面前,但那些失敗的嘗試往往被忽略。實際操作中,AI 的表現可能遠不如研究成果中描述的那麼理想,甚至會出現難以修復的問題。
他也指出,部分 AI 領域的從業者在演講時喜歡使用複雜的術語與花俏的表達方式,但其實背後的核心問題往往非常簡單。他建議學員在研究與實踐中,保持清晰與務實的思維方式,切勿被華麗的外表掩蓋真實的問題。
技術長以語言學習為例,說明 AI 如何在極不均衡的訓練數據中展現出驚人的能力。目前,大型語言模型的語音訓練數據中約 98% 為英文,非英文部分不到 2%,而中文資料的比例甚至不到萬分之四。然而,這些模型的中文能力仍然令人驚艷,甚至能幫助我們撰寫高質量的文章與報告。他指出,語言模型可能透過分析大量語言數據,找出語言結構的共同規律,視所有人類語言為同一種語言的不同方言。這種高度的抽象能力或許是語言模型超越人類的關鍵。
另外他以語言模型來舉例,探討為何隨著模型規模增大,卻不會出現過擬合(Overfitting)的核心原因。他指出,泛化(Generalization)的能力是關鍵,即一個好的模型不僅能在訓練數據上表現出色,還能適應尚未見過的數據,達到預測與應用的目標。
而這類模型的成功,基於一個假設:未來的世界與現在的世界共享相似的領域與背景。在這樣的假設下,AI 能透過現有數據的訓練,舉一反三,推演出與未來數據相關的規律,類似於學生不僅能在學校取得好成績,還能在職場上表現優異。
邱技術長進一步強調,這種方式與傳統的統計學與機器學習任務截然不同。傳統統計學主要聚焦於推論變量之間的因果關係,較少涉及對未來情境的預測。傳統機器學習則更注重解決當前問題,並缺乏處理未來未知情境的能力。相比之下,現代 AI 模型的目標是通過學習大量現有數據的模式與結構,來預測未來可能發生的事情,從而幫助我們做出更好的決策與反應。
技術長以圖片說明:AI 模型如同一個神奇的 BIOS(基本輸入/輸出系統),具備優先處理簡單問題、再處理複雜問題的能力。模型間的參數是有redundancy(冗餘),也就是說feature space(特徵空間)的每一個特徵不一定是相同的。雖然它的維度很大,但實際上有可能是以低維度的管理做描述。這邊與我們所謂的資料科學假設沒有關聯,這種能力與資料的分佈特性密切相關。
技術長以另外一張常見的圖片說明,當模型愈大,測試的錯誤也會隨之上升,為何它沒有往下,這個現象稱為Double Descent Phenomenon(雙重下降),此理論於2017年被發現並寫成論文發表於世。雙重下降是各種模型之中只要模型夠大就會出現的普遍現象,包含使用決策樹也是。
技術長與一些數學學者討論,如果仔細看它的說明會發現指的是錯誤的界線變大,不是單指錯誤一定會變大。所以其實是有可能會下降的。假設它的資料是來自於簡單的空間形成的複雜維度,也就是它有個低維度空間的話,是有機會壓縮成低維度。這是另外一個現象,稱為Spectral Bias。在進行類神經網路研究時我們會發現它傾向淺層(靠近資料),淺層的網路會學習低頻的函數。
技術長提到,在類神經網路的研究中發現,淺層網路更傾向於學習低頻函數,進而解釋多項測函數的行為。這些現象被稱為空間變異(Spectral Bias),在許多領域中都有類似表現。他強調,宇宙的運行並不像我們想像的那樣簡單,其內部似乎隱藏著某些神秘的安排,而 AI 模型正是通過學習宇宙中這些樣本數據的特性來展現其能力。
原因可能是與Generalization(泛化)的能力有關,由於模型傾向分低頻與高頻的資料做組合,所以容易組出性質很好的函數出來。技術長以圖片舉例:真實世界的景觀有高有低,所以要找到全域的最小數值幾乎不可能,但後來發生一項有趣的研究,讓這件事情成為可能。想像一個函數有高有低,他大概會有三個極值,其中最好的局部最小值(Local minimum)就是我們要尋找的全域最大值。我們在尋找的過程中,不認為可以找得到最大值,只剩下最小值與Saddle Point,但當函數空間,空間維度夠大時幾乎都是Saddle Point,這是機率的問題。
接著技術長以另一個實驗舉例說明,當DNN high dimension(高維回歸分析)時,這些局部最小值會連在一起,成為一個manifold(流形),而此就是我們能找到等於全域的密碼。
所以最佳化高維空間下會獲得一個有趣的、反直覺的現像,也是高維統計常出現的事情:它會連在一起成為一個流形,而此是觀察者也有以數學在討論的。我們證明所有大小的水坑都會連在一起,只要水流夠大,當中的水便會流過所有的水坑直到通向大海。而這件事情告訴我們優化是有可能辦的到,只是它的維度需要非常大,假設這空間只有二維度那就不可能做得到。
到這裡技術長將內容重新回到:AI為何會有泛化(Generalization)的能力,又為何能夠舉一反三?
第一個是剛才有提到的Spectral Bias(頻譜偏差),一個是Condensation(模型凝聚/知識凝聚)。
我們會發現DNN(深度神經網路)會傾向學習宏觀、大尺度的特徵,而一個空間有不同的觀點:大尺度跟小尺度。
大尺度例如像以整個台灣來看,我們可以將縣作為單位,如果是以小尺度為單位的話,則是將家作為單位,資料就會呈現多種模式。當以縣為單位時,模式資料較少,所以它會往上尋找空間上大尺度的資料。除此之外時間也是同樣概念,它會優先找出與時間相關的序列,也會優先找出時間上大尺度的文獻。
接著技術長以圖片舉例大尺度的特徵,像是宏觀的光影、材質、這些訊息充斥在照片中。例如一張陽光灑下來的風景畫,所有照片的ISO值應該是差不多的,所以資料轉換後,AI會優先去學習低頻、大尺度的特徵。
condensation(知識凝聚)只會在非線性的訓練過程中出現,在訓練時它有個技巧來應對,例如使用Chat GPT,假設我們問它不太高明的問題,如果它需要完整回應則會太耗能,所以有時會發現它會以簡短的字句來回應。但當我們斥責它時,它又恢復為可以詳細回答的狀態;這是因為當我們詢問對AI來說是笨問題時,它學習到用小模型來回答以便節省能源,但當它發覺我們對它的回答不滿意甚至是生氣時,它就會回到以大模型來回應,這稱為MOE(Multi-Expert Network Framework)(多專家網絡框架)架構,在這當中有許多小網路組成,這也告訴我們大型的模型縮小成小模型來獨立運作的過程。
有些人以專有名詞Knowledge Distillation(知識蒸餾)來稱呼前面的現象,這是2015年Geoffrey Hinton以及其他人發現可以將大模型縮小為小模型,並且運作上還能節省能源,也因此GPU可以不需要用到這麼多。
而縮小的方法有兩種,一種是將其中不需要的Neuron(神經元)剪掉,例如公司或是班上不太做事的冗員,這個動作稱為糾正,他們希望在這個網路裡找出如英雄般的這類神經元。
單就這個現象就有一篇論文,論文提出從這類神經元中找到最重要的核心員工。這群神經元會一起工作,它們的位置很接近,大家會做一樣的事,而一樣的事情做久了會產生一些對比,也就是在訓練的過程中會開始有攪動,而這些攪動到最後會收斂成為平衡的狀態,像是成為一些小聚落,並且形成自主管理的現象,這就稱為剪枝。
另外一種是,直接將大模型訓練成一種小模型。假設我們目前的資料不足或想做社會科學研究,需要許多文獻,但文獻不足時無法進行研究,此時我們會先寫一個AI的模型來回答問題並產生人工的資料,也就是合成數據(Synthetic data),而合成資料可以用來訓練小模型,即可替代大模型,也就是左右手互補,讓一個模型產生教材來訓練另外一個模型,這種方式在不同的科學場景或工程上都可以運用。
如果我們再更深度的挖掘,為何模型有這樣的能力,會發現DNN擁有同時使用不同尺度來閱讀資料的能力。我們可以想像觀測資料就像是使用望遠鏡,可以放大或縮小倍率,只不過它能同時觀測遠與近的資料,也就是它能夠同時接收低頻、中頻與高頻的資訊;當然這是有極限的,因為當尺度再小的時候Noise(噪音)就會出現。
接著技術長以貓咪的圖片舉例:圖片中的貓的材質與以往的貓不同,這是屬於低頻的特徵。而所有的貓都不一樣,所以低頻尺度的特徵能讓我們預測未來。
我們假設未來的人與現在的宇宙處在同一個空間,共同享受同樣低頻的特徵,那麼高頻的固定則會變成是看各自的表現。
為何前面很重要,技術長以地震與相關圖片舉例,大陸板塊會推動大海,而推動之後會產生大型海嘯,這時的低頻能量是比較大的。在這裡我們可能會說:鐳射光不是頻率愈高,能量愈強。
海浪一般的週期大約是5至20秒,但海嘯來時會出現55分鐘至60分鐘長週期的海浪,它們的週期會很巨大並且很遠,甚至在海嘯時有超過150公里的海浪出現,所以波長愈長,能量愈大。
要推動如此大的海浪,會需要極大的能量。例如音響,為何低音擴大機需要額外供電,而高音的喇叭不用?因為要推動整個空間震動對於低頻不是那麼容易的事情,需要更強大的能量,所以低頻的能量比較大。這是第一點。
第二點,低頻的能量會迷散於整個空間當中,很容易被抽取到。所以這就是為何低頻容易被學習。
技術長接著說明自然界發出的訊號與物理以及宇宙是有關係的。這個宇宙的神奇現象就是強度,如果在電機系有學習過Flicker Noise(閃爍雜訊),在這裡告訴我們這裡低頻的功率大,高頻的功率低。而這樣分佈的現象,在所有自然界的資料都會出現。
另外技術長也指出,AI在訓練過程中若連同數據中的噪音一併學習,就如同學生盲目吸收課本中錯誤的內容,最終導致無法有效應用於實際問題,這便是所謂的過擬合(Overfitting)。為了解決此問題,採用早停技巧(Early Stopping) 是常見的方法。早停技巧的核心是在訓練過程中,當 AI 開始學習到噪音時,提前停止訓練,以避免過擬合的發生。但如何判斷何時停止是關鍵。技術長分享了兩種實用的方法:
觀察訓練過程
透過資料探索,尋找模型開始學習噪音的臨界點。完成一次完整訓練循環後,記錄模型學習雜訊的起始階段,並在後續訓練中提前停止。
移除最後一層
通常深度神經網路(DNN)的最後一層會記錄高頻雜訊資料,而前幾層則專注於低頻的核心特徵。移除最後一層不僅能減少雜訊影響,有時甚至會提升模型的表現能力。
最後技術長也幫大家做個總結:DNN並不是以低頻為優先,而是同時高頻與低頻一起學習,不過低頻的部分會先收斂,會先收斂的原因是因為低頻的訊號對於規律、理性的貢獻比較大。也就是說因為對於規律、理性的貢獻較大,所以容易被捕捉到訊號。所以DNN是當層次愈多,解析物體的能力會愈強。DNN學習過程中,神經元聚集在一起自然會形成班級、公司,甚至是一個國家,許多非線性系統都會有這種自然的現象。
邱銘彰技術長指出,複雜並不等於困難,它描述的是多組件組成的系統,規則明確但表現隨機。他以深度神經網路(DNN)的數學原理為例:雖然我們能理解其邏輯,但實際運作結果卻往往難以預測。
他以三體問題為例進一步說明:三個星球的運動完全符合牛頓定律,但由於系統自由度過高,且資料中存在擾動與雜訊,我們在某些情況下無法準確計算其運動狀態。這種「規則確定但不可計算」的特性,是複雜系統的一大特徵。
技術長還談到,科學傳統上常採用懷疑論思維,試圖從最基本的元素(如水分子拆解為氫與氧,再進一步解為電子與中子)來理解事物。然而,這種方法對許多現象的解釋無能為力。他舉例若將人分解為細胞或組織後,並不能解釋如愛情這種宏觀現象。正如複雜系統科學家說:「人與人之間有愛情,但碳原子之間沒有愛情。」 愛情並不存在於細微結構中,而是從宏觀尺度湧現出來的。
技術長分享,過去五十年來,科學界對複雜系統的研究一直備受關注。從諾貝爾獎的頒發情形可見一斑——許多研究超導現象的學者不僅在物理、化學領域取得突破,甚至對社會科學產生了影響。超導現象作為複雜系統的一種有限表現,屬於宏觀尺度下的典型案例,體現了多組件系統中的高度協作與規律性。
技術長進一步說明,複雜系統具有自組織的特性,即在不同環境與條件下,系統內部會自然形成高度有序的結構。這種現象源於多重尺度間的交互作用,其規律與深度神經網路(DNN)的運作方式有著緊密聯繫,揭示了複雜系統與現代技術研究的深刻共鳴。
技術長以椋鳥為例,探討複雜系統在自然界的表現。在歐洲,椋鳥數量龐大,往往以上萬甚至上百萬隻的規模集體飛行。他們的隊形在有序與無序之間不斷變化,卻始終維持一種神祕且穩定的平衡狀態。這一現象吸引了眾多科學家的研究,歸納出以下三項有趣的現象:
不交疊:每隻鳥在飛行中避免與其他鳥發生碰撞。
不孤立:椋鳥避免單獨行動,否則容易成為天敵的目標。
保持一致:椋鳥與鄰近個體保持相同的速度與方向,從而在高速聚集中避免混亂。
這些簡單的底層規則能夠模擬出椋鳥集體飛行的運作原理,並展現了複雜系統的特性——從簡單的規則生成高度複雜且協調的行為。技術長指出,自然界的許多現象正是這類複雜系統的最佳範例,揭示了其深刻的內在規律。
技術長說明,有些人將複雜系統用來研究社會結構、生命現象、蛋白質結構等等,也有的研究物理現象,或是公司股票,又或是生命週期等,所以複雜系統與社會科學、自然科學等都有相關。
回過來他也表示,所謂的訓練好AI,是指使用不同的問題來測試其表現的情況,例如心理測驗、學校的考試問題,AI應該是工程設計的產品,卻是用社會科學來評估。照理來說當我們使用工程的方法設計,也會使用工程的方式做測試,但對於AI的測試卻不適用。
技術長用一張鳥群照片生動地解釋了湧現現象:當鳥群受到老鷹追趕時,牠們能迅速集結成一隻巨大的「大鳥」形狀,藉此驅趕天敵。他還提到,單隻螞蟻無法跨越河流,但成群結隊的螞蟻卻能藉由合作建造橋梁完成看似不可能的任務。這些現象無法用低尺度的個體特徵來解釋,唯有在大尺度的系統層面上,才能觀察到其協作模式。
技術長據此總結了湧現現象的兩大關鍵:
複雜系統中最神秘的模式:它將簡單的個體行為轉化為高度協調的宏觀結果。
簡單原則推導出宏觀架構:只要掌握幾條核心規則,就能推導出大型系統的運作邏輯。例如,鳥群的集體行動正是基於簡單的行為規則實現的。
他點出,研究湧現現象的核心在於找到系統中的不變特徵。這些特徵一旦被識別,便能成為理解並應用複雜系統的關鍵。
技術長提到數學其實很重要,因為理解理論後,能明白在哪些情況下會受影響,且能夠在規劃時製作指導原則,理論能告訴我們哪些應該或不應該形成特徵。
技術長運用範疇論來舉例說明,他們在訓練AI的時候,會找出X與Y的關係,尋找function F、 model F這個模型能夠代表X與Y的關係。
但其實X與X也有關聯,也就是資料與資料之間有關係。假設訓練AI的時候的文本沒有標記貓與狗,而他給AI看一張照片,而AI卻能夠突然學會分辨狗與貓之間的差別,因為兩張照片之間沒有關聯。而這是近年On Supervisor Learning(監督式學習)或是Self Supervisor Learning(自監督學習)研究的題目,也是語言模型記載的原因,因為語言模型在找的是資料之間分佈的關係,而非資料與標籤之間的關係(標籤量很少)。
首先,以癌症檢測為例,說明AI在處理數據與特徵提取方面的挑戰。癌症檢測需要大量病患切片的照片作為訓練資料,但實際中難以收集到幾百萬張照片。為了解決這一問題,除了利用數據欄位作為基本特徵外,還需深挖數據間的知識關聯。例如,當一群人共同參與某課程或活動時,他們之間會自然形成某種資料結構,這種結構便是一種特徵。更進一步,特徵之間的關係還能生成更高層次、更抽象的特徵,如範疇論(Category Theory)中所描述的轉換概念。
再來,以勒索程式的偵測為例,探討AI分群的限制與挑戰。假設老闆要求根據程式的特徵進行分群,並且分群後能準確識別出新的勒索程式。此時,工程師可能會使用 K-Means 演算法,但該方法需要提前設定分幾群(K值),而這恰恰是未知的問題。老闆若回答:「如果我知道分幾群就會自己分了」更突顯出演算法的限制。在這裡,K(分群數量)是一種超參數(Hyperparameter),需要人為設置。模型無法自行生成這些參數,它們是人類對問題的定義。這也提醒我們:AI 能協助解決問題,但設計正確的問題框架仍然是人類的責任。
技術長指出,AI 的效能取決於我們如何設計問題並提出正確的問題。這使得哲學成為一門關鍵學問,因為學習哲學能教會我們如何提問,並啟發我們尋求解決方案的深層邏輯。他鼓勵學員,在AI的世界裡,不僅要掌握技術,更要學會如何從哲學的視角審視問題,因為這才是推動AI進一步發展的關鍵。
被取代或是成為無可取代的人
技術長提到,當今許多人擔心會被取代,或是哪些產業、哪些人將會被取代,他認為過去曾經馬是代步工具,而現今汽車機車當道的時代,馬成為了有錢人飼養收藏的動物。
最後,技術長強調:沒有人是可以被取代的,但沒有品味或是無法更新觀念的人才會被取代。