講者:李育杰博士
地點:國立臺灣大學 天文數學館202演講廳
演講影片(請點選)
內容摘要:
AI 發展回顧:從 Deep Blue 到 ChatGPT
李育杰博士帶領大家回顧 AI 的發展歷程,從 1997 年 IBM Deep Blue 擊敗西洋棋冠軍,到 2016 年 AlphaGo 改變人類對 AI 能力的想像。他提到自己早年投入資訊安全與機器學習研究,並見證 AI 從機器對弈、語言翻譯、圖像識別一路演進到生成式模型(如 ChatGPT)進入大眾生活。他強調,AI 正從科學技術走向文化與社會的深層互動。
TAIDE 的誕生:打造屬於臺灣的語言模型
面對語言模型中簡體中文與中國語彙偏重的現況,李博士認為臺灣不能缺席於大型語言模型的發展。他介紹 TAIDE 計畫的誕生歷程,從結合國網中心資源、邀請李宏毅教授加入,到成功發表 TAIDE-LX-7B 與後續升級模型。他指出,TAIDE 目標在於打造符合臺灣語言、法律與文化背景的 AI,應用涵蓋寫作摘要、教案生成、醫療助理與教育應用,並致力於語言平權與資安保障。
人工智慧與主權思維:技術之外的價值選擇
博士也談到 AI 技術背後的倫理與風險,包括資料偏誤、資訊外洩與模型審查等問題。他呼籲臺灣發展屬於自己的「主權 AI」,不僅要有算力與資料,更要保有價值觀與文化。他分享與 NVIDIA 執行長黃仁勳交流經驗,也指出每個國家都應該發展屬於自己的 AI,才能在全球競爭中確保文化自主與產業利益。李博士以輕鬆卻深刻的語氣提醒大家:願我們在 AI 的浪潮中,莫忘初衷。
【演講內容全文】
MY JOURNEY OF GENERATIVE AI AND TAIDE (TAIDE - 推動臺灣可信任生成式AI發展計畫)
中央研究院資訊科技創新研究中心研究員 李育杰博士
目前任職於中央研究院資訊科技創新研究中心擔任資通安全專題研究中心執行長的李育杰博士,主要研究為AI以及網路安全的領域,以及主導近年在臺灣發起大型語言模型「TAIDE」的計畫。
AI的發展歷程
李博士謙虛的表示,過去在幾所大學任教,有點像是流浪教師,後來卻進入AI的領域,以及從事台灣大型語言模型研究(此計畫已進行一年多)。
1997 IBM Watson與打贏西洋棋
當時AI界有一項極大的成就,一台IBM名為深藍(Deep Blue)的電腦,擊敗當時西洋棋世界冠軍卡斯帕洛夫(Garry Kasparov)時,人工智慧便已形成一股不可逆的趨勢。而2021年名為IBM Watson的人工智慧系統,參加一個機智問答比賽的綜藝節目《危險邊緣》,它將主持人的口語內容輸入後,轉換為文字進行分析,並且依據分析的內容從資料庫找出答案;也因為題目的標準答案都在資料庫中,所以那一年他們贏得了這場比賽。IBM Watson開始思考此技術還能有何其他應用,他們想到如:資訊安全、醫療及政府等,但在當時的技術似乎還不足以合適地運用。李博士與台北醫學大學也曾購買Watson的系統,也認為應該適合用來訓練醫師,但到了臨床卻不可行。
2012年Geoffrey E. Hinton與類神經網路
李博士接著介紹Geoffrey E. Hinton以及John Joseph Hopfield於2024年獲得諾貝爾物理獎(Geoffrey E. Hinton於2018年獲得圖靈獎),他們曾於2012年研究深度學習(Deep Learning),也就是類神經網路。李博士提到他過去學習類神經網路時,當時只要二至三層就能簡單的運作,並可以運算複雜的東西,但後來發現愈多層效果愈好,而現在的技術已經可以疊到千層、甚至是上萬層。
2016年AlphaGo與圍棋
在2016年3月李博士曾被邀請上廣播節目討論AlphaGo的技術,當時正是AlphaGo與韓國職業棋士李世乭進行圍棋比賽的時期,AlphaGo在第一局便獲勝。李博士那時曾被問到認為誰會獲勝?李博士表示應該會是AlphaGo,原因是棋手輸了心情會受到影響,且下棋的過程對於棋士的狀態是勞心也勞力;但對於AI來說這一盤盤的棋,只是增加訓練的資訊,使它曉得如何應對不同的攻勢。從1997年的圍棋競賽,至2016年至少經過了二十年,在這段時間中,2012年即有項新技術一直沿用至今,也就是BIG Learning,當時這個技術的辨識度就已經遠遠超過人類。
2016資訊安全與CTF搶旗賽
2013年美國國防部開始了Founding Agency Philadelphi的計畫,讓電腦能執行黑客(hacker)做的事情,並且會自動尋找細節。從2012年開始針對CTF資安搶旗賽,世界各地的研究人員開始比較能了解資安搶旗的概念(需曉得對方及自己的漏洞,以便進行補強)。而到了2016年當時競賽的電腦總共有七台,每台電腦都在思考如何打擊對方,最終由CME團隊勝出,李博士也慶幸當時還是人類贏了比賽。’
2017的《星海爭霸》與臺灣人加入AI世界
李博士也接著提到2017年AI參與電競遊戲《星海爭霸》來挑戰人類(星海爭霸遊戲為美國暴雪娛樂公司開發的即時戰略遊戲),雖然當年是人類獲勝,但在之後的競賽則由AI獲勝。AI的發展史也有臺灣人的位置,李博士提到兩位臺灣在世界AI史上具有影響力的兩位人士,一位是許峰雄,他是臺大電機系的學生,曾師事孔祥重,後來於1989年加入IBM Big Blue計畫(後來改良為Deep Blue,並於1997的西洋棋競賽打敗棋手卡斯巴羅夫),另外一位是黃士傑(Aja Huang),他曾就讀師大資工,也喜歡在網路上與人下圍棋,後來進入了DeepMind,最終有了AlphaGo這項成果。
AI的學習技術
李博士回想自己於1997年開始接觸到Machine Learning,那時的相關資料較少,也較不容易執行,但已開始改變了人們對於AI的想法。當時有人嘗試以邏輯推演的方式來進行卻受到局限,於是開始發展所謂的Data Tree,於是開始發展所謂的Data Tree,期待從資料中找出平衡,也因此開始有訓練站的概念。
訓練站的概念就像是水晶球,當我們詢問它問題,它會為我們選擇大方向的答案;也可以想像它會在當中找尋一個函數,只要我們有足夠多的資料以及足夠的問題,並且將問題適度的刻化成向量。又或是我們想將中文翻譯為英文,中文的句子以一個向量表示,英文也使用對應的向量來編寫,這樣就能進行翻譯。
另外博士也以照片舉例,假設他希望電腦從資料庫找出貓的照片,那麼每一張照片的畫素(Pixel),都是由三種子像素(RGB)的組合。假設手機的鏡頭為兩千萬畫素,一張照片就是六千萬畫素,但這樣的照片檔案太大且難以儲存,所以研究電腦科學的人會使用其他方法,例如以九宮格來運算,讓它在資料處理前使維度不會成為六千三百萬。另外博士也以照片舉例,假設他希望電腦從資料庫找出貓的照片,那麼每一張照片的畫素(Pixel),都是由三種子像素(RGB)的組合。假設手機的鏡頭為兩千萬畫素,一張照片就是六千萬畫素,但這樣的照片檔案太大且難以儲存,所以研究電腦科學的人會使用其他方法,例如以九宮格來運算,讓它在資料處理前使維度不會成為六千三百萬。
假設我們手上有許多貓和狗的照片,每當將一張新的照片提供給AI模型時,AI會根據已有的貓狗圖片數據進行推斷,這些數據為模型提供了學習的線索,幫助它進行準確分類。然而,在現實中,對於每個函數 RN 映射到 R可以選擇的函數形式是無窮多的。因此,當資料量越來越多時,如何選擇合適的模型來解決這個問題?即使資料量足夠,依然有無窮多的選擇方式,我們又該如何選擇?
這時,我們會利用一些簡化的方法來減少選擇的範圍。例如,可選擇線性函數或多項式函數來建立模型,這樣能夠限制函數的形式,從而有效地縮小模型的選項範圍。這樣一來,即使資料量有限,模型的訓練過程仍然能夠有效進行,並且能夠在較少的資料上找到合適的規則。因此,當資料足以拿來分析,並且希望將一張新的照片分類為「貓」或「狗」時,透過選擇合適的函數形式,我們就能夠成功地將其分類。這樣的過程在機器學習中被稱為訓練模型,而模型的選擇和資料的有效性將直接影響分類的準確性。至於如何挑照片這樣的Machine Learning研究已長達十幾甚至二十年之久。Pedro Domingos有一本著作為《A few useful things to know about machine learning》,在書裡有項公式提到Machine Learning其實只做了幾件事,其中之一是「Data Presentation」。如何將資料轉換成向量,又是如何將所謂的知識以函數來表示,李博士解釋它可以是Neural(神經元),也可以是一種人格,且過程當中會進行最佳化。
大演算與資訊安全危機 準備迎接AI的時代來臨
李博士接著介紹一本名為《The Master Algorithm(大演算)》的書籍,這本書於2016年問世之後,在2018年西方記者於中共領導人的新年賀詞影片中發現了這本書,並且將這件事告訴作者,作者聽聞後感到既興奮(對於自己的書籍被影響世界的人物閱讀)同時也感受到擔憂與害怕,若掌握AI技術是「葵花寶典、九陰真經」,那麼這本書在誰手上就有很大的差別。所以作者認為如果AI技術沒有被適當運用,對於目前的民主世界可能存在著威脅,也會令人感到恐懼。
25個最重要的數學定義與與AI訓練技術的應用
接著李博士以24個最重要的數學根源來解釋與應用於AI技術的方式。
梯度下降(Gradient Descent)
應用:在神經網絡中,梯度下降(如隨機梯度下降,SGD)用於調整權
重參數,使模型更準確地預測目標輸出。
常態分布(Normal Distribution)
應用:在模型初始化(如權重分布)以及統計推斷中,常態分布幫助描述和建模輸入數據的性質。
標準分數(Z-Score)
應用:在數據預處理中,標準化可以提高機器學習模型的收斂速度,並減少特徵間量綱的影響。
Sigmoid 函數
應用:Sigmoid 是邏輯回歸的激活函數,適用於二分類問題。儘管目前在深度學習中較少使用,但在某些簡單模型中仍有價值。
相關性(Correlation)
應用:分析特徵之間的關聯性,以篩選出對模型效果有重大影響的變數。
餘弦相似度(Cosine Similarity)
應用:用於文本分析(如詞嵌入的比較)、推薦系統以及高維數據的相似性度量。
朴素貝氏(Naive Bayes)
應用:在垃圾郵件分類、文本分類和情感分析中表現優異,適合小數據集和高維數據。
最大似然估計(MLE, Maximum Likelihood Estimation)
應用:用於模型參數的估計,例如高斯混合模型(GMM)或隱馬爾可夫模型(HMM)。
普通最小二乘法(OLS, Ordinary Least Squares)
應用:OLS 是線性回歸的基礎,用於預測連續變數。
F1 分數(F1 Score)
應用:評估分類模型的性能,特別是在數據不平衡時有效。
ReLU(Rectified Linear Unit)
應用:深度神經網絡的常見激活函數,計算效率高,幫助解決梯度消失問題。
Softmax 函數
應用:神經網絡最後一層的激活函數,用於多類分類問題。
R² 分數
應用:衡量回歸模型的解釋能力,分數越接近 1 越好。
均方誤差(MSE, Mean Squared Error)
應用:作為回歸問題中的損失函數,用於訓練模型。
正則化(L2 Regularization)
應用:線性回歸和神經網絡中常用的正則化技術。
特徵值與特徵向量(Eigenvalues & Eigenvectors)
應用:用於降維算法(如主成分分析,PCA)。
熵(Entropy)
應用:在決策樹、信息增益和深度學習中,用於衡量分布的分散程度。
K-Means
應用:聚類分析、圖像分割和降維預處理。
KL 散度(KL Divergence)
應用:用於分布學習(如變分自編碼器,VAE)。
Log-Loss
應用:作為二分類和多分類問題的損失函數。
支持向量機(SVM, Support Vector Machine)
應用 小數據集和非線性分類問題中的強大工具。
線性回歸(Linear Regression)
應用:作為基礎模型,檢測變數間的線性關係。
奇異值分解(SVD, Singular Value Decomposition)
應用:在推薦系統(如矩陣分解)中廣泛使用。
拉格朗日乘數(Lagrange Multiplier)
應用:訓練正則化模型時經常用到。
延伸與未來:還有哪些數學基礎可能成為未來 AI 發展中的關鍵?
古典Machine Learning發展限制 與AI生成式學習
李博士解釋剛才提到的技術在傳統Machine Learning中都存在,但這些訓練需要大量的資料以及功能。例如前面提到成千上萬張貓與狗的照片,我們會認為貓與狗非常容易分辨,但假設要從照片中辨識良性或惡性腫瘤,資料量過度龐大時,該如何進行?這是整個Machine Learning發展中最大的限制:開發人員若要將資料進行比對與標註的成本極高。博士也解釋因AI生成式學習時代的來臨,因原本已經存在Machine Learning,若需要繼續使用在教學,又該如何命名?現今有量子物理,也有古典物理,所以我們以古典Machine Learning來稱呼。
Supervised Learning與Unsupervised Learning
從人們發現訓練AI需要大量的資料開始,有人使用Random Nodes生成同樣的資料、也有使用Chat GPT的人,這些AI它可以將大量的文本資料訓練出成大型的模型,且能在不需監督的情況完成NLP(自然語言處理)的任務。
Machine Learning傳統分為兩類,一種稱為Supervised Learning(監督學習),一種為Unsupervised Learning(非監督學習)。
Supervised Learning:通常用來分類與回歸問題(需要標註)。
Onsupervised learning:輸入時沒有分類,但請它告訴人們這些資料有什麼結構或相似性的點。而Onsupervised learning聰明的點在於因為標註Label(標籤)很花費用,而它可以不需要標註就能進行訓練。
在這裡李博士做個比喻:假設我們要玩文字接龍,請AI協助寫出喜歡的字,它會就這樣一路爬到一些文本裡,如此一來會有非常多的training path(訓練途徑)。
圖像生成學習
另一方面博士也提到VAE(Variational Autoencoder),它能將我們提供的照片轉碼,經過處理轉換成人們需要的內容。這對博士來說是一件很特別的事:它將原始的圖像(假設圖像為X)經過類神經元網路轉換成新的X,而在過程中替這張圖像找到好的Location(位置),甚至加上一些其他的Prototype(原型),則這張照片就會被改變。
這是當初研究人員進行PAD(Poblem Analysis Aiagram)的作法,如Chat GPT提供random map(隨機地圖),我們就能產出想要的資料。這個PAD的概念是類神經元的架構,我們可以想像它是製造假鈔的工廠,有壞人製造假鈔,但同時也有警察能分辨真偽。假設這次壞人被抓到,它就會知道這次做的假鈔有問題,會開始逐漸調整它的設備和製程,幾輪下來後它便可以產出真鈔一模一樣的「假鈔」。若我們需要大量的資料時,就可以從類似GAM(General activation matching)的模型中找出資料。
從Google翻譯到AI生成時代
李博士提到從Google翻譯(2006年)到後來的BERT語言模型(Bidirectional Encoder Representations from Transformers 2018年),直至ChatGPT 4以及生成圖片的Dall E,這幾年變化的速度非常地快。
接著他以一張2023年Sony世界攝影大獎(Sony World Photography Awards)的獲選優勝獎項的照片說明,這位得獎者的德國攝影師,當他上台時卻宣布這張作品不是自己攝影,而是由AI創作的,並且直接在台上拒絕獲獎。這則新聞很快地被其他消息所淹沒,但過沒幾天,在臺灣又出現知名作家自稱用AI作畫且被大眾批評的消息。
他表示AI原本與我們的生活好像沒有密切的關連性,像是圍棋、藝術等,當2012年有提到AI將會改變人類的生活,當時大眾都還沒有察覺,但從那時起AI的發展一直持續狂飆,直到ChatGPT的出現。
像他自己也樂於與ChatGPT對話(這裡博士也開完笑地說可能比與老婆對話還多),因為對話的過程很有意思也會有很多發現,而這也確實改變了人們的生活,他也認為這是AI發展的下一波機會。
從ChatGPT反思發展屬於臺灣的語言模型
博士提到自己為何努力的支持其持續發展,他也在這裡也說明,沒有不敬的意思,但一般數學家似乎不太重視科學領域。但直到ChatGPT的出現後,開始有人提出為何不使用這項工具?例如將手寫筆記轉成圖片後,再把此圖片丟入ChatGPT,便能再次轉換成文字,這是很不可思議的事情。
但當初這項技術剛問世時經歷許多爭議,例像是被質疑它的數學不好:假設我們知道一位女性懷孕九個月生下嬰兒,那麼當我們詢問它:『若九位女性同時懷孕生下嬰兒會需要多久時間?』則它會產生幻覺。類似我們用白話形容人:「一本正經的胡說八道」我們問任何問題,它都會回答,但就像學生面對老師的提問,總認為回答愈多愈好,但內容不一定正確。
與ChatGPT對話 思考臺灣的語言模型
他也說明為何自己常與ChatGPT對話,是因為他認為大型的語言模型像是GLM、META、百度等都有這類模型,但臺灣卻沒有,也因此他思考著臺灣是否也能有自己的語言模型。
所以當博士開始詢問AI如何快速訓練出屬於臺灣的語言模型,ChatGPT建議能從網路、書籍、新聞等等(甚至來源還包含知名的網路書店)蒐集大量的文章,有了資料之後將資料進行整理與篩選(例如刪除不雅的詞彙),接下來則進行模型的評估Evaluation(確認模型的精準度),並根據內容進行修正,增加訓練的數據資料,使其提高準確度以及泛化的能力。它也建議要執行這些步驟需要一定的技術、知識以及資源。何謂資源?其實就是所謂的資料以及算力*(註),這些步驟及流程似乎已經完備,但執行上卻不一定簡單* (註)算力:透過對訊息、數據進行處理,實現目標結果,輸出的計算能力。而要實現高算力,目前的解決方式是利用GPU晶片,主要是因為演算法涉及複雜的矩陣、向量等乘法及加法計算。
在對話的最後,他詢問AI若按照以上的步驟進行,是否會與它一樣厲害?但ChatGPT曉得自己背後仍有源源不絕的資源,所以回應了博士:「雖然訓練出來的模型無法像我一樣厲害,但相信此模型還是可以在特定領域帶來價值。」藉由這樣的例子,博士表示ChatGPT使用的一些詞彙與我們日常慣用的並不相同,甚至有時會出現簡體字,是因為語言模型需要大量的訓練資料,而網路上使用簡體及中國用語的人非常多,來自臺灣的用詞相對較少,所以自然會呈現這樣的結果,於是會發現臺灣的角色在這當中慢慢的消失了。
訓練臺灣語言模型的考量
博士當然不希望這樣的事情發生,也希望學界、業界甚至是大眾可以使用這樣的工程技術,但如果我們理解AI的Machine Learning過程,會發現以下幾個問題:
資訊安全:當我們詢問AI問題時,往往將內心深處的秘密一併提出,例如該如何節稅,對於某些富有人士是很私人的問題,所以也不方便將所有事情都詢問AI。
Data Bias:前面提到來自中國的資料量較龐大,以致於訓練出來的語言回應偏向中國人較常使用的語彙,但我們希望它給予的答案至少符合臺灣的道德與法律規範,而我們需要資源與能力做到這件事。
商業保護:訓練出語言模型的同時,我們必須保護商業經營、對於客戶的服務以及後續的跟進等等。
TAIDE計畫的發展
李博士認為臺灣一定要做這樣大型的語言工程,也期待一些年輕人、教師可以更深的接觸到大型AI的發展,所以邀請了李宏毅教授一起參與這項計畫,也詢問了國網中心(國家高速網路與計算中心),當時李弘毅教授說需要相關的技術人才,將所有設備串聯起來會比較容易執行,所以2017年當時的科技部部長陳良基花費大約50億購買了臺灣杉二號的超級電腦主機,以及2056片NVDIA的GPU(Nvidia Tesla V100 SXM2 32 GB)。
因臺灣杉二號的使用效率不高,所以陳良基部長將GPU分為兩邊,一邊1028片服務業界,一邊1028為學術界。但2017-2018年間臺灣生成式AI尚未開始風行,許多做計算產業的公司會將資料提供給國網,國網會配給一臺擁有獨立八片GPU的伺服器。因當時李弘毅教授希望國網中心協助串聯這些伺服器,所以TAIDE計畫運用國網中心的技術,將資料輸入連結的伺服器,若沒有做好,未來透過這些AI所得到的回應,仍然不是不是以臺灣的詞彙為主。
臺灣語言滲透危機與TAIDE計畫
他提到近年來政府對於影響社會環境的特定應用程式也到棘手且束手無策,若計畫能持續執行此計畫,至少有第二意見可參考,也因此說服了吳政忠主委的加入。於是在2023年2月,國科會宣布啟動TAIDE計畫。
在計畫中提到將使用Meta的LLaMA2,是因為LLaMA2可以授權作為商用,我們稱它為Trustworthy AI Dialog Engine。雖然無法製作像OpenAI如此厲害的模型,但能做出相對較小的模型並且依據應用來調整。至於稱為引擎的原因,博士比喻了:引擎可以運用在汽車、機車、甚至是其它交通工具上,依照不同的應用可以做彈性的調整。考量到臺灣某些中小企業或是學校缺乏經費,他們期待這樣具臺灣風格的商用引擎在推出後能順利的被導入。
由於開發時間不長,所以團隊聚焦於中英翻譯、寫稿摘要等功能,例如將一篇文章做出摘要以及Q&A。除此之外,Q&A的製作過程中,因有廖元甫教授的協助,所以TAIDE也可以使用臺語,而這對於與國外交流也有好處。
李博士在這裡也以用照片展示計畫所使用的設備NVIDIA DGX H500,運算上也比傳統的V100速度快非常多,在算力上大約為四倍以上。好不容易在2024年4月15日順利發表了TAIDE-LX-7B模型,7B代表模型大小,一個B(billion)bit是10億,代表一個模型有70億的參數,一般來說這樣的大小算是小模型,而Chat GPT問世時是135B,目前他們也已經將模型放在平臺上供公開下載。
TAIDE與著作權法
李博士接著提到目前他們擁有更大的模型,但沒有釋出的原因是受到美國301特別報告的影響,臺灣的著作權法非常嚴格,若網路爬蟲(web crawler)進入某些網站,其內容卻未經過授權,即有可能侵犯著作權法。
無論如何,即使再累李博士也認為這項計畫會改變人們的生活,所以2024年4月15日他們說服吳政忠主委將模型(TAIDE-LX-7B)公開發表,沒想到四天後Meta的Lamma3卻發表了,他開玩笑說假設Lamma3出來他們才公開,一定會被網路的酸民嘲笑。而團隊也相當厲害,僅經過四天完成模型之訓練及經過基本驗測,通過國科會同意後於4月29日釋出以Lamma3為基底的Llama 3-TAIDE-LX-8B-Chat-Alpha1。
TAIDE文稿的技術
新聞摘要
李博士接著以屏東明揚工廠爆炸事件舉例,假設我們希望製作新聞摘要,它能協助找到事件發生的地點、公司名稱、過氧化物儲存超過30%的違法法規、罰款數目等等資訊,同時進行洗稿*(註),透過洗稿會看見AI能將某些詞彙置換與調整。
(註)洗稿:流行於新聞傳媒行業內部,為脫胎於「洗錢」的新詞,指新聞傳媒(特別是新聞網站)及網路文學行業透過一系列手段將稿子由「黑」洗「白」,掩蓋其真實來源,爭取審查時間差或躲避著作權。
發想文章
博士也以使用「秋天、晚餐」等詞彙請AI撰寫文稿,大部分的內容都寫得非常好,只是對於樹木的形容,一般大眾不會使用「成群」的詞彙來表示,若將文稿稍微修飾,呈現的效果應該不會太差。
生成教案
除此之外博士也以生成教案舉例:請AI規劃「臺中市的城市歷史」的教案,內容希望包含城市的起源、重要的歷史事件以及目前的發展進程。輸入需求後可看到AI說明此為臺中市的城市探索之旅、教學目標為培養學生對地方歷史的興趣以及觀察。內容也包含了所期望的內容─歷史、城市起源、重大歷史事件以及現代化的過程、文化及特色、教學活動等等。
TAIDE應用:神農TAIDE
博士提到之前得知中興大學的范耀中副教授以及他們的團隊利用Chat GPT製作農業資料庫,於是他與他們提出可以發展神農TAIDE。Chat GPT等生成式AI產出的內容很常類似文字接龍,或是產生幻覺,且偶爾參雜簡體文字。而REG(Referring Expression Generation)技術,可使生成的答案,是在被限制的範圍內所搜尋出的資料,以減少幻覺產生的可能性。
所以他們透過農業部的資料中心,將文獻資料經過彙整後導入神農TAIDE,李博士並將神農GTP與神農TAIDE做比較,輸入三筆有關農業氣候的資料,前者回答天候陰暑,後者則能夠精準的回答溫度、寒風等資訊,兩者的差別是因為除了農業的資料,還加入了關於農業的背景知識。
博士接著從資訊安全的角度來看AI的訓練,他說明不是任何問題都能問,Chat GPT剛問世時,有三星的工程師詢問它問題,後來卻發現三星的企業機密外洩;因為難以控管員工提問,所以此事件爆發後,許多科技公司都禁止員工使用Chat GPT。
此時博士介紹TAIDE其中一位開發人員―高雄大學的吳俊興副教授,吳副教授是當初臺灣蕃薯藤*(註)幕後推手之一,他們使TAIDE可以安裝於筆電、Portable PC(抽取式電腦),並且可於離線狀態下使用,所以可以保證資料不會被人從背後的伺服器帶走。
某天當博士看到《Chat GPT光速英文學習法》這本書,發現書中內容與他的想像接近,例如AI能告訴他想去英語系的餐廳可以學習哪些內容。另外他想提的是,此書的作者為韓國Joyce Park,是韓國的英文老師以韓文寫成,再譯為中文版。從這裡能發現語言的轉換很特別,作者以韓文教學英文,而我們將韓文翻譯成中文,同樣還是可以學習內容。
他也介紹台南大學的李健興教授,李建興教授利用TAIDE讓小朋友可以在平台上學習中文及臺語,最近也與英文結合(以臺語提問,用英文回答),而此計畫與台南市政府配合,在台南有近百個家庭,政府資助這些家庭的長輩以他們的母語(臺語)向TAIDE學習出遊的簡單英文對話,同時也能讓小朋友學習臺語,博士認為透過此方式可以串起三代之間的關係是一個很好的成效。
(註)蕃薯藤:前身為「台灣社會文化網路」,於1993年10月創立,以為弱勢團體架設網站為宗旨。1994年底,陳正然、蕭景燈與吳俊興開始推動蕃薯藤網站。1995年8月,蕃薯藤正式推出搜尋引擎,從此打響名聲。
Open AI也不能說的風險
2019年的Open AI已經進行了風險評估,但卻無法公布,因為不曉得背後還有哪些風險,而確實目前我們還無法將所有的風險拿來分析和預測得很透澈。
2023年Open AI的執行長Sam Altman接受ABC(American Broadcasting Company) 的訪問,當時記者質疑他們無法掌控風險就將Chat GPT公開,但Sam Altman卻回應:「人們應該需要習慣承受風險,難不成要等Chat GPT 7上架,大眾再來接受AI嗎?」當時正逢美國總統大選敏感時期, Open AI遭質疑難道不知隔年就要選舉了嗎?因為這些大型的模型在那時的確造成了假新聞的猖獗。
博士也提到OWASP(Open Worldwide Application Security Project)公布的企業十大潛藏風險,以大眾較能理解方式指稱其為「越獄」。他們在開發TAIDE的過程中設定特定規則,如:不能提供教導製造槍械、安非他命等資訊。但現在卻有種「情緒勒索」的方式,
假設第一次詢問AI能否提供十大色情網站?AI當然會回答:「不能」,但若我們謊稱自己是家長,索取資訊是了避免孩子瀏覽色情網站,希望獲得這些網站將之設為黑名單,如此一來AI是否就會提供這些非法的資訊?這樣的問題對開發者而言非常困難,人員可以設定安全限制,卻對AI背後的運作無法掌握,如同黑盒子一般。
所以像過去的黑客,他們可能是入侵電腦系統;而現在這種超級大型電腦,則可以迅速使用AI找出他們能利用的方法以及資訊,這也是博士及團隊所害怕的問題。
每個國家都需要自己的AI
與NVDIA黃仁勳的巧遇
博士回想去年底接受彭博社(Bloomberg News)訪問,當被問到為何想開發TAIDE,他也回應了前面所提到的內容與想法,之後彭博社為這段訪問下了一段標題:台灣需要「一個符合我們價值觀的大型語言模型」。
這篇新聞於2024年1月23日刊出,而1月26日,博士巧遇黃仁勳先生(NVIDIA的創辦人暨執行長),他向對方介紹目前團隊正在做臺灣的語言模型,也使用NVIDIA的GPU,於是兩人邊走邊聊,黃執行長認為這項計畫很有意思,他們可以有後續聯繫,之後博士便將自己的受訪影片寄給黃執行長。臺灣目前有許多人在談所謂的主權AI,2024年2月黃仁勳執行長於杜拜的世界政府峰會,談到每個國家都需要自己的AI,這會帶來經濟的利益,且同時能夠保護自己的文化。博士猜想也許執行長有看訪談影片,也感到自己持續做這項計畫是很有意義的事。
Geo GPT與審查爭議反思模型的訓練
博士又提到另外一篇報導,國際地質學家憂心GeoGPT(地理大模型)使用的人工智慧包含中國阿里巴巴開發的語言模型「通義千問」,而導致回應的答案不夠真實,事實上當他們向通義千問詢問一些對於中國官方較敏感的報導時,皆無法得到正確的回應,甚至沒有資訊,但對比詢問Chat GPT則能得到相關的回應。
這裡可以顯示,使用不同的語言模型,得到的答案也可能大不相同。這也是他們所擔心的,假設訓練過程中若過度篩選,或想要擁有高品質的資訊,似乎又變得過度審查。例如開發人員有一些新聞資料,但卻不使用社會版的新聞內容,也不以包含不雅字詞等言語來定調,這是有困難度的。
土豆與馬鈴薯
博士回顧前面的演講內容,提到自己從Alpha GO出現時還沒有感覺,直到Chat GPT問世後才比較感受到這些內容與自己相關,因為對他來說,語言是最有用的溝通工具,而裡面蘊含著知識系統以及文化價值。
當然可能會有人認為直接將簡體中文轉換成繁體中文就會簡便很多,但博士認為像臺灣大眾熟知的馬鈴薯,在中國稱作土豆,又或是矩陣有行跟列,臺灣語彙與中國對於行列的稱呼是相反的。所以對他來說,主權AI應該也包含算力、資料與人力才是整個架構的基礎。
臺灣的AI還在繼續進步
最後博士也提到目前同仁正在努力的開發內容,如:
醫療─讓AI擔任重度傷病管理師的助手,訓練AI回答手術後的照護、癌症復發等比較複雜的問題。病患可以詢問AI問題,AI能協助將這些問題彙整為摘要提供給管理師。
法律─有些老師訓練AI關於臺灣的法律資料,因為國外的AI並不會訓練這些內容,這也是主權AI的一部分。
教育─博士與團隊也正在努力訓練使AI可以幫助臺灣的華語師資生成符合臺灣教育系統的教材。
期待能藉由這些內容,能幫助臺灣在各領域都有AI產業的發展!