Research Interests
Knowledge Discovery and Data Mining (資料科學與知識發現)
Machine Learning and Deep Learning (機器學習與深度學習)
Graph Machine Learning / Artificial Intelligence (圖機器學習 / 網路人工智慧)
Trustworthy Artificial Intelligence (可信任人工智慧)
Natural Language Processing & Recommender Systems (自然語言處理與推薦系統)
Social Networks & Social Media Analytics (社群網路與社群媒體分析)
Brief Description
本實驗室之研究領域為資料科學、機器學習、社群網路分析、與推薦系統;實驗室之研究以資料探勘(Data Mining)、機器學習(Machine Learning)與深度學習(Deep Learning)為技術核心,基於從線上服務(Online Services)所蒐集而得之異質性巨量資料(Heterogeneous Massive Datasets),開發兼具效果、效率與可擴充性之學習演算法,解決推薦系統、社群網路、物聯網與智慧城市所遭遇的各種應用問題。
Popular Science Articles
關於本實驗室的研究介紹,最快速了解的方式是透過老師所撰寫的科普文章。以下整理幾篇老師接受各科普平台或報章雜誌邀稿撰寫的科普文章。
【專訪】李政德:教你四招分辨社群媒體假訊息 (全民查假會社)
【專訪】李政德率團隊積極研發 靠AI揪出假訊息 (全民查假會社)
無所不在的認知作戰!解析網路假訊息如何攻占臺灣社群媒體 (國科會《科技魅癮》季刊)
AI偵測矛盾內容 讓維基百科更可被信任 (工商時報名家廣場)
AI協助海關查驗非法交易 (工商時報名家廣場)
AI如何從大數據中學習預測疫情 (工商時報名家廣場)
AI攻防社群媒體的隱私與道德 (工商時報名家廣場)
連結你我的資料科學: 社群網路 (科技部科學發展月刊)
AI於各種社群網路中的巧妙應用 (科學Online)
社群網路與人工智慧之專訪 (臺大科學教育發展中心)
從社群網路看資訊流動 (科學人雜誌)
巨量資料中的小世界–漫談社群網路 (臺大電機科普系列)
網絡素養:網絡科學的基本概念和核心思想 (Network Science in Education)
Recent Project Topics
社群網路與資訊散播
社群網站如Facebook與Twitter的核心是背後連結數以億計使用者的社群網路(Social Networks),其中最主要的功能是提供使用者跟朋友分享資訊,資訊可透過社交關係由少數使用者傳播到眾多使用者,此一現象稱資訊散播(Information Diffusion)。社群網站上所累積的巨量社群資訊散播資料讓研究人員可前所未有地分析並解決許多相當根本卻十分重要的課題,如人們如何在地理空間中互動形成朋友、影響彼此,從理論上了解資訊於社群網路與地理空間中傳遞的動態機制,到實務上應用資訊散播開發地理資訊管理系統;從傳統社群網路分析,到兼具大規模與即時性的異質性複雜社群網路探勘;資訊散播可說是一個橫跨電腦科學、行銷學、人類學與物理學等學科的跨領域學門。我們認為分析並探勘資訊散播之研究大致可分為兩大方向。
了解資訊散播之機制:如何設計理論數學模型以解釋不同類型資訊載體(如新聞主題、流言、影音多媒體與病毒)之動態散播過程?如何有效且有效率地從不完整(incomplete)且非結構(unstructured)之資訊分享紀錄推理還原出完整的資訊散播路徑?如何系統性搜尋並視覺化呈現特定人事物查詢的資訊散播路徑?
資訊散播之應用:如何將資訊散播路徑應用於傳統社群網路分析以找出中心節點(central nodes)與網路社群(communities)?如何偵測在資訊散播過程中扮演各種重要角色的節點?並將資訊散播實務上應用在病毒式行銷、流行病學以及推薦系統等研究課題。
巨量感測資料之應用
隨著行動通訊裝置、適地性服務(Location-based Services)如Foursquare與Facebook Places、與數位相機等地理社群媒體(Geo-Social Media)的興起與普及,我們能夠取得使用者於地理空間活動之一種社交感測資料:社交感測資料(Social Sensor Data),這種感測資料由大量使用者產生並迅速累積,記錄了人與人於地理位置上的互動與時空資訊,並連結了人們在虛擬網路世界(online)與真實物理世界(offline)之行為。另一方面,世界各國政府陸續公布開放資料(Open Data),諸如交通流量、環境汙染、公共建設、醫療資源、人口普查資料等,這些資料可說是感測了各個地方人們的活動,及其對社會與環境所帶來之影響。換句話說,社交感測資料與政府開放資料,分別從人群活動與產生影響這兩個互補的面向,前所未有地描述了我們所生活的動態世界,成為分析與預測各種人類行為及其影響、並開發行動應用服務的最佳資源。本實驗室於此主題之研究有以下兩大方向。
城市運算:城市運算在於分析並應用各種從城市感測裝置所蒐集而得、兼具即時性、快速變動性與異質性的巨量城市感測資料,如空氣品質、氣象資訊與交通資訊。我們計畫:(1)利用道路網路(Road Networks)、即時交通流量(Real-time Traffic Flow)、以及打卡資料(Check-ins)來推薦旅遊路線,並藉由分析人群移動軌跡來開發共乘(Carpooling)推薦系統;(2)結合氣象監測資料、交通流量與不同類型地點分布資料來預測城市中不同重要感測數值,如空氣、噪音、人潮、犯罪率或交通流量品質,並進一步與管理議題結合、針對不同服務推薦該應用未來需要設置監測器、商店、以及最利於廣告行銷之地點。
情緒運算:使用者在微網誌服務如Twitter、Weibo與Facebook上的資訊分享與互動過程反映了人們對於地理空間上各種活動與事件(如運動賽事、演唱會、新聞或交通事故等)最即時的情緒(Sentiment)表達與反饋,我們規劃從具有地理標記的各種社群媒體文章偵測使用者之情緒,並引入物聯網之應用:(1)推薦使用者感興趣或符合使用者情緒之活動或旅遊路徑;(2)根據人群情緒反應,即時偵測城市中的異常事件;(3)偵測城市中不同時空場域下的人群情緒,進而輔助物聯網感測器建置、以及促進觀光產業發展。
疾病擴散分析、預測與管理
物聯網感測器來蒐集民眾的傳染病疫情資料,進而監控、追蹤、推估與了解疫情之擴散,以此為依據來進行防疫資源之分配與調控。預防勝於治療,我的相關研究著重於疫情擴散之初期監控與預測,盼能在疫情尚未大爆發前,掌握該疫情於時間、空間與社群三方面的擴散趨勢,以協助政府防疫單位做出能兼具效果與效率的控制疫情之決策,並將視覺化擴散潛勢,輔助民眾了解自身暴露於感染之風險。
疫情監控與防疫分析之分為兩大部分:「社群疫情擴散」(A)與「疫情感測」(B),並分為六大研究主題,這些主題與彼此間的關聯如圖所示。首先,疫情爆發與否之風險機率將決定未來得投入多少資源於防疫與醫療,若能及早準確且可靠地預測疫情大爆發之風險,相關單位將獲得較為充裕的時間來進行資訊調配,我們利用物聯網感測器所蒐集而得之時間、空間與社群疫情擴散資料來進行爆發風險評估(A1),盼能在開始傳出疫情之初,預測在未來特定時間點有多少人可能會被感染,並據此回推估計出疫情最可能爆發之時間點;另一方面,有效配置感測器於民眾和地理空間中是疫情監控的基石,因此我們根據民眾於地理與社群上活動之行為,找出一群具備傳染病感測效率最高的民眾來配置物聯網感測器(B1),藉此在最短時間內蒐集到最精準且有效的疫情資料,來提升後續防疫作為之規劃效果,值提一提的是,我們同時探討一般化之物聯網感測,包含感測器安裝於特定地點之固定式感測,以及感測器隨著時間於地理空間中移動的參與式感測。
防疫是一場人與病毒賽跑的奮戰,了解哪些民眾最可能高度暴露於被感染,不只影響防疫資源的動員與規劃,更決定能否縮短疫情之生命週期,我們根據初期疫情擴散資料與初期被感染者,來預測出疫情如何於社群網路中進行擴散(A2),意即根據歷史傳染病擴散資料,以及新傳染病之初期疫情於地理空間和社群網路擴散之情形,找出哪些人在未來可能被感染;此外,若民眾能事先知道疫情最可能爆發於哪些地理區域,將是減少被感染人數的最直接防疫作為之一,但經常由於感測器資源有限,無法在所有時間點於所有地點進行感測(如智慧捕蚊燈感測蚊蟲數量,以及空氣盒子感測空氣品質PM2.5數值),透過分析歷史傳染病感測資料,與新傳染病之初期疫情感測資料,我們推估出任意時間於任意地點之感測值(B2),藉此評估各地理區域之疫情潛勢,並將其視覺化呈現讓民眾一目了然。
防疫最前線是一般民眾,而防疫的手段經常是防疫資源在特定時間投注於特定族群之民眾(如疫苗)、以及某些高風險之地理空間(如登革熱噴藥),期盼透過此類具體防疫作為來大幅減少未來被該傳染病感染之民眾數量,我們利用傳染病初期擴散資料與社群平台,同時結合上述主題所推估之可能被感染者總數(A1)、疫情感測配置方法(B1)、疫情社群擴散預測(A2)、與時空疫情感測值推估(B2),將防疫資源進行個體、地理與時間之投注(AB3),使得最後被感染的人數能夠越少越好,也讓民眾能及早預防,政府防疫單位也因此能基於我們所開發之初期疫情監控與防疫分析演算法,分析並了解疫情擴散之趨勢以及防疫成效。
精準行銷之商品推薦系統
推薦系統在各種線上電子商務平台中(如NetFlix、Amazon、Spotify與KKBOX)扮演極為重要的角色,使用者可因獲得推薦商品而增加探索更多商品的機會並被提高購買意願,廣告商因推薦而獲得更長的廣告曝光度與更高的點擊率,而服務平台透過推薦吸引使用者可提高收入,並提供更高準確率品質的商品推薦。然而,線上電子商務之推薦系統有兩個長久以來未能被解決的難題,一為「多人共享帳號」(Shared Account),即在需要付費的電商服務中,使用者傾向多人共用同一帳號,此行為傷害了電商推薦系統的準確率,使用者享用被推薦的經驗變差,停留時間亦變短;另一難題為「冷起始」(Cold Start),電商經常開闢販賣新類型的商品,平台上不時會有新的商品上架、新的使用者註冊,新類型商品沒有購買或評分紀錄、新用戶也沒有評分依據可供推薦系統產生準確商品推薦,這是長久一直以來電商所苦之處。
為解決上述二大電商於推薦系統上的難題,我們提出並開發出一創新整合「用戶識別」(User Identification)與「跨領域預測」(Cross-domain Prediction)之推薦系統,其背後技術是透過深度學習中的「圖形遷入學習」(Graph Embedding Learning)與機器學習中的「遷移學習」(Transfer Learning)來達到。此系統不僅能夠準確識別哪些帳號是被多人所共享使用、偵測該帳號中有幾位共享使用者、更可準確找出在歷史紀錄中哪些商品是共享帳號中的哪一位用戶所評分或購買的,並在未來該帳號有新的商品瀏覽紀錄被產生時,能準確偵測是該共享帳號中的哪一位用戶正在瀏覽,並為她做出準確的商品推薦,與近年來最強的推薦演算法相比,我們創新開發的用戶識別推薦機制可獲得至少30%的準確率提升,此準確率提升幅度是非常顯著的;此外,透過從不同領域的商品中學習使用者的商品喜好,我們的系統可準確替新領域的新商品與新使用者做出更準確的推薦,與近年最新的跨領域推薦方法相比,針對不同領域之間的推薦平均可獲得至少15%的商品評分預測誤差下降。未來,我們正著手解決推薦系統中其他棘手的難題,包含評分稀疏性(Rating Sparsity),以及連續式推薦(Session-based Recommendation)等重要課題。前者主要考量在數以百萬計的使用者與商品中,使用者真正有評價留下紀錄之商品極為稀少,造成模型訓練上資料不足;後者則須針對使用者當下瀏覽情境與紀錄,即時且連續推薦出使用者感興趣之商品。
社群假新聞偵測與防治
社群媒體上簡短文字以及方便的互動與分享功能造就了各種社群集體智慧帶來的應用,如病毒式行銷、智能推薦、精準廣告以及輿情分析,但同時也帶來了具傷害性的「副產品」--造假資訊(disinformation),最廣為人知的典型例子就是假新聞(fake news),泛指被蓄意製造出來且內和不實資訊的貼文故事。然而當前假新聞偵測演算法尚未來做到在貼文擴散之早期(即尚未觸及到眾多使用者前)就達到準確偵測,若要有效打擊假新聞,必須除了做到早期準確偵測,還要能從廣大使用者群中識別出誰是最可疑的散播者,以及貼文內容的哪些文字部分造假了,方能讓相關單位進行有效調查;此外,準確社群假新聞偵測可能犧牲使用者隱私欄位,即透過深度學習利用用戶貼文互動紀錄來反推個人隱私屬性,如何在兼顧使用者隱私保護以及準確假新聞偵測下,為使用者推薦合適的貼文來閱讀與互動,也是假新聞偵測所必須兼顧的。我們經由以下三個研究方向,嘗試同時做到社群媒體假新聞偵測與用戶隱私保護。
社群媒體短文造假偵測:當使用者在社群媒體上發表或分享一短文後,該文下方會有一系列其他用戶的回覆評論,因此研究問題為:給定原始發表短文及其下方的回覆短文,為該原始貼文進行真假判斷,產生出二元分類之結果。若該模型能越早(原始貼文被發表後越短的時間內)就能準確做出真假分類,就有機會防止造假資訊在社群網路中擴散,將低假新聞的曝光度,因此我們更要求該模型能夠做到短文張貼後的初期,能夠只利用少數回覆評論,儘早做出準確真假偵測。此外,為了能提供有關單位關於造假資訊的來源以及了解假新聞究竟針對什麼議題或立場進行造假,我們更要求所開發的模型必須是具可解釋性的,讓模型透過標示哪些回覆評論者是最為可疑的造假資訊散播者、以及標示原始貼文中哪些字詞是最為可疑的造假資訊,來作為產生可解釋性的假新聞偵測結果。
資訊擴散假新聞偵測:社群媒體上多數用戶是以非文字的形式(如點讚與轉傳分享)與各種貼文進行互動,使得原始貼文透過社群網路散播給更多人知道。我們研究僅根據原始社群貼文短文及其社群資訊擴散路徑(propagation path),來對該原始貼文進行造假資訊之二元分類,深度學習模型必須有效學習到原始貼文與擴散路徑之間的關聯如何做為判斷真假的依據。我們也要求模型能夠標示出轉傳使用者序列中的哪一位用戶最可能是假資訊的散播者,提供給相關單位進行假新聞打擊與防範。
隱私保護假新聞偵測與推薦:造假資訊之所以會落在使用者塗鴉牆動態上,是來自於社群網站中的貼文推薦系統,我們透過主動推薦貼文,來做到具隱私保護的假新聞偵測與資訊推薦,讓貼文推薦也能夠幫助提高假新聞偵測的準確率,同時避免使用者與貼文的互動紀錄被用來預測用戶個人隱私屬性。技術想法是為在判斷造假資訊上具公信力的使用者推薦假新聞,藉由他們的真偽判別能力來揭露更多關於造假資訊的線索,同時為不具真偽判斷能力的使用者推薦真實新聞,避免他們與假資訊的互動模糊了造假的線索,也減少暴露在假新聞下的使用者人數。然而,假新聞偵測、對抗隱私欄位預測、以及貼文推薦,是完全不同的三個目標,如何為此設計有效的深度學習演算法的目標函數將既有趣也具挑戰性。
海關進口申報詐欺偵測
海關是一個國家進出口貿易最重要的機構,而關稅也是政府稅收的重要來源,在台灣每天就有上幾十萬甚至百萬筆進口交易。海關最重要的任務之一是查緝非法進口申報貨物,有效查緝非法申報可減少犯罪並提高政府稅收。我們開發能夠自動偵測違法交易的人工智慧演算法Dual-Attentive Tree-aware Embedding (DATE),針對海關進口申報交易大數據進行非法走私交易偵測,對於每一筆申報進口交易紀錄,包含商品類型、數量、重量與價值等資訊,我們所開發的DATE可產生偵測為非法交易的機率值,海關查緝人員僅須專注於檢測機率較高的交易貨品,對於機率較低的交易貨品則可以隨機抽樣或直接放行的方式減少人力成本。除了偵測非法進口申報交易,DATE更可以對偵測結果產生對應的可解釋性文字,來輔助說明為何該交易違法。DATE是一個基於表格式資料(Tabular Data)的深度學習技術,由三個部分所組成:(1)基於梯度提升森林(GBDT)萃取進口交易申報欄位之特徵組合(Cross Features),有效考慮各種可能隱含非法交易的線索;(2)雙重注意力機制(Dual Attention),學習特徵組合的重要性及其彼此間的關聯性,以及學習商品與進口商和特徵組合間的關聯性;(3)雙重任務學習(Dual Task Learning),透過同時預測該交易是否違法、以及該交易能夠帶來的額外關稅收益,來訓練模型。
我們與世界海關組織(Word Customs Organization, WCO)進行國際合作,目前已在奈及利亞與馬拉威的海關進口交易大數據完成線下測試,DATE可讓海關查緝人員只檢測10%的進口交易,就能從十幾萬筆進口交易中找到90%的違法交易,並且能夠找回比原本傳統機器學習檢測方法還要多兩倍的逃漏關稅收益,相較於國際現有機器學習與深度學習state-of-the-arts,分別顯著提高了5%的準確率與25%的海關收益。未來將部屬在各開發中國家的海關系統上。此技術已發表於AI人工智慧頂尖國際會議ACM KDD 2020。這項研究成果對目前COVID-19防疫期間格外重要,海關走私抽查人員可透過AI偵測非法交易,避免暴露在可能已接觸被病毒感染貨物的高風險環境中。雖然臺灣並非WCO會員國,但這項臺灣在AI走私偵測的貢獻,也顯示了Taiwan Can Help and Taiwan Is Helping!
此技術的產業應用主要將是全世界各國政府的海關進出口交易申報系統,由於全球每年進出口貿易的關稅總額高達約20億美金,該技術所涉及的經濟影響將十分顯著。技術未來能創造的經濟效益包含:(1)透過查緝非法走私貨物可減少犯罪,可增進國家安全,確保進出口貿易的經濟活動正常、正確且合法;(2)由於可準確預測查緝走私帶來的額外關稅收益,因此將能提高政府稅收,減少逃漏關稅帶來的損失;(3)事實上,非法交易偵測不僅發生在海關進口貨物申報,在銀行業也是十分重要且迫切需要的,由於我們的DATE技術已完全開源於Github,世界各國的銀行將可運用DATE找出違法金融交易行為,甚至偵測出洗錢交易。
進階圖神經網路設計與應用
圖(Graph)具備表示各種人事物彼此關聯與互動資料的性質,真實世界中許多領域蒐集而得的巨量數據皆能表示成圖,進而透過圖機器學習(Graph Machine Learning)帶來跨領域應用。圖神經網路(Graph Neural Network, GNN)是近期圖機器學習最重要的技術,旨在設計進階圖神經網路,學習生成通用的節點特徵表示向量,並應用在各領域。近期我們探討了三個進階GNN設計與應用:能否學習並融合潛在的社交圈(Social Circles)於GNN預訓練?能否學習讓GNN具備歸納(Inductive)與遷移(Transferable)能力?如何在未能觀察到圖結構之情境下學習應用GNN?我們將針對具備節點特徵之圖資料,學習預訓練GNN,即圖特徵表示學習(Graph Representation Learning),透過設計圖卷積機制與對比學習演算法來提取潛在的社交圈資訊,最終預訓練產生更有效的節點特徵表示向量,用於各種下游任務如節點分類與連結預測;我們將GNN應用於全面性序列推薦系統,目的為開發一具備歸納與遷移能力的GNN模型,使其能對新的用戶與商品、以及在目標領域進行精準的序列推薦;我們也探討如何把GNN用於金融科技推薦最能賺錢的金融商品,設計專屬GNN模型來克服無法觀察到股價彼此間圖結構的困難,並融合公司與類股的階層影響來為股價進行排序。
Pre-Training GNN:針對預訓練圖特徵表示學習,我們認為需考量個人化分群(社交圈, Social Circles)於其中,社交圈代表社群網路中每一位使用者與其朋友所形成的小圈圈(如工作上的同事、研究所同實驗室同學、家人親戚、共同興趣社團中的朋友等),方能使得特徵表示向量具備更好區分彼此的能力,我們設計了一全新Context-aware Attributed Network Embedding (CoANE)模型,其中包含基於節點屬性與鄰居結構的卷積機制(Convolutional Mechanism),藉此有效捕捉具有類似屬性且相互緊密連結的鄰近節點所形成的社交圈,此外CoANE也整合高隨機拜訪機率正樣本、基於社交圈外的負樣本、以及經由特徵表示向量重建節點屬性,整合三者來設計一全新目標函數。CoANE能夠同時在節點分類(Node Classification)、連結預測(Link Prediction)、與節點分群(Community Detection),三個基本且重要的下游任務上,皆獲得優於當前的state-of-the-art圖特徵表示學習方法的準確性,具備高度競爭力。
Relational GNN:序列推薦(Sequential Recommendation, SR)是推薦系統重要分支,目的是根據使用者對於商品的歷史瀏覽時間序列歷程,推薦該使用者接下來最可能感興趣的商品,此為典型序列推薦(Conventional SR);隨著時間向前推移總有未曾出現過的新使用者加入,對新使用者進行序列推薦則是歸納式序列推薦(Inductive SR)的任務,可說是序列版本的冷起始(Cold Start)問題;對於新成立的電子商務平台,時常缺少足夠的使用者商品互動紀錄來訓練序列推薦模型,因此一種解決之道是仰賴具有充足資料的其他平台,訓練好模型後將其遷移(Transfer)到目標平台,可此任務為可遷移式序列推薦(Transferable SR)。鑑於現有序列推薦方法難以同時達到這三種任務,於是我們提出全面性序列推薦任務(Holistic Sequential Recommendation),需要能夠在單一模型框架下同時做到典型、歸納式、以及可遷移的序列推薦,並且提出一基於圖神經網路的模型 -- 關聯性時間注意力圖神經網路(RElational Temporal Attentive GNN, RetaGNN),其中關鍵在於藉由圖神經網路的歸納式與可遷移的性質,在我們建構的使用者-商品-屬性三分圖(Tripartite Graph)上進行節點特徵表示學習並以商品排序作為訓練目標,來達成此目標。
Financial GNN:FinTech最關鍵的技術為評估金融商品的潛力,並為客戶推薦最有機會獲利的金融商品(如高投資報酬率之股票),然而現今FinTech多著重於量化分析,如基金與股票的價格預測,如何精準推薦能帶來高額獲利的潛力商品,是更具挑戰性且更能為客戶與公司帶來實質收入的任務。我們開發一基於圖機器學習的高投資報酬率金融商品推薦演算法Financial Graph Attention Network (FinGAT),給定當前時間點金融商品(如公司股票)的歷史價格,該商品所屬類型(如哪一類股),FinGAT能準確推薦下個交易日之高投資報酬率金融商品供客戶進行投資選擇之參考。準確推薦高投報率商品,須得讓機器學習捕捉價格的長短期趨勢,以及不同商品(如上市上櫃公司)彼此間的互動關聯性(如併購、子公司規數、競爭、投資),現有技術已針對前者透過深度學習達到一定準確性,但對於後者得仰賴人工蒐集自訂公司的關聯影響,事實上公司間的互動關聯許多時候不公開的、是隨著時間動態變化的、是多重關聯的、且是與公司所屬類股有關的,透過人工方式定義公司間的關聯無法捕捉到真實公司間的複雜往來互動,我們所開發的FinGAT打破這項限制,讓機器自動學習出公司彼此間的關聯,進而取得突破性的高投資報酬率金融商品推薦準確率。
減緩道德損害的深度學習應用
深度學習作為AI的核心技術,已被廣泛應用於各種領域,如精準醫療、智慧製造、社群網路、電子商務、自然語言理解和自動駕駛車輛等。各種深度學習方法能處理各種資料類型的任務。例如,卷積神經網絡(如ResNet和EfficientNet)針對影像,遞迴神經網絡(如LSTM和Transformer)常用於文字,圖神經網絡(如GCN和GraphSage)主要用於圖。儘管深度學習在不同應用中取得了成功,但當應用的接收者是人類時,意味著用於模型訓練的數據是從人們的輸入中收集的,這就引出了AI倫理(Ethics)的問題。近期一篇《Nature Machine Intelligence》文章指出了五項重要的AI倫理原則,這些原則是從現有的在不同領域建立的AI系統中識別和彙總出來的,包括透明(Transparency),公正和公平(Justice and Fairness),不作惡(Non-maleficence),責任(Responsibility)和隱私(Privacy)。現實世界的AI應用急需在這些原則下緩解倫理問題。終極目標是在享受AI服務帶來的便利和快樂的同時,保護人們的福祉和安全。在這方面的研究,我們率先開發進階的學習技術,以緩解在三種不同應用場景中的AI倫理問題,包括:基於CNN的醫療影像疾病預測,利用GNN的穩健交易欺詐檢測,以及利用神經結構搜索的社群媒體資訊失序偵測。
維護隱私的醫療影像分析:在醫療影像要被公開以進行基於AI的社會公益(Social Good)的情況下,我們學習從病人的醫療影像中獲取維護隱私(Privacy-preserving)的特徵表示(Image Embeddings)。我們提出釋出的不是用於AI醫療應用(如疾病預測)的原始醫療影像,而是移除了某些個資敏感屬性(如性別與年齡)的醫療特徵表示。目標是將個資從即將公開的醫療影像特徵向量中抹除,使惡意人士無法成功從釋出的向量中推理出個資屬性值,同時確保特徵向量的實用性。意即,想要從醫療影像中生成特徵表示,使其用於敏感標籤分類上的表現變差,同時醫療機構和研究人員仍可以使用該向量在疾病預測上產生滿意的表現。此外,我們擔心惡意人士可能嘗試尋找一些與原始醫療影像資料集相似的第三方資料集,然後相應地訓練一個可以從我們釋出的特徵向量中重建原始影像的模型。因此,我們還需要保證釋出的向量被用來進行圖像重建的難度。
標記資料稀缺的詐欺偵測:在線上進行跨國交易,惡意廠商會故意操縱他們的貿易發票以避免按價稅和關稅,海關須發展系統來檢測欺詐交易,但因人力有限,只能檢查每日所有交易中的一小部分(e.g., 5%或更低)。機器學習是海關詐欺偵測的有效策略,然而進口交易數據規模大且快速變化,只有有限數量的交易會被抽查而獲得詐欺與否的標籤,大多數交易是無標記的(Unlabeled),我們需要改進欺詐檢測的模型設計,方能有效利用無標籤數據。此外,欺詐偵測模型也經常會遇到以前未見過的資訊,如新的廠商或者新類型的貨品,在這些情況下,由於缺乏歷史數據,偵測欺詐交易變得更加困難。我們目標是半監督(Semi-supervised)、無監督和歸納(Unsupervised and Inductive)的情境中實現進階的海關欺詐檢測。我們的目標是開發一種先進的海關欺詐檢測算法,以處理數據稀缺的實際場景。基於圖神經網路,建構在廠商和貨品的圖結構上,並善用GNN自監督預訓練(Self-supervised pre-training)來捕捉交易特徵關聯性與學習詐欺線索、,以及GNN歸納式學習的能力來面對新廠商和新貨品,藉此克服大規模交易的標記資料稀缺之挑戰。
通用社群資訊失序偵測架構搜尋:我們的目標是開發一種通用的資訊失序偵測演算法,能學習最適合的神經網路架構,以產生更好的文本特徵表示。常見的社群媒體資訊失序包括假新聞、網路霸凌行為和仇恨言論,失序原因多樣,包括但不限於惡意的傳播者、平台的演算法優化和觀眾的確認偏見(Confirmation Bias),因此帶來了許多挑戰,例如:文本資料的高度不結構化(如短文與長尾分布)、複雜的使用者與文本互動關係、以及失序行為的動態變化。因此,我們希望通過自適應地尋找更好的網路架構來偵測資訊失序的社群文本。具體來說,目標是在社群媒體上偵測假新聞、網路欺凌行為和仇恨言論,但我們希望方法無須手動為任何特定的失序偵測目標進行定製,相反,我們希望能夠透過開發具彈性的神經網路架構搜尋(Neural Architecture Search)靈活地尋找各種社群文本表示學習和分類的更好神經網路結構。