Research Interests

Brief Description

本實驗室之研究領域為資料科學、機器學習、社群網路分析、與推薦系統;實驗室之研究以資料探勘(Data Mining)、機器學習(Machine Learning)與深度學習(Deep Learning)為技術核心,基於從線上服務(Online Services)所蒐集而得之異質性巨量資料(Heterogeneous Massive Datasets),開發兼具效果、效率與可擴充性之學習演算法,解決推薦系統、社群網路、物聯網與智慧城市所遭遇的各種應用問題。

Popular Science Articles

關於本實驗室的研究介紹,最快速了解的方式是透過老師所撰寫的科普文章。以下整理幾篇老師接受各科普平台或報章雜誌邀稿撰寫的科普文章。

Recent Project Topics

社群網路與資訊散播

社群網站如Facebook與Twitter的核心是背後連結數以億計使用者的社群網路(Social Networks),其中最主要的功能是提供使用者跟朋友分享資訊,資訊可透過社交關係由少數使用者傳播到眾多使用者,此一現象稱資訊散播(Information Diffusion)。社群網站上所累積的巨量社群資訊散播資料讓研究人員可前所未有地分析並解決許多相當根本卻十分重要的課題,如人們如何在地理空間中互動形成朋友、影響彼此,從理論上了解資訊於社群網路與地理空間中傳遞的動態機制,到實務上應用資訊散播開發地理資訊管理系統;從傳統社群網路分析,到兼具大規模與即時性的異質性複雜社群網路探勘;資訊散播可說是一個橫跨電腦科學、行銷學、人類學與物理學等學科的跨領域學門。我們認為分析並探勘資訊散播之研究大致可分為兩大方向。

巨量感測資料之應用

隨著行動通訊裝置、適地性服務(Location-based Services)如Foursquare與Facebook Places、與數位相機等地理社群媒體(Geo-Social Media)的興起與普及,我們能夠取得使用者於地理空間活動之一種社交感測資料:社交感測資料(Social Sensor Data),這種感測資料由大量使用者產生並迅速累積,記錄了人與人於地理位置上的互動與時空資訊,並連結了人們在虛擬網路世界(online)與真實物理世界(offline)之行為。另一方面,世界各國政府陸續公布開放資料(Open Data),諸如交通流量、環境汙染、公共建設、醫療資源、人口普查資料等,這些資料可說是感測了各個地方人們的活動,及其對社會與環境所帶來之影響。換句話說,社交感測資料與政府開放資料,分別從人群活動與產生影響這兩個互補的面向,前所未有地描述了我們所生活的動態世界,成為分析與預測各種人類行為及其影響、並開發行動應用服務的最佳資源。本實驗室於此主題之研究有以下兩大方向。

疾病擴散分析、預測與管理

物聯網感測器來蒐集民眾的傳染病疫情資料,進而監控、追蹤、推估與了解疫情之擴散,以此為依據來進行防疫資源之分配與調控。預防勝於治療,我的相關研究著重於疫情擴散之初期監控與預測,盼能在疫情尚未大爆發前,掌握該疫情於時間、空間與社群三方面的擴散趨勢,以協助政府防疫單位做出能兼具效果與效率的控制疫情之決策,並將視覺化擴散潛勢,輔助民眾了解自身暴露於感染之風險。 

疫情監控與防疫分析之分為兩大部分:「社群疫情擴散」(A)與「疫情感測」(B),並分為六大研究主題,這些主題與彼此間的關聯如圖所示。首先,疫情爆發與否之風險機率將決定未來得投入多少資源於防疫與醫療,若能及早準確且可靠地預測疫情大爆發之風險,相關單位將獲得較為充裕的時間來進行資訊調配,我們利用物聯網感測器所蒐集而得之時間、空間與社群疫情擴散資料來進行爆發風險評估(A1),盼能在開始傳出疫情之初,預測在未來特定時間點有多少人可能會被感染,並據此回推估計出疫情最可能爆發之時間點;另一方面,有效配置感測器於民眾和地理空間中是疫情監控的基石,因此我們根據民眾於地理與社群上活動之行為,找出一群具備傳染病感測效率最高的民眾來配置物聯網感測器(B1),藉此在最短時間內蒐集到最精準且有效的疫情資料,來提升後續防疫作為之規劃效果,值提一提的是,我們同時探討一般化之物聯網感測,包含感測器安裝於特定地點之固定式感測,以及感測器隨著時間於地理空間中移動的參與式感測。

防疫是一場人與病毒賽跑的奮戰,了解哪些民眾最可能高度暴露於被感染,不只影響防疫資源的動員與規劃,更決定能否縮短疫情之生命週期,我們根據初期疫情擴散資料與初期被感染者,來預測出疫情如何於社群網路中進行擴散(A2),意即根據歷史傳染病擴散資料,以及新傳染病之初期疫情於地理空間和社群網路擴散之情形,找出哪些人在未來可能被感染;此外,若民眾能事先知道疫情最可能爆發於哪些地理區域,將是減少被感染人數的最直接防疫作為之一,但經常由於感測器資源有限,無法在所有時間點於所有地點進行感測(如智慧捕蚊燈感測蚊蟲數量,以及空氣盒子感測空氣品質PM2.5數值),透過分析歷史傳染病感測資料,與新傳染病之初期疫情感測資料,我們推估出任意時間於任意地點之感測值(B2),藉此評估各地理區域之疫情潛勢,並將其視覺化呈現讓民眾一目了然。

防疫最前線是一般民眾,而防疫的手段經常是防疫資源在特定時間投注於特定族群之民眾(如疫苗)、以及某些高風險之地理空間(如登革熱噴藥),期盼透過此類具體防疫作為來大幅減少未來被該傳染病感染之民眾數量,我們利用傳染病初期擴散資料與社群平台,同時結合上述主題所推估之可能被感染者總數(A1)、疫情感測配置方法(B1)、疫情社群擴散預測(A2)、與時空疫情感測值推估(B2),將防疫資源進行個體、地理與時間之投注(AB3),使得最後被感染的人數能夠越少越好,也讓民眾能及早預防,政府防疫單位也因此能基於我們所開發之初期疫情監控與防疫分析演算法,分析並了解疫情擴散之趨勢以及防疫成效。

精準行銷之商品推薦系統

推薦系統在各種線上電子商務平台中(如NetFlix、Amazon、Spotify與KKBOX)扮演極為重要的角色,使用者可因獲得推薦商品而增加探索更多商品的機會並被提高購買意願,廣告商因推薦而獲得更長的廣告曝光度與更高的點擊率,而服務平台透過推薦吸引使用者可提高收入,並提供更高準確率品質的商品推薦。然而,線上電子商務之推薦系統有兩個長久以來未能被解決的難題,一為「多人共享帳號」(Shared Account),即在需要付費的電商服務中,使用者傾向多人共用同一帳號,此行為傷害了電商推薦系統的準確率,使用者享用被推薦的經驗變差,停留時間亦變短;另一難題為「冷起始」(Cold Start),電商經常開闢販賣新類型的商品,平台上不時會有新的商品上架、新的使用者註冊,新類型商品沒有購買或評分紀錄、新用戶也沒有評分依據可供推薦系統產生準確商品推薦,這是長久一直以來電商所苦之處。

為解決上述二大電商於推薦系統上的難題,我們提出並開發出一創新整合「用戶識別」(User Identification)與「跨領域預測」(Cross-domain Prediction)之推薦系統,其背後技術是透過深度學習中的「圖形遷入學習」(Graph Embedding Learning)與機器學習中的「遷移學習」(Transfer Learning)來達到。此系統不僅能夠準確識別哪些帳號是被多人所共享使用、偵測該帳號中有幾位共享使用者、更可準確找出在歷史紀錄中哪些商品是共享帳號中的哪一位用戶所評分或購買的,並在未來該帳號有新的商品瀏覽紀錄被產生時,能準確偵測是該共享帳號中的哪一位用戶正在瀏覽,並為她做出準確的商品推薦,與近年來最強的推薦演算法相比,我們創新開發的用戶識別推薦機制可獲得至少30%的準確率提升,此準確率提升幅度是非常顯著的;此外,透過從不同領域的商品中學習使用者的商品喜好,我們的系統可準確替新領域的新商品與新使用者做出更準確的推薦,與近年最新的跨領域推薦方法相比,針對不同領域之間的推薦平均可獲得至少15%的商品評分預測誤差下降。未來,我們正著手解決推薦系統中其他棘手的難題,包含評分稀疏性(Rating Sparsity),以及連續式推薦(Session-based Recommendation)等重要課題。前者主要考量在數以百萬計的使用者與商品中,使用者真正有評價留下紀錄之商品極為稀少,造成模型訓練上資料不足;後者則須針對使用者當下瀏覽情境與紀錄,即時且連續推薦出使用者感興趣之商品。

社群假新聞偵測與防治

社群媒體上簡短文字以及方便的互動與分享功能造就了各種社群集體智慧帶來的應用,如病毒式行銷、智能推薦、精準廣告以及輿情分析,但同時也帶來了具傷害性的「副產品」--造假資訊(disinformation),最廣為人知的典型例子就是假新聞(fake news),泛指被蓄意製造出來且內和不實資訊的貼文故事。然而當前假新聞偵測演算法尚未來做到在貼文擴散之早期(即尚未觸及到眾多使用者前)就達到準確偵測,若要有效打擊假新聞,必須除了做到早期準確偵測,還要能從廣大使用者群中識別出誰是最可疑的散播者,以及貼文內容的哪些文字部分造假了,方能讓相關單位進行有效調查;此外,準確社群假新聞偵測可能犧牲使用者隱私欄位,即透過深度學習利用用戶貼文互動紀錄來反推個人隱私屬性,如何在兼顧使用者隱私保護以及準確假新聞偵測下,為使用者推薦合適的貼文來閱讀與互動,也是假新聞偵測所必須兼顧的。我們經由以下三個研究方向,嘗試同時做到社群媒體假新聞偵測與用戶隱私保護。

海關進口申報詐欺偵測

海關是一個國家進出口貿易最重要的機構,而關稅也是政府稅收的重要來源,在台灣每天就有上幾十萬甚至百萬筆進口交易。海關最重要的任務之一是查緝非法進口申報貨物,有效查緝非法申報可減少犯罪並提高政府稅收。我們開發能夠自動偵測違法交易的人工智慧演算法Dual-Attentive Tree-aware Embedding (DATE),針對海關進口申報交易大數據進行非法走私交易偵測,對於每一筆申報進口交易紀錄,包含商品類型、數量、重量與價值等資訊,我們所開發的DATE可產生偵測為非法交易的機率值,海關查緝人員僅須專注於檢測機率較高的交易貨品,對於機率較低的交易貨品則可以隨機抽樣或直接放行的方式減少人力成本。除了偵測非法進口申報交易,DATE更可以對偵測結果產生對應的可解釋性文字,來輔助說明為何該交易違法。DATE是一個基於表格式資料(Tabular Data)的深度學習技術,由三個部分所組成:(1)基於梯度提升森林(GBDT)萃取進口交易申報欄位之特徵組合(Cross Features),有效考慮各種可能隱含非法交易的線索;(2)雙重注意力機制(Dual Attention),學習特徵組合的重要性及其彼此間的關聯性,以及學習商品與進口商和特徵組合間的關聯性;(3)雙重任務學習(Dual Task Learning),透過同時預測該交易是否違法、以及該交易能夠帶來的額外關稅收益,來訓練模型。

進階圖神經網路設計與應用

圖(Graph)具備表示各種人事物彼此關聯與互動資料的性質,真實世界中許多領域蒐集而得的巨量數據皆能表示成圖,進而透過圖機器學習(Graph Machine Learning)帶來跨領域應用。圖神經網路(Graph Neural Network, GNN)是近期圖機器學習最重要的技術,旨在設計進階圖神經網路,學習生成通用的節點特徵表示向量,並應用在各領域。近期我們探討了三個進階GNN設計與應用:能否學習並融合潛在的社交圈(Social Circles)於GNN預訓練?能否學習讓GNN具備歸納(Inductive)與遷移(Transferable)能力?如何在未能觀察到圖結構之情境下學習應用GNN?我們將針對具備節點特徵之圖資料,學習預訓練GNN,即圖特徵表示學習(Graph Representation Learning),透過設計圖卷積機制與對比學習演算法來提取潛在的社交圈資訊,最終預訓練產生更有效的節點特徵表示向量,用於各種下游任務如節點分類與連結預測;我們將GNN應用於全面性序列推薦系統,目的為開發一具備歸納與遷移能力的GNN模型,使其能對新的用戶與商品、以及在目標領域進行精準的序列推薦;我們也探討如何把GNN用於金融科技推薦最能賺錢的金融商品,設計專屬GNN模型來克服無法觀察到股價彼此間圖結構的困難,並融合公司與類股的階層影響來為股價進行排序。

減緩道德損害的深度學習應用

深度學習作為AI的核心技術,已被廣泛應用於各種領域,如精準醫療、智慧製造、社群網路、電子商務、自然語言理解和自動駕駛車輛等。各種深度學習方法能處理各種資料類型的任務。例如,卷積神經網絡(如ResNet和EfficientNet)針對影像,遞迴神經網絡(如LSTM和Transformer)常用於文字,圖神經網絡(如GCN和GraphSage)主要用於圖。儘管深度學習在不同應用中取得了成功,但當應用的接收者是人類時,意味著用於模型訓練的數據是從人們的輸入中收集的,這就引出了AI倫理(Ethics)的問題。近期一篇《Nature Machine Intelligence》文章指出了五項重要的AI倫理原則,這些原則是從現有的在不同領域建立的AI系統中識別和彙總出來的,包括透明(Transparency),公正和公平(Justice and Fairness),不作惡(Non-maleficence),責任(Responsibility)和隱私(Privacy)。現實世界的AI應用急需在這些原則下緩解倫理問題。終極目標是在享受AI服務帶來的便利和快樂的同時,保護人們的福祉和安全。在這方面的研究,我們率先開發進階的學習技術,以緩解在三種不同應用場景中的AI倫理問題,包括:基於CNN的醫療影像疾病預測,利用GNN的穩健交易欺詐檢測,以及利用神經結構搜索的社群媒體資訊失序偵測。