近年的重要研究成果包含發展以生成對抗網路(Generative Adversarial Network, GAN)為主軸的人臉辨識技術、透過人臉視頻的深度學習判讀心跳、即時大角度人臉關鍵點偵測、以深度學習量化顏面神經失調症狀、以三維重建進行大視角人臉辨識、人體重建、以曲面轉置之三維人臉重建。現階段研究如下:
臉部重現
一種將參考人臉的臉部動作轉移至來源人臉上的技術,轉換的臉部動作包括臉部的姿態以及表情。本技術透過輸入一張來源人臉及一張參考人臉,系統將根據來源人臉提取其身分特徵,並同時擷取參考人臉之姿態、表情特徵,最後生成一張和參考人臉相同表情、姿態並同時保留來源人臉的身分特徵的人臉圖片。
臉部年齡轉換算法
由於最新的深度學習方法所取得的最新進展,臉部年齡轉換算法的開發已成為計算機視覺領域的一個有吸引力的研究主題。 在給定臉部作為輸入的情況下,臉部年齡變換是指針對輸入臉部圖像的生成,在年齡更大或更小時,可以很好地保留輸入臉部的身份。 由於物理老化過程引起的面部外觀變化的內在復雜性,這是一項具有挑戰性的任務,這可能與個人的身體狀況,性別,種族和其他因素有關。 近年來,由於生成對抗性網絡(GAN)方法的有效性,以及大量臉部年齡數據集的可用性和商業潛力,它受到了越來越多的關注。
人臉辨識與生成對抗網路
我們提出角度導向臉部編碼與正規化模型 (Pose-Oriented Encoding and Normalization),旨在解決跨角度臉部識別問題。不同於主流方法使用單一編碼器 (Encoder) 通過訓練大量數據促進跨角度人臉辨識、或將任意人臉旋轉至特定角度 (Normalization) 後再進行辨識,本團隊研究臉部角度對於臉部識別的影響,製作多種角度導向的編碼器與臉部正規化模型,並設計一系列角度導向的臉部辨識測試流程。本團隊的研究顯示所提出的臉部編碼與正規化模型在公開測試資料庫IJB-A與IJB-C均展現具競爭力之辨識率。
三維人體重建
提出了一種以體素(Voxel)為基本元件之多視角三維人體重建的自編碼網路。透過大量三維人體掃描資料之端到端學習(End-to-End Learning),自編碼網路可運用其端到端架構(End-to-End Structure)重建二維人體圖像之三維人體模型。本文提出之自編碼網路不需要二維與三維的關節點位置,也不需要擬合處理,而是透過二維編碼器、三維解碼器、多視角整合架構與優化器以生成細緻的三維人體模型。提出的方法具有下列優勢: 1.較快的三維模型重建速度 2.訓練資料並不需要繁雜之標註 3.較易訓練與運用的端對端三維重建架構。
除了以 GAN 為主軸的人臉辨識研究成果發表於今 2020年8月的 IEEE Access,重要研究相關論文發表於2020年8月之前,依時間順序列表如下:
“Dual-View Normalization for Face Recognition,” IEEE Access
首次提出雙視角正規化,挑戰現有的人臉正規化僅考慮轉至正臉的研究,驗證雙視角的特徵學習優於僅考慮正臉的單視角特徵學習;提出雙視角正規化學習網路,可有效學習跨視角的身份特徵,並可將任意輸入視角,轉型為高品質擬真之正臉和45度側臉;提出的雙視角正規化導致的辨識率優於目前最佳的人臉正規化導致的辨識率。
“A Deep Learning Framework for Heart Rate Estimation from Facial Videos,” Neurocomputing
提出以時頻轉換式(Time-Frequency Transformation, TFT)將一維膚色訊號轉成二維時頻圖,把心率量測轉成影像辨識,可用深度學習解決。前期成果發表於 IJCB 2017。
“Edge-Embedded Multi-Dropout Framework for Real-Time Face Alignment,” IEEE Access
首次提出以人臉輪廓深度學習為骨幹,進而解決大角度人臉關鍵點偵測的問題。因為解法創新,效果優越,部分成果除發表於 ICIP 2018,並得到 CVGIP 2018 最佳論文獎,延伸之期刊版本刊登於 IEEE Access 2019。
“Deep Hierarchical Network with Line Segment Learning for Quantitative Analysis of Facial Palsy,” IEEE Access
首次提出以深度學習模型量化顏面神經失調的症狀,並發表全球第一個公開的顏面神經時調人臉資料庫(YouTube Facial Palsy, YFP),IEEE Access 在論文送審的三週內全稿接受,無需修改。前期研究成果發表於CVPRW 2018 與 AVSS 2018。本研究受台北醫學大學邀請,於該校學術討論會,對全院醫師發表研究成果。
“Fast Landmark Localization with 3D Component Reconstruction and CNN for Cross-Pose Recognition,” IEEE Trans. Circuits and Systems for Video Technology
提出快速人臉關鍵點偵測、人臉局部重建和深度學習進行大角度人臉辨識,突顯合成資料的增量,有助於深度學習網路辨識效能的提升。相關研究成果獲得 CVGIP 2016 碩士論文獎與 ARIS 2017 Best Paper Award。
“Robust Cross-Pose Face Recognition using Landmark Oriented Depth Warping,” Journal of Visual Communication and Image Representation
本研究提出以人臉深度翹曲(Warping)進行三維人臉重建,方法先將 FRGC資料庫中人臉依種族和性別分類,再由每個類別中透過聚類 (Clustering)分析,擷取各類別中人臉關鍵點的分佈子集。當二維目標人臉輸入時,透過關鍵點的比對,尋得資料庫中最接近的三維人臉,透過翹曲將二維人臉映射至三維人臉。
“Hybrid Ageing Patterns for Face Age Estimation,” Image and Vision Computing
本研究提出混合式年齡模式模型,利用多尺度皺紋特徵擷取器進行年齡預測。先透過人臉關鍵點偵測,將臉部劃分為10個局部區塊,再由每個區塊擷取個別之皺紋特徵,利用支持向量機建立此特徵與年齡的回歸模型。提出的方法可在FG-NET、FERET、MORPH等資料庫獲得傑出的效能。
“Face Recognition Across Poses Using a Single 3D Reference Model,” IEICE Trans. on Information & Systems
延伸目前最先進的人臉重建技術至跨視角人臉辨識,先從二維人臉影像重建三維人臉,透過三維人臉模型取得二維多視角投影,並由此解決多視角之人臉辨識。本研究深入探討如何對齊二維人臉與三維人臉、不同三維人臉參考模型的影響、以及不同的測試組與註冊組的設定對辨識率的影響。
“RGB-D based Face Reconstruction and Recognition,” IEEE Trans. on Information Forensics & Security
本研究探討以RGB-D人臉影像註冊但測試時僅有RGB人臉影像,即註冊時可取得深度影像,但辨識時無深度影像之人臉辨識。因深度影像的雜訊會隨人臉的距離增加,本研究提出可有效濾除深度影像中雜訊的三維人臉重建。先透過人臉關鍵點偵測,對齊含雜訊之RGB-D人臉影像與不含雜訊之三維人臉模型,進行局部區塊深度之翹曲,將不含雜訊之模型區塊取代註冊影像之雜訊區塊。經多項資料庫之測試,本方法之效能優於其他最新之方法。
“A Comprehensive Review of Past and Present Image Inpainting Methods,” Computer Vision and Image Understanding
這篇論文回顧了影像修補的相關研究,範圍涵蓋傳統影像處理的方式以及最新深度學習的方法。我們把傳統方法分類為5項:典型紋理、典型結構、擴散法、新書表示法及混合法。深度學習的方法分為卷積神經網路和生成對抗網路。我們也介紹了效能評估資料庫以及評估的協定,提供未來研究的方向參考。
“Wasserstein Divergence GAN with Cross-Age Identity Expert and Attribute Retainer for Facial Age Transformation,” IEEE Access
在以GAN進行的年齡轉換研究中,常見到利用人臉辨識專家網路與影像屬性擷取網路進行身分與屬性之保留,但幾乎沒有研究解釋為何選用該人臉辨識專家網路與屬性擷取網路的原因。本研究比較了近期發表的人臉辨識專家網路與常見之屬性擷取網路,透過大量系統化的實驗,評比了這些網路在身分保留與屬性保留的效能,並探討這兩類網路互動的關係。在製作人臉年齡轉換器時,本研究提供了如何選用與設定上述兩類網路模組的重要訊息。