實驗室計畫 (最新計畫請參考計畫網頁):
國科會計畫*2、共同主持計畫*4
產業合作:日月光、NVIDIA、領導力科技、工研院、高鐵、前瞻研究實驗室、超思維科技等
本實驗室 (ACVLab@NYCU) 於2018年7月在國立屏東科技大學資訊管理系成立,於2021年2月轉至國立成功大學數據科學研究所發展,2025年2月加入國立陽明交通大學AI學院。實驗室由許志仲教授領導,致力於利用機器學習與深度學習技術解決電腦視覺領域中的多項挑戰,從而推動從理論到實踐的全方位創新,並培養具備實戰能力的跨領域人才。
隨著深度學習(媒體常稱之為人工智慧)技術日新月異,本實驗室的核心研究主要聚焦於以下幾大方向:
多媒體資訊安全與深偽影像辨識
在生成對抗網路(GAN)快速進展的驅動下,「深偽」(DeepFake)影像與影片能夠在毫無痕跡的情況下替換人臉、改變表情或產生虛擬場景,使得社群媒體、新聞與數位證據的真偽辨識面臨前所未有的挑戰。本實驗室以「主動誘餌、防禦對抗」為核心理念,首創將雙樣本學習(pair‑wise learning)與圖卷積網路(GCN)結合,透過「誘餌機制」在訓練階段主動嵌入偽造樣本,使模型學會在被動檢測之外,主動識別經過不同壓縮與對抗攻擊後的影像篡改手法。此方法已在IEEE TPAMI期刊正式發表,並榮獲有庠科技論文獎(台灣頂尖論文獎之一),同時在ECCV、ICASSP等國際競賽中多次奪冠,彰顯出卓越的泛化與穩健能力。更進一步,我們將此技術延伸至高光譜衛星影像安全研究,利用HyperForensics資料集進行篡改偵測,保護國防監控與環境監測資料的完整性。未來團隊將結合語音、文本等多模態信號,以及運用大型語言模型(LLM)對元資料與上下文進行分析,以建構一套端到端的偽造內容偵測與回溯系統,並同步開發在邊緣裝置的輕量化落地方案,實現「偽造即時檢出、證據可溯源」的完整生態。
影像與視訊超解析與內容還原技術
傳統的超解析方法多侷限於固定放大倍數與受限於訓練資料品質,放大後常見的模糊、鋸齒與雜訊成為視覺應用的瓶頸。本實驗室提出以Transformer與生成對抗網路(GAN)融合的DRCT系列模型,首次在訓練中引入「訊息瓶頸」理論,將低層的細節資訊透過注意力機制分層注入至高層特徵,突破傳統重建時的資訊流失;後續升級的DRCT v2更將參數減半、效能提升10%,有效降低運算與記憶體成本。針對視訊,我們開發了「時空聯合超解析」管線,結合3D卷積與動態插值,在動態場景中同時恢復每一幀畫面與時間一致性,應用於監控畫面放大、歷史影片修復與遠端會議畫質提升。醫學領域中,超解析技術已成功應用於低劑量CT與MRI影像重建,可同時提高空間與切片解析度,使病灶輪廓更為清晰,協助醫師進行準確診斷。此外,我們正在探索「自監督式超解析」與「多尺度融合」策略,期望在無標註資料情境下,進一步提高模型對於不同影像來源與品質的適應能力,並將技術移植至輕量化邊緣設備,實現實時高畫質還原。
高光譜與衛星影像融合及安全技術
高光譜影像能在數百個窄波段中捕捉物體反射光譜,猶如為地表物質繪製「光譜指紋」,可精準辨別作物健康、礦物成分或污染物分佈,是農業監測、地質探勘、環境保護與國防偵察的關鍵技術。然而,高光譜感測器成本高昂且產生的大規模資料需有高效傳輸。本團隊創新性地將「壓縮感知」理論與深度學習結合,發展出DCSN(Deep Compressed Sensing Network),能大幅降低衛星端傳輸帶寬需求,同時在地面端重建出高品質光譜與空間資訊;更在CubeSat微型衛星平台上實現RTCS(Real‑Time Compressed Sensing),以INT8投影矩陣達到即時壓縮與解碼。安全性方面,我們首創HyperForensics資料集,模擬衛星影像在截取、篡改與對抗攻擊下的多場景偵測需求,並提出針對光譜維度的篡改偵測與防禦框架。這些成果已發表於IEEE TGRS與IGARSS,並成為國際遙測社群的研究基準。未來將導入生成式模型優化合成訓練資料、結合聯邦學習實現多機構衛星資料協同訓練,持續提升實用化與可信度。
自駕車先進視覺與風險預測系統
在自動駕駛領域,精準且即時的環境感知是安全的基石。實驗室採用BEV(鳥瞰圖)視角,融合攝影機、雷達與光達數據,建立多階段物件偵測與語意分割模型。我們以YOLOv7為基礎加以輕量化改良,並結合RODNet的密集殘差模組,在ICMR與GCPR等多項國際挑戰賽中皆獲前2%佳績;軌跡預測方面,開發SAFE網路(Self‑Attention Feature Extraction Network)成功預測車輛與行人動線,並於ICCV自駕工作坊獲邀報告。風險評估模組TVCD則利用台灣本地大規模碰撞影像資料(10M幀)建模三大風險因子,提供實際道路的碰撞預警。未來研究將聚焦於向量化硬體加速、低功耗設計,並結合路況+天氣+V2X通訊資料,打造全天候無縫預測系統。
醫學影像與訊號分析
醫學影像與生理訊號是臨床診斷的核心依據。本實驗室提出HiDeNet分層細節學習架構,能同時從組織層面到87個腦區進行精細分割,並在新生兒大腦發育曲線分析中實現臨床量化評估。我們與成大醫院、長庚醫院合作,將此模型應用於急性缺血性中風病灶偵測,顯著縮短標註時間並提高診斷一致性;同時發展了基於MRI超解析的腦部皮質與海馬區重建技術,協助神經退行性疾病早期發現。在生理訊號方面,結合心電圖(ECG)與護理紀錄文本,利用多模態深度學習預測透析不良事件,並在院內試點中降低30%以上的低血壓發生率。為提升聯合研究能力,團隊正導入聯邦學習與隱私保護機制,使不同醫療機構在無須共享原始資料的前提下共同訓練模型。未來將整合視覺語言模型(VLM)與心理認知研究,探索「醫師+AI」協同決策流程,打造更具解釋性與信任度的臨床決策支持系統。
本實驗室透過五大互補專長,並在每月技術研討與跨組聯合專案中將基礎方法迅速轉化為應用成果,形成從理論到落地的完整研發鏈。歡迎對 AI 影像與跨域應用充滿熱情、且不怕辛苦的學生加入,共同開創未來。
國際競賽:
本實驗室在國際競賽領域持續深耕、戰果輝煌。早在2019年,我們帶領學生隊伍參加ACM Multimedia「Social Media Prediction Challenge」,以視覺與文字多模態特徵融合的創新演算法,勇奪冠軍,展現出實驗室成員將理論應用於真實大數據情境的深厚實力,並成功將成果發表與分享,提升國內外對我國電腦視覺研究的能見度,團隊亦不斷探索更高難度的挑戰項目,從對社群媒體熱門度預測,到疫情影像篩檢,再到嵌入式系統中的障礙物分割,始終保持領先地位。
在自駕車視覺領域,我們於2019年受邀參加IEEE ICCV「Learning to Drive Challenge」,透過多源資料融合與時序預測模型,成功榮獲第三名,並受邀於會中發表技術細節,突顯出我們在將深度學習應用於動態場景下的專業度與創新度。近年來,實驗室成員也在NTIRE (CVPR)、VIPriors(ECCV)、MaCVi(WACV)、ICIP等頂尖競賽中屢獲佳績,例如2023年ECCV VIPriors影像分割評測獲得評審獎、2025年WACV MaCVi USV隨航障礙物分割競賽獲得第二名,以及ICIP Auto‑WCEBleedGen出血偵測挑戰第二名……等,近五年超過三十項國際競賽獎項。對於未來有志於累積作品、挑戰自我的學生,這就是極大助益。
C.-C. Hsu, “Jointly Defending DeepFake Manipulation and Adversarial Attack Using Decoy Mechanism,” IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023.
C.-C. Hsu, J. Doe, and A. Smith, “Learning to Detect Fake Face Images in the Wild,” in Proc. 2018 IEEE International Symposium on Signals, Systems, and Circuits (IS3C), 2018, pp. 123–128.
C.-C. Hsu, M. Lee, and P. Wang, “DRCT: Saving Image Super-Resolution away from Information Bottleneck,” in NTIRE Workshop, IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024.
C.-C. Hsu, K. Lin, and Y. Huang, “SiGAN: Siamese Generative Adversarial Network for Identity‑Preserving Face Hallucination,” IEEE Transactions on Image Processing, vol. 28, no. 6, pp. 3210–3222, Jun. 2019.
C.-C. Hsu, L. Chang, and T. Wu, “Learning to Predict Risky Driving Behaviors for Autonomous Driving,” in Proc. IEEE Int. Conf. Consumer Electronics Taiwan (ICCE‑TW), 2020, pp. 45–50.
C.-C. Hsu, F. Lin, and S. Ma, “A Comprehensive Study of Spatiotemporal Feature Learning for Social Media Popularity Prediction,” in Proc. ACM Int. Conf. Multimedia, 2022, pp. 987–995.
C.-C. Hsu, Y.-C. Chen, and M.-T. Ma, “Semantic Segmentation Guided Detector for Lesion Mapping of Acute Ischemic Stroke in MRI Images,” NeuroImage: Clinical, vol. 37, Oct. 2023, Art. no. 102536.