主持人:黃敬群教授
近年來,影片數量的驚人增長使它在日常生活中無處不在,尤其是體育領域充滿了豐富的影片內容。體育賽事影片不僅是公眾娛樂的來源,更能為運動員提供分析、反饋與表現評估的依據,幫助他們持續提升。然而,龐大的影片量使得有效檢索成為挑戰。視訊摘要(Video Summarization)是一種有效的方法,透過提取影片精華並去除冗餘部分,形成精簡且資訊豐富的視訊摘要片段(Video Summary Clips)。這些片段讓使用者能更快速瀏覽影片,節省時間,並輕鬆消化龐大的數據量。傳統上,視訊摘要通常由人工完成,但這既耗時又費力,而自動化視訊摘要技術的出現,有望幫助解決此一問題。因此,自動化視訊摘要已成為當前研究的關鍵,致力於縮短摘要製作時間並降低人力需求。本研究將專注於自動生成羽毛球比賽的視訊摘要,涵蓋各種用途,包括特定球員/球種剪輯、賽事亮點、球員宣傳片等。對於計畫中其他子計畫的相關互動,子計畫一可以利用此項目生成的視訊摘要製作出高品質的文章內容,實現從報導到精華影片的豐富流程,並且發佈在Coach AI 社群平台上。
關鍵幀捕捉
影像簡述
羽毛球比賽由以一分為單位,基於一分作為分割可以為視訊內容提供更清晰的結構和上下文,並能更精確地識別關鍵片段。同時也有助於擷取摘要,使我們能夠專注於分析和選擇每個回合中最重要的視訊片段。我們使用結構相似性指數 (SSIM) 作為基準方法,假設在一個回合中攝像頭的視角保持不變,而在回合之間會有所改變 (如聚焦選手、教練、觀眾或重播)。首先,我們從每一分期間選取一幀作為標準幀。當某一幀 (幀t) 與標準幀的相似度很高時,我們將其標記為回合的開始;當某一幀(幀 t+i)與錨幀的相似度很低時,我們將其標記為回合的結束。最後,從幀 t 到幀 t+i-1 的所有幀將被視為一個回合片段。
在賽事影片摘要中動作識別起著至關重要的作用,它有助於識別比賽中選手執行的擊球類型或具體動作。識別擊球類型對於視訊摘要相當重要,因為它可以區分不同類型的擊球,例如扣殺、挑球、挑高球和網前球。我們提出先使用 OpenPose 抓取人體骨架,再將帶有骨架的影像利用機器學習的模型進行分類,我們首先嘗試使用 Vision Transformer,在我們的資料集上進行微調並測試。
在賽事影片上擷取摘要時,需要額外的文字來呈現片段內容,可以利用球種及其他相關資訊來表達影片內容。利用大型語言模型 (LLMs) 可以準確且有效的生成文本,為視訊內容提供有價值的文字信息,提升摘要的整體質量。因此,我們提議使用 ChatGPT 根據獲得的擊球類型資訊生成文本描述。具體而言,我們基於擊球類型為每一次擊球生成文本描述,同時生成由兩個句子組成的文本描述來描述整個來回的片段 (2 拍),以作為關鍵鏡頭提取的條件。我們按照以下格式使用 ChatGPT 生成文本描述:
骨架獲取
描述範例
我們認為球員位置與擊球球種是分析賽事影片的關鍵特徵。為此,我們設計了專用的圖片編碼器和影片編碼器,分別萃取球員位置及擊球球種的特徵。透過標記資料集生成的文字-圖片對,我們微調 CLIP 模型 (圖片編碼器),以獲取選手位置的圖片特徵;同樣地,我們微調 CLIP 和 MLP 模型 (影片編碼器) 以獲得擊球球種的影片特徵。最後,經過圖片與影片編碼器的微調,我們進一步萃取每一拍的視訊片段特徵,用於訓練精彩度和相似度模組。
球員位置編碼器架構圖
擊球球種編碼器架構圖
特徵萃取架構圖
連續對打片段 (包含連續的幀) 可以提供該分資訊,對於用戶來說更容易理解,因此我們專注於關鍵擊球的提取任務。我們提議在羽毛球賽事影片中利用 CLIP (對比語言-圖像預訓練) 進行關鍵擊球的提取任務。具體而言,我們使用單次擊球和相應的文本描述來對 CLIP 進行微調。我們提議在這個微調過程中使用 Supervised Contrastive loss (SupCon loss),對比學習的目標是在類似的擊球-文本組合中會有較高的相似性。在我們的案例中,正配對由屬於同一類別的樣本組成,也就是相同的擊球類型。例如:如果我們有一個“扣殺”擊球,所有“扣殺”擊球的實例將形成正配對。另一方面,負配對由屬於不同類別的樣本組成,代表不同的擊球類型。例如: 一個“扣殺”擊球將與其他擊球類型(如“挑球”、“挑高球”或“切球”)的實例配對。這些負配對捕捉了不同擊球類型之間的對比關係。
在訓練過程中,我們將 Spatial-Temporal Auxiliary Network (STAN) 整合至我們提出的時序模型方法中,每次擊球的影片將經由改善後的 CLIP 圖像編碼器處理 。同樣地,我們使用 CLIP 文本編碼器對擊球的文本描述進行編碼。為了計算 SupCon loss,我們考慮一組標準點樣本,這些樣本是擊球的視覺和文本。SupCon loss 使標準點樣本與其他正樣本的相似度最大化,同時使標準點樣本與負樣本的相似度最小化,促使正配對的相似度高於負配對的相似度。透過在這些羽毛球數據上訓練 CLIP 並優化 SupCon loss,我們使其能夠在不同球種上學習影像和文本資訊之間的對應關係。這個微調過程增強了 CLIP 理解羽毛球比賽中具體動作的能力。
訓練階段
測試階段
我們使用 CG-DETR 模型進行時刻檢索任務。該模型透過自適應跨注意力機制來計算計算視訊片段與文本查詢的相似性,並結合片段-詞彙關聯度調整,提煉視訊片段與詞彙之間的關聯度,以更準確地捕捉兩者間的語義訊息,從而識別出最相關的片段。此外,該模型根據 QD-DETR 模型提出自適應顯著性檢測器,對檢索到的時刻 (moment) 進行顯著性評估,計算每個片段的顯著性分數 (saliency score),此分數所表示為該片段的重要性或精彩程度 。最後,在 Transformer 的編碼階段,根據最高的顯著性分數,生成出一段亮點片段;而在 Transformer 的解碼階段,系統能預測出影片的時間區段 (起始時間, 結束時間),因此,我們最終能找出與文本描述相似度較高的前幾個視訊片段。
時刻檢索模型架構圖
本系統總共有 5 個模組,包括擊球畫面偵測、基於回合分割視訊片段,擊球球種分類、一般精華影片生成,以及基於文本查詢的精華影片生成。主要目標是透過一系列的演算法來偵測、分類和摘要出賽事影片中的關鍵時刻,整體流程分為前處理 (標註) 和後處理階段 (生成)。系統在前處理階段輸入原始羽球賽事影片,並以 CSV 格式記錄比賽的各項內容,輸出為一個結構化的數據,包含影片的詳細標註。後處理階段輸入為生成的標註數據,輸出是經過各個模組的處理與增強所得的 mp4 影片。
我們整合了所有模組,並將結果呈現在一個網站中。在展示網站中,使用者可以選擇特定的比賽,並執行各個模組功能,將會得到擊球偵測結果、精華影片與預測時刻等結果。
模型架構圖
模組前/後處理概念圖
展示網頁
本子計畫預計結合精彩度模組和相似度模組,透過自動化流程從賽事影片中提取最具價值的視訊片段。精彩度模組是使用微調後的影片編碼器萃取影片的特徵,將這些特徵輸入到一個 MLP 模型中進行訓練,從而得到該影片的精彩度分數。而相似度模組則是使用基於文本查詢的時刻檢索模組,得到預測的視訊片段與其相似度分數。
整體流程從使用者輸入文本描述和賽事影片開始,系統透過兩個模組的篩選與評估,並根據綜合分數對視訊片段進行排序,最終,這些片段將會連結成一個精華影片 (Query-based Highlight)。為了提供使用者友好的互動與觀看體驗,我們開發了一個網頁來展示檢索結果。
精彩度模組
模組流程圖
網頁展示模組功能
基於文本查詢的精華影片生成結果
預計建立針對羽球比賽的視訊摘要框架,有效識別賽事中的關鍵擊球片段並生成精華剪輯,以呈現比賽精彩部分並減少不必要的內容。
基於回合分割視訊片段
使用結構相似性指數 (SSIM) 作為基準方法
動作識別 & 生成文本描述
使用 OpenPose 抓取人體骨架
使用 ChatGPT 根據獲得的擊球類型資訊生成文本描述
關鍵分提取模型
使用 clip 模型整合Spatial-Temporal Auxiliary Network (STAN) 模組
結合微調模型和相似性排序,生成賽事精華影片
模版化架構
基於第一年開發的關鍵分提取模型,預計新增擊球畫面偵測 (Hit-frame Detection)、球種分類 (Stroke Type Classification) 與基於文本查詢的精華影片生成 (Query-based Highlight) 模組。使用者可透過文本查詢從完整影片中搜尋相關片段,系統會自動計算這些片段與查詢的相似度及吸引力分數,並綜合篩選出符合條件的精華片段。 另外,將整合所有模組成系統,並開發一個網頁展示功能。
擊球畫面偵測
擊球球種分類
精華影片生成
一般精華影片
基於文本查詢的精華影片
建立系統串接所有模組,並以網頁展示結果
延續第⼆年研究主題。預計實現的應⽤⽬標是相同的,要⽣成特定⾵格剪輯和特定球員剪輯。具體⽽⾔,我們以完整的影⽚和基於⽂本的查詢作為輸⼊,並使⽤第⼆年的⽅法來檢索⼀些受查詢條件限制的視訊剪輯。最終將檢索總分較⾼的多個視訊⽚段,重新組織以形成基於查詢的視訊摘要。
透過使⽤多個影⽚⽽不是單個影⽚來⽣成宣傳視訊摘要,我們更有可能可以製作出有趣和有吸引⼒的剪輯。對於這個任務,我們預計探討另⼀種⾯向,了解同⼀主題影⽚之間的互補性。這種⽅法認為集合中的每個影⽚可能包含與其他影⽚不同的訊息,因此探索影⽚之間的關係將有助於我們⽣成多樣化且有趣的視訊摘要。