為響應教育部為維護聽障生受教權,鼓勵學校遠距課程提供字幕之政策 ,並提升數位教材錄製的品質,東海大學教發中心推出由本單位自主研發的「AI字幕生成工具」。
本工具是一款專為教育場景設計的桌面應用程式,旨在提供一個高效率、高品質且完全免費的本地化字幕解決方案。
核心功能介紹:
全自動生成:僅需幾個點擊,即可將課程錄影、演講、訪談等影音檔案,自動轉錄為帶有時間軸的 .SRT 字幕檔(請詳見說明手冊)。
準確性:可針對學術與教育內容選擇是否進行優化,盡可能準確識別專業術語,並生成流暢易讀的字幕。
安全性:所有運算皆在您的個人電腦上完成,無需聯網。
智慧輔助:除字幕外,也會一併生成「人工審核報告」,自動標記出 AI 最沒把握的片段與潛在的尷尬錯詞,協助校對工作,提高效率。
備註:該應用程式因資安考量,開發過程並未導入生成式AI,本應用程式所運行的AI模型為OpenAI 開發的Whisper,這是一款大型、通用型的語音辨識模型。它透過在包含 68 萬小時多語言音訊的龐大資料集上進行訓練。該應用程式運作時不需使用者自行準備API,也不需連網,但在生成的準確度上還有待改進。
目前,AI字幕生成v25應用程式,在使用時尚有以下問題(我們正在努力改進):
關於「多人對話」的場景
目前狀況:如果您的影片中有多人對話(例如訪談、會議),工具目前還無法自動分辨是誰在說話,會將所有文字標為同一個人。
關於孤行的選擇
目前狀況:目前的字幕生成後,因為我們的字幕排版引擎在嚴格遵守「單行字幕不能超過15個字」這個最高原則時,被迫在句子的末尾進行了換行,孤行是我們程式為了維持字幕最大長度的可讀性,而做出的一種「犧牲」和「妥協」的結果。 未來會希望能持續優化算法,希望能逐步改進。
關於「進階設定」的彈性
目前狀況:您可能發現,要新增自己的專有名詞字典,或針對有雜音的音檔進行微調,操作上比較不方便。
未來計畫:預計構思並開發一個更簡單、更直覺的設定介面,讓您未來可以輕鬆自訂字典、調整參數,以應對特殊的音訊狀況。
關於「硬體效能」的表現
目前狀況:本工具在配備 NVIDIA 顯示卡 的電腦上運行速度最快(CUDA需要更新到最新版本)。若您的電腦(例如大部分文書筆電)沒有獨立顯示卡,處理速度會慢很多,若無顯示卡或者不確定版本的師生可以選擇強制以CPU運行。
給您的建議:若要處理長影片,建議在效能較好的電腦上執行,以節省您的等待時間。
一個關於使用上的提醒
請理解:這是一個強大的「助手」,但不是一個完美的「真人」。它可能因口音、語速或背景噪音而偶爾誤判一兩個字詞。
給您的建議:請將生成的字幕視為一份高品質的「初稿」。我們強烈建議您在最終使用前,花一點時間快速校閱一遍,或者在不影響機密及資訊安全為前提下,建議也可以丟給其他可靠值得信賴的生成式AI應用工具校對錯字,以確保內容 100% 準確。
您的使用體驗是我們進步的最大動力。上述這些限制正是我們團隊未來更新的重點。感謝您的理解與支持,敬請期待一個更強大、更方便的 AI 字幕工具
如有任何建議請於以下表單內留言: