電腦需要GPU,跑起來會快很多。
Step1)下載Whisper,網址如下 https://github.com/Const-me/Whisper/releases,筆者使用Windows11作業系統,點選下載WhisperDesktop.zip進行解壓縮。
Step2)下載語音辨識模型,到huggingface下載 ggml-medium.bin,該模型大小適中且辨識效果還可以,網址如下https://huggingface.co/getwavery/ggml-models/tree/main,下載ggml-medium.bin放在剛剛解壓縮資料夾下。
Step3)執行WhisperDesktop.exe,載入模型檔ggml-medium.bin。點選「...」選取同個資料夾下模型檔ggml-medium.bin,使用「GPU」實作,點選「OK」進行載入。
Step4)載入影片檔或語音檔,本範例載入mp4影音檔,為了載入影音編輯軟體的字幕程式,選擇「SubRip subtitles」格式,最後點選「Transcribe」進行語音辨識產生字幕檔(SRT)。