WhisperKit 本体と一番小さな tiny モデルは、CasualTranscriber に同梱されているので、お試しで使用する分には、何もインストールやダウンロードをする必要はありません。ただ、tiny モデルはサイズが小さいのもあって、処理速度は速いものの、精度はそれほど高くありません。
WhisperKit のモデルをダウンロードするには、メニューの書き起こしで WhisperKit モデル ダウンローダを選んでください。
WhisperKit モデル ダウンローダウィンドウが開きます。
WhisperKit モデルをダウンロードするには、git というコマンドラインのアプリケーションが必要なので、Apple 社が提供する Command Line Tools という一連のコマンドラインアプリケーション群のインストーラを利用します。
お使いの Mac に Command Line Tools がインストールされていない場合は、CL Tools インストールボタンが表示されているのでクリックしてインストールに進みます。
Command Line Tools は、ターミナル.app で、xcode-select --install というコマンドを実行するのと同じ操作でインストールされます。次の指示が表示されたら、インストールボタンをクリックしてインストールしてください。
Command Line Tools がインストールされると、Homebrew インストールボタンとダウンロードボタンが表示されます。Homebrew は、WhisperKit を利用したりモデルをダウンロードするには必要ありませんが、CasualTranscriber では、メディアファイルを変換する際に、ffmpeg というコマンドラインのメディア変換アプリケーションを利用することができます。Homebrew インストールをクリックして Homebrew をインストールすると、ffmpeg インストールボタンが表示されるので、インストールしてください。
ここで、ダウンロードボタンをクリックすると、ダウンロードできる WhisperKit モデルのリストが表示されます。利用したいモデルにチェックを入れてダウンロードします。すでにダウンロードされているモデルがある場合は、チェックが入れられないようになっています。
ダウンロードできるモデルは M1 で制限があり、利用できないモデルは表示されません。
openai_whisper という接頭辞がついたモデルは、Whisper のモデルが WhisperKit 用に用意されたもので、tiny, small, base, large の順にモデルのサイズが大きくなり、処理時間が長くなります。.en がついたものは Whisper のモデルと同様に、英語に特化させたモデルです。
_turbo がついたモデルは、多少の精度と引き換えに large モデルよりも省サイズ・高速化したもので、通常は large-v3_turbo を選ぶといいでしょう。最新版は、large-v3_v20240930_turbo のはずです。
_distil がついたモデルは、openai_whisper-large モデルを蒸留したもので、英語のみの対応ですが、処理時間が大幅に削減されます。
処理時間については、25 分程度の音声ファイルで試したところ、Whisper で large turbo モデルを利用した書き起こしには、M2 Pro の Mac でファイルの実時間程度の時間がかかっていましたが、WhisperKit の large モデルで、実時間の半分程度 (12分半強)、large_turbo モデルで、その半分強の時間 (7分半) で処理が完了しました。つまり、large モデルで、実時間の 1/3 程度の時間で処理が終わる感じです (これはお使いの Mac によります)。
蒸留したモデルである distil-large モデルは、large モデルの 1/6 程度 (2分程度)、distil-large_turbo モデルは、さらにその 3/4 程度 (1分半ほど) の時間で処理が終わりました。精度は多少落ちますが、十分に問題ないレベルでした。
英語での利用であれば、_distil モデル、それ以外の言語を書き起こすなら large_turbo を利用するといいでしょう。ただ、M1 Mac では、_turbo モデルは利用できないので、large モデルを利用することになります。
これで、選択できるモデルのリストにダウンロードしたモデルが追加されます。