お使いの Mac が Apple Silicon Mac の場合は、設定の音声認識にある Whisper で、WhisperKit を利用するか Whisper を利用するかを選べます。デフォルトは WhisperKit です。Intel Mac では、Whisper のみが選択できます。
WhisperKit を使った書き起こしは、多少のオプションの違いはありますが、Whisper を使った書き起こしと基本的には同じです。
設定の音声認識にある WhisperKit 音声認識で、モデルと認識言語を選択します。認識言語は選択しなくてもおそらくどの言語も認識するとは思いますが、単一言語の音声ファイルの場合は、指定しておいた方が無難でしょう。
使用ユニットは、将来的な対応のための準備で、現状では、CPU + Neural Engine の組み合わせが圧倒的に高速なので、他の選択肢を選ぶ意味がないためです。将来的に、GPU と Neural Engine の両方を使うオプションが最適化されることがあれば、オプションとして使用可能とする予定です。
Advanced は、No Speech Threshold のみが指定可能で、無音性部分 (音楽やノイズの部分) で音声を認識してしまう場合は、この値をある程度高く設定すると、その可能性を減らせます。
事後処理は、音声認識をした後に、CasualTranscriber 形式の RTF にする際に、どのような処理をするかを指定します。
テキスト区切りは、Whisper と違い、デフォルトと句点区切りのみが選択できます。デフォルトの区切りは、Whisper のものよりも文を意識した区切りになっているようですが、英語などのヨーロッパ言語では、句点区切りにしておいた方がいいでしょう。句点区切りを選ぶ場合は、文末と認識される記号 (文末記号) と、文末とは認識しない文字列 (ピリオドで終わる単語) を文末除外文字列にコンマ区切りで入力します。
単語リンクは、単語ごとにタイムスタンプが埋め込まれたリンク表示になり、クリックした単語へと再生位置が移動します。
タイムスタンプスキップ閾値は、2 つの連続するタイムスタンプで間に書き起こした文字列がない場合に、タイムスタンプの差分がここで指定した秒数未満の場合に、2 つ目のタイムスタンプを挿入しないという処理をするためのものです。
強制区切り閾値は、空白部分を文 (ターン) の切れ目と認識して、タイムスタンプを挿入する秒数を指定します。ここで指定した時間以上に無声部分があると、新たな文・ターンとしてタイムスタンプが挿入されます。
CasualTranscriber で開いているファイルにメディアファイルを読み込んだら、メニューの書き起こしから WhisperKit でファイルの音声を認識を選びます。
テキスト区切りがデフォルトでは、Whisper と同じく、一定程度の長さで区切られる結果となるようです。これは、おそらく、元となる Whisper のモデルの学習に使ったデータが字幕データで、画面に収まる長さで区切られたテキストだったからではないかと言われています。句点区切りでは、区切りのタイムスタンプは、文の終わりで挿入されます。ただ、これは、あくまで機械的に文末記号として指定した文字が現れたところで区切られているだけで、意図しないところで区切られている可能性もあるので確認が必要です。
単語リンクの付いたオプションを選ぶと、区切りのタイムスタンプのほかに、すべての単語がリンクとなり、クリックするとその単語の発音された時間に再生位置が移動します。
これで、音声を聞きながら修正をして、保存します。
複数のメディアファイルをバッチ処理で CasualTranscriber 形式の RTF にすることができます。
メニューの書き起こしから、WhisperKit でバッチ書き起こしを選びます。
WhisperKit バッチ書き起こしウィンドウが表示されるので、テーブルに書き起こしたいメディアファイルをドラッグ&ドロップします。扱えるファイル形式は、QuickTime が標準で扱えるファイル形式に限られます。
オプションの設定は、モデルと認識言語は設定の音声認識で指定したものと同じです。ファイル形式は、CasualTranscriber 形式の RTF (CT RTF) ファイルか、JSON/SRT が選べます。
これら以外にも Whisper バッチオプションと同様のオプションが、設定の音声認識にある Whisper バッチオプションで指定できます。
ディレクトリ構造を再現は、リスト上のファイルの共通する最も上位のディレクトリ (フォルダ) を、保存で選択したフォルダとして、その下位ディレクトリ構造を再現するオプションです。
単語ごとのタイムスタンプは、JSON ファイルで保存する際に、データとして単語ごとのタイムスタンプを記録するオプションです。デフォルトでは、タイムスタンプはセグメント (ある一定長の文字列) ごとに付与されるだけです。
CasualTranscriber RTF (CT RTF) をファイル形式として選んだ場合は、設定の音声認識にある事後処理 (RTF) の設定が適用されます。