音声認識機能の使い方

CasualTranscriber 2.7 には、実験的な機能として、macOS 標準の音声認識機能を使った自動文字起こし機能を追加しました。

現在テスト中ですが、今のところわかっていること (機能の限界) を提示しておきます。


macOS 11.3 Big Sur 以降に対応ですが、Big Sur と Monterey 以降では、音声認識周りの扱いが変わっているので、Monterey 以降では、使用前に音声認識機能を使えるようにした上で、認識させたい言語のデータをダウンロードする必要があります (場合によっては言語を選択しただけで使えることもあるかもしれませんが)。Big Sur よりも前の macOS では、この機能にアクセスできないので、この先も使えるようにはなりません。

Monterey 以降の macOS では、システム設定キーボードにある音声入力をオンにして使えるようにしてください。その上で、言語のところで、カスタマイズを選び、認識に使いたい言語のデータをダウンロードしてください。日本語環境では、標準で日本語(日本)がインストールされています。下の例では、英語(アメリカ合衆国)を追加してあります。追加されている言語は、リストに名前が表示されます。

音声入力の設定ができたら、CasualTranscriber を立ち上げて、環境設定ADV1 にある音声認識で、認識言語を選んでください。

リストには、認識可能な言語がすべて表示されていますが、認識できる言語は言語データをダウンロードした言語のみです。

これで、CasualTranscriber に音声・ビデオファイルを読み込ませてから、メニューその他にあるファイル音声の認識を選んで、音声認識を開始してください。

テキストの区切りは、macOS の音声認識機能が認識の区切りとしたところになります。音声認識の区切りの前後にはタイムスタンプが挿入されますが、音声・ビデオファイルの制御の部分とは違う機能なので、多少のずれがある場合があります (おそらくミリ秒単位で)。

バージョン 2.7.1 (20230617) 以降では、音声・映像ファイルを読み込んで、CasualTranscriber 形式の RTF ファイルとして保存できる機能が付いています。

メニューウインドウからバッチ書き起こしを選んでください。ウインドウが現れたら、テーブルに処理したいファイルをドラッグ&ドロップして、認識言語を選んで開始をクリックしてください。ファイルを保存するフォルダを選択するように促されるので、フォルダを選んでください。

エラーが出た場合は、エラーが出た時点でエラーがあったという情報がファイルに書き込まれて、そのファイルに対する処理が終了します。既知の問題として、上の単独ファイルに対する音声認識と同様に、Big Sur ではファイルのすべての音声を認識していても、最後に人の声が入っていない部分があると、エラーが出て終了する場合があります。実際には、最後の部分が認識されていない場合もあるので、確認してください。