音声認識機能の使い方

CasualTranscriber 2.7 には、実験的な機能として、macOS 標準の音声認識機能を使った自動文字起こし機能を追加しました。

現在テスト中ですが、今のところわかっていること (機能の限界) を提示しておきます。

音声認識の精度は、macOS の機能に依存します。録音状態のいいモノローグでは、英語であればそれなりの精度で認識しますが、日本語は漢字の認識などに限界があるようです。複数人が参加している会話やテレビドラマなど効果音や環境音が大きい場合は、認識精度がかなり落ちます。
現在は、オフライン (Apple のサーバーに音声データを送らない) での認識のみの設定にしてあります。サーバーでの処理の方が認識精度はいいらしいのですが、1 回の処理で 1 分までという制限があるのと、外に出せないデータを扱う可能性を考えてのものです。将来的には、オプションで、オンラインでの認識にも対応させるかもしれませんが、その場合は、ファイルを分割する下処理が必要になると思います。
認識に必要な時間は、Big Sur で、実時間よりちょっと短いくらい、Ventura では、実時間の半分から 1/3 くらいの時間でした。また、M1 より M2 の方が少し速いくらいです。一応、Intel Mac でも認識することは確認しています。
Siri and Dictation are disabled というエラーは、音声認識の機能がオフになっている場合に出るエラーなので、この下にあるように、システム設定の音声認識の機能をオンにしてください。
Failed to access assets というエラーは、認識させたい言語のデータがダウンロードされていない状態です。この下にあるように、認識させたい言語の音声データをダウンロードしてください。
途中に歌などの音楽が挿入されていると、その前までで認識処理が終了するようです。メッセージで問題なく終了したと出ていても、音声の部分がなくなったと認識しているためのようなので、それ以降の部分は認識されません。あらかじめ挿入歌などを編集などでカットするなどして、発話部分だけを処理してください。
kAFAssistantErrorDomain error - 203 というエラーが出た場合は、その部分以降に認識するべき音声がなかったということらしいので、もし、それ以降にも音声が入っている場合は、ファイルを分割するなりして、別で処理してください。これまでに試したものでは、Big Sur では音声部分はすべて認識されていても最後にこのエラーが出る場合があっても、Ventura では、エラーが出ずに終了したので、処理すべきところが終わっていれば、必ずしも出るエラーでもないようです。

macOS 11.3 Big Sur 以降に対応ですが、Big Sur と Monterey 以降では、音声認識周りの扱いが変わっているので、Monterey 以降では、使用前に音声認識機能を使えるようにした上で、認識させたい言語のデータをダウンロードする必要があります (場合によっては言語を選択しただけで使えることもあるかもしれませんが)。Big Sur よりも前の macOS では、この機能にアクセスできないので、この先も使えるようにはなりません。

Monterey 以降の macOS では、システム設定のキーボードにある音声入力をオンにして使えるようにしてください。その上で、言語のところで、カスタマイズを選び、認識に使いたい言語のデータをダウンロードしてください。日本語環境では、標準で日本語（日本）がインストールされています。下の例では、英語（アメリカ合衆国）を追加してあります。追加されている言語は、リストに名前が表示されます。

音声入力の設定ができたら、CasualTranscriber を立ち上げて、環境設定の ADV1 にある音声認識で、認識言語を選んでください。

リストには、認識可能な言語がすべて表示されていますが、認識できる言語は言語データをダウンロードした言語のみです。

これで、CasualTranscriber に音声・ビデオファイルを読み込ませてから、メニューのその他にあるファイル音声の認識を選んで、音声認識を開始してください。

テキストの区切りは、macOS の音声認識機能が認識の区切りとしたところになります。音声認識の区切りの前後にはタイムスタンプが挿入されますが、音声・ビデオファイルの制御の部分とは違う機能なので、多少のずれがある場合があります (おそらくミリ秒単位で)。

バージョン 2.7.1 (20230617) 以降では、音声・映像ファイルを読み込んで、CasualTranscriber 形式の RTF ファイルとして保存できる機能が付いています。

メニューのウインドウからバッチ書き起こしを選んでください。ウインドウが現れたら、テーブルに処理したいファイルをドラッグ&ドロップして、認識言語を選んで開始をクリックしてください。ファイルを保存するフォルダを選択するように促されるので、フォルダを選んでください。

エラーが出た場合は、エラーが出た時点でエラーがあったという情報がファイルに書き込まれて、そのファイルに対する処理が終了します。既知の問題として、上の単独ファイルに対する音声認識と同様に、Big Sur ではファイルのすべての音声を認識していても、最後に人の声が入っていない部分があると、エラーが出て終了する場合があります。実際には、最後の部分が認識されていない場合もあるので、確認してください。

Page updated

Google Sites

Report abuse