ディープラーニングの深耕のおかげで、非常に精度のよい音声認識ソフトが使えるようになってきています。ありがたいことです。以下、例を挙げます。
ReazonSpeech 日本語の高精度音声認識ソフトです。
Vosk 簡単に使えてそこそこの精度があります。サイズも小さいのでエッジ向きです。
Voicevox ホームページには中品質と書かれていますが、かなり高品質だと思います。いろいろなキャラクタ音声を使えます。