当方の動画文字起こし機能の環境説明

高精度AIのOpen sourceとPython notebookを利用 

ChatGPTで有名なOpen.AI社のオープンソース音声テキスト変換モデル がバージョンアップ。Whisper-v3は20%も文字起しエラー減少!。認識音声周波数範囲 、学習言語データ量増加。

参考サイトは以下:

1.動画文字起しが長尺になるほど、その高精度性能が威力を発揮。個人的な体感ですが、精度95%以上あると感じます。 長時間動画でも文字起こしが楽。


2.ChatGPTに元動画データをドロップすると、その動画データが機密性を求められている場合には問題。Open.AI社の参考データとして利用されてしまう。しかし自分のパソコンにローカル構築してオープンソースを利用すると機密性が保持出来る。


3.ただし音声解析AIの容量が増大したため高速度のGPUを利用しないと解析プログラムが作動しにくい。当方ではPaperspaceというGPUサービスを利用。月々8USドルのPRO版というサービスに含まれる程度のGPU機能であれば文字起こし作業はサクサクです。


4.データ機密性についてどうしても気になる方のために、Paperspace社GPUが元動画データを保持し続けて参考利用するかどうかを確認するために同社担当者とメールでやり取りしたデータ無断利用は勿論無いし、文字起し作業後はPaperspace社側の如何なるデータ領域(仮想領域、GPUの中のVRAM領域)でも当該データを残す事は全く無いと確約してくれた。当ページ一番右上側「ホームの右側ドロップダウンから「データ機密性確認の資料」と言うページを選択してご覧下さい。Paperspace社同様のサービス提供の[Google Colab]でもデータ機密性は保たれている事に言及している方は多いですし、この手のサービスを提供する会社の対応としては、もはや一般的に当然の事の様です。


5.文字起こし作業の実績等については、このページ一番右上側「ホーム」の右ドロップダウンから「文字起こし実績等」を選択して当該ページに飛んで下さい。


6.お仕事のご依頼に関して: インボイス制度 適格請求書発行事業者 登録番号:T8810219380670


7.ご興味ある方は、当ページ一番右上「ホーム」ドロップダウンから「経歴紹介」を御覧頂ければ幸甚です。尚、音声変換文字起こしに関しては経歴書の下の方です。