「カルテメイト1号」は、音声ファイルを自動的に文字起こしし、その結果をもとにカルテ作成を支援するためのデスクトップアプリケーションです。
• 特徴:
1. 音声ファイルをフォルダに入れるだけで自動で文字起こし
2. 話者分離機能(オプション)を使うことで複数人の会話を分離
3. カルテ形式(SOAP/POMR/カスタムなど)に合わせたテキスト出力
4. 別アプリ「カルテメイト2号」などのwhisper apiサーバーと連携すれば、ローカル文字起こしにも対応します。
1. 画面左側のタブ
1-1. 文字起こし・言語モデル設定タブ
ここでは、音声文字起こしに関する詳細設定を行います。
1. 精度・速度設定(モデル選択)
• 「低精度/高速」「中精度/中速度」「高精度/高速(日本語特化)」「高精度/低速」など、文字起こしのモデルを選択します。
• ポイント:
• CPUしか使えないPCの場合は「低精度/高速」がおすすめ(処理が比較的速い)。
• GPUがある場合は「高精度/高速(日本語特化)」や「高精度/低速」を使うと、より正確な文字起こしが期待できます。
• モデルを初めて選ぶときや変更したときに、追加のファイルをダウンロードする場合があります。
2. 話者分離設定(チェックボックス&最大話者数)
• 「話者を分けて文字起こしする」を有効にすると、複数人の声を別々に文字起こしできるようになります。
• 最大話者数(2~4人)を選べます。
• 話者分離を有効にすると、精度がさらに向上するケースがありますが、初回は追加のダウンロード(外部ライブラリやモデル)が必要になる場合があります。
• 文字起こしにも時間がかかるようになるので、文字起こし精度とバランスを取って必要に応じて設定してください。
• 話者分離を初めて使用する際に、必要な外部ソフト(FFmpegなど)のインストールや設定方法を案内するウィンドウが開きます。
• 話者分離にはHugging Faceのアカウント取得やトークン入力が必要になります。画面の案内に従って設定してください。
1-2. 診療科設定タブ
ここでは、文字起こし後に作成されるカルテの内容に合わせて、主な診療科を選択することができます。
• 各種チェックボックス
内科、外科、小児科、整形外科、形成外科など、基本診療科が並んでいるので、該当する科目をチェックしてください。
• その他の診療科
リストにない診療科名をテキスト欄に入力すると、カスタムで追加できます。
• ポイント
• ここでチェックを入れておくと、カルテの精度が少し向上する可能性があります。
• ただし、別アプリ「カルテメイト2号」と連携して動かす場合は、こちらの設定は無効となります。
• 画面の下部にあるテキスト欄には、処理の進捗やエラーメッセージなどが表示されます。
• 文字起こし中に何かトラブルがあった場合、ここにメッセージが出るので確認してください。
3-1. フォルダ連携設定タブ
1. 音声ファイルの取り込み設定
• 「音声ファイル入力フォルダ」を指定しておくと、そのフォルダにファイルを入れたときに自動的に文字起こしが始まります。
• 初期状態では「WAV形式」に対応していますが、FFmpegをインストールすると「mp3」「m4a」「flac」にも対応できます。
2. ファイルの後処理
• 文字起こし完了後に「ファイルを削除する」か「別フォルダに移動する」かを選択できます。
• 大量の音声ファイルが溜まらないようにする場合は、削除設定がおすすめです。
3. カルテ出力形式
• 「SOAP形式」「POMR形式」、または「カスタムプロンプト」などを選択できます。
• 「文字起こしだけを行う」を選ぶと、そのままの文章をテキストファイルに出力するだけで、カルテの整形はしません。
4. 使用するAIモデル(言語モデル)とAPIキー設定
• GPTやClaudeなど、複数の言語モデルが選択できます。
• 使用する言語モデルごとに、APIキー(認証キー)の入力が必要です。
5. 「音声ファイル入力の監視を始める」ボタン
• 最後にこのボタンを押すと、指定したフォルダの監視が始まります。
• 音声ファイルを入れると自動的に文字起こし処理がスタートします。
3-2. サーバー機能設定タブ(APIサーバー連携)
1. サーバー機能の有効化チェックボックス
• 「サーバー機能を利用する」をチェックすると、サーバー機能を起動し、外部端末から音声ファイルをアップロードして文字起こしを行うことができます。
2. エンドポイントURL と APIキー
• 文字起こし用のURL(エンドポイント)が表示されます。このエンドポイントを、「カルテメイト2号」などの外部アプリへ入力すると、音声ファイルが送信されてレスポンスで文字起こし結果が得られます。
• APIキーを設定すると、不正アクセスを防ぐことができます。
3. カルテメイト2号との連携
• 「カルテメイト2号」では、カルテメイト1号から受け取った文字起こし結果を使ってカルテを生成することができます。
• サーバーモードでは「文字起こし結果」のみを返し、カルテ生成までは行いません。カルテを作成したい場合は「カルテメイト2号」で行ってください。
3-2. サーバー機能設定タブ(APIサーバー連携)
1. サーバー機能の有効化チェックボックス
• 「サーバー機能を利用する」をチェックすると、サーバー機能を起動し、外部端末から音声ファイルをアップロードして文字起こしを行うことができます。
2. エンドポイントURL と APIキー
• 文字起こし用のURL(エンドポイント)が表示されます。このエンドポイントを、「カルテメイト2号」などの外部アプリへ入力すると、音声ファイルが送信されてレスポンスで文字起こし結果が得られます。
• APIキーを設定すると、不正アクセスを防ぐことができます。
3. カルテメイト2号との連携
• 「カルテメイト2号」では、カルテメイト1号から受け取った文字起こし結果を使ってカルテを生成することができます。
• サーバーモードでは「文字起こし結果」のみを返し、カルテ生成までは行いません。カルテを作成したい場合は「カルテメイト2号」で行ってください。
1. アプリを起動する
2. 左側タブで文字起こしモデルと話者分離を設定
• 必要に応じて診療科をチェック
3. 右側タブで「フォルダ連携設定」を確認
• 音声ファイル入力フォルダを指定し、ファイル後処理を選択
• AIモデルやAPIキーを登録
• 「音声ファイル入力の監視を始める」をクリック
4. サーバー機能を使う場合
• 右側の「サーバー機能設定タブ」でチェックを入れてFastAPIを有効にする
• 表示されるエンドポイントとAPIキーを、「カルテメイト2号」に設定して連携
5. 音声ファイルを入れると、自動で文字起こし開始
• ログに進捗が表示されるので確認
• 出力先フォルダに文字起こしテキストまたはカルテが生成される
1. Q. 話者分離は必須ですか?
A. 必須ではありませんが、複数人の会話を記録するときは便利です。初回のみ追加の設定やダウンロードが必要になります。
2. Q. FFmpegとは?
A. 音声ファイルの変換ソフトです。mp3、m4a、flacなど様々な形式をwavに変換し、文字起こしできるようになります。使う場合は別途インストールが必要です。
3. Q. 「カルテメイト2号」は何ですか?
A.カルテ端末で実行することを想定された、カルテ生成アプリです。カルテメイト1号と連携すると、ネットワーク経由で文字起こしを行い、そのまま2号でカルテを作成できます。
4. Q. モデルのダウンロードが遅い/失敗する
A. ネットワーク環境によっては時間がかかることがあります。進捗表示が止まったら、再度アプリを起動してやり直すか、ネットワークの状態をご確認ください。