カルテメイト2号 は、音声録音から文字起こし(自動テキスト化)を行い、その内容を医療カルテや各種文書(紹介状、返書、診断書など)にまとめるためのアプリです。
音声を録音 → 文字起こし → 大規模言語モデル(LLM) を使った文章の自動生成
という流れになります。
医療情報を扱うにあたり、個人情報への配慮が必要になってきます。
カルテメイトは個人情報に配慮して、AzureやGoogle Cloud、ローカル文字起こしやLLMでの運用を推奨しています。
詳しくは以下のZennの記事もご参照ください。
必要なもの
1. Window端末(Windows10 もしくはWindows11)
2. 外部へのインターネット接続(カルテメイト1号とLM Studioを使用する場合は閉鎖ネットワークでも動作します)
3. マイク
Whisper をローカルで使う場合
• 別アプリ「カルテメイト1号」を推奨しています。「カルテメイト1号」はローカルで Whisper API サーバーを簡単に起動でき、話者分離(話し手を分離する機能)にも対応しています。
• または、自身で作成したローカル Whisper API サーバーを使用することも可能です。その場合は whisper-1 用のエンドポイントを指定することで動作します。
LLM を利用する場合
• OpenAI(GPT-4 など)、Claude(Anthropic 社)、Gemini(Google 社)、LM Studio(ローカル LLM 実行環境)など、希望する LLM の API キー(LM Studio以外) あるいは エンドポイント(LM Studioの場合) が必要になります。
• 課金体系については、各 LLM のサービス提供元の情報をご確認ください。
1. ダウンロード/インストールした 「カルテメイト2号」 をお使いのパソコン上で起動します。
2. 初回起動時は、各種 API キーや設定が未登録です。最初に 「設定」 ボタンをクリックして必要事項を入力してください。
3.1 カルテ作成タブ
• カレンダー: 日付を選択すると、その日に作成されたカルテの一覧が右側のリストビューに表示されます。
• 古いカルテ削除: 選択された日付より前のカルテをまとめて削除したい場合に使います。
• 録音ボタン(初診カルテ / 再診カルテ):
• クリックすると録音が開始されます。初診、再診ごとの別の形式のカルテを作成できます。
• カルテ作成ボタンを押すと録音が停止し、自動的に文字起こしとカルテ作成が行われます。
• 録音中、無音や一時停止を検知して、自動的にチャンク(区切り)を作って文字起こしをしているので、高速にカルテ作成を行います。
• 作成中止ボタン: 録音やカルテの作成作業を中断する場合に使います。
• カルテ一覧(リスト表示): 過去に作成されたカルテがリストで表示されます。クリックすると内容がテキストエリアに読み込まれます。
• 上書き保存ボタン: 現在編集中のカルテ内容を保存します。
• 自動コピーのチェックボックス: 録音が終了してカルテができあがった直後に、その内容を自動でクリップボードにコピーしたい場合にオンにします。
3.2 文書作成タブ
• テキスト入力欄: 文書作成に必要な情報をあらかじめ入力できます。
• 生成後の文書表示欄: 大規模言語モデルによって生成された文書が表示されます。
• 文書作成ボタン: 「返書作成」「紹介状作成」「診断書作成」など、用途に応じてボタンを押すと自動生成が始まります。
• 英文で作成: チェックを入れると、英語で文書が出力されます。
• 文書内容のコピー: 生成された文書をクリップボードへコピーします。電子カルテなど別のシステムへの貼り付けが簡単になります。
3.3 設定ボタン
• メイン画面右下や下部にある 「設定」 ボタンから、各種 API キー入力やテンプレート設定に進むことができます。
「設定」ボタンを押すと、以下のダイアログが表示されます。
1. Whisper の選択(OpenAI vs ローカル)
• 「音声認識(OpenAI Whisper / ローカル Whisper)」を選ぶためのプルダウン(コンボボックス)があります。
• OpenAI Whisper を選ぶ場合:
• Whisper 用 API キー(OpenAI アカウントの API キー)を入力します。
• ローカル Whisper を選ぶ場合:
• ローカルで起動している Whisper API サーバー(例えば「カルテメイト1号」など)のエンドポイント URL と API キーを指定します。
• 初期設定例: http://127.0.0.1:8000/v1/audio/transcriptions
• (ローカルwhisper APIを設定する場合) openAI whisper APIと同じく、whisper-1 のモデルをリクエストしますので、適切な実装を行ってください。
• 「カルテメイト1号」を使うと、使用するモデルや話者分離機能も利用可能です。
2. LLM(大規模言語モデル)選択
• 「LM Studio」「Claude」「Gemini」「OpenAI 」「GPT-4o」などを選択できるプルダウンがあります。
• 選んだ LLM により下記の設定が変わります。
• LM Studio の場合:
• 主にローカルマシンで LLM を起動する仕組みです。外部へのネットワーク接続は不要です。
• API キーは不要ですが、エンドポイント URL を指定しま(例: http://127.0.0.1:1234/v1/chat/completions)。
• Claude / Gemini / OpenAI の場合:
• それぞれの API キーが必須です(例: Anthropic APIキー、Google Generative AI APIキー、OpenAI APIキーなど)
3. プロンプトテンプレートの編集(初診カルテ、再診カルテ、紹介状、返書、診断書)
• これら 5 つのタブがあり、それぞれ文書生成のベースとなるプロンプトを自由に編集できます。
• 「リセット」ボタンを押すと、初期設定(デフォルトプロンプト)に戻せます。
4. OK / Cancel ボタン
• OK をクリックすると、入力された情報やプルダウンの選択内容が保存され、通信テスト(Whisper / LLM API への接続チェック)が行われます。
• 正常に接続できない場合はエラーメッセージが表示されるため、原因を確認し、設定を見直してください。
カルテメイト1号の導入
1. 別途アプリ「カルテメイト1号」を用意し、パソコン上で起動します。
• カルテメイト1号はローカルで Whisper API を起動するアプリです。
• 話者分離機能に対応しており、より詳細な文字起こしが行えます。
2. カルテメイト1号の画面上などで表示される API エンドポイント(例: http://127.0.0.1:8000/v1/audio/transcriptions)を確認し、API キーが必要な場合はメモしておきます。
カルテメイト2号への設定
1. カルテメイト2号を起動し、「設定」ボタンを開きます。
2. 「音声認識エンジン」のプルダウンで 「ローカルWhisper」 を選択。
3. 上記でメモしたエンドポイント URL を入力し、必要な場合は API キーも入力してください。
4. OK ボタンを押すと接続テストが行われ、問題なければローカル上の Whisper を利用して文字起こしができます。
ローカルで自前の Whisper API を立てたい場合
• Docker コンテナなどで Whisper サーバーを立ち上げ、http://127.0.0.1:8000/v1/audio/transcriptions のような形で受け付けるようにします。
• カルテメイト2号の設定画面で同じ URL を入力すれば、内部的には whisper-1 をリクエスト する形で文字起こしが行われます。
• 話者分離機能については、使用する Whisper の実装によっては対応していないこともあります。もし必要な場合は、カルテメイト1号など話者分離対応機能を備えたものを推奨します。
1. 録音が始まらない
• マイクが正しく接続・有効化されているか確認してください。
• OS の設定でマイクアクセスがアプリに許可されているかご確認ください。
2. 文字起こしが失敗する/エラーが出る
• インターネット接続が不安定だと、API へのリクエストが失敗する場合があります。
• ローカルWhisperを使う場合、Whisper サーバーが起動しているか(またはカルテメイト1号が起動中か)を確認してください。
• APIキーが誤っている場合もあります。一度設定画面で再入力を試してください。
3. 大規模言語モデルが使えない/文書生成が失敗
• 選択した LLM に対応する API キーが正しく登録されているか、設定画面でご確認ください。
• 時々サーバー側の混雑でリクエストがタイムアウトする場合があります。時間をおいて再試行してください。
4. 古いカルテを削除したい
• カルテ作成タブの「古いカルテ削除」ボタンを使うと、指定した日付より前のカルテを一括削除できます。
• 削除前にメッセージが表示されるので、内容を確認してから実行してください。
「カルテメイト2号」の基本的な使い方と設定方法について説明しました。
• 録音 → 自動文字起こし → カルテや文書へ反映
という流れが中心で、さらに LLM を使った多彩な文書生成が可能です。
ローカル Whisper を利用する方は、特に 「カルテメイト1号」 との連携をおすすめします。話者分離のある高度な文字起こしが可能になり、導入も比較的簡単です。