日本大学情報科学科
北原研究室 岡崎光栄
概要
近年, YouTube をはじめとする動画共有サービスで, 配信者の長時間動画から特 定の場面のみを抽出・再編集した切り抜き動画の需要が高まっている. しかし, そ の編集作業は開始点や終了点を正確に指定しつつ動画を繰り返し確認する必要が あり, 専門的なソフトウェアの操作が伴う. さらに, 編集には多大な時間的コスト を要する.
本研究では, 視聴者から寄せられた「相談」を出演者が読み上げ, それに対する 「助言」を同じ出演者が応答する形式の単独で出演している動画を対象とし, 「相 談」と「助言」を自動的に切り抜いたうえで文脈の整合性を保った要約動画を生 成することを目的とする. 従来の動画要約研究では, ユーザーのクエリや動画内の 特徴量に依存する手法が多く存在したが, 本研究は特定の相談から助言の文脈構造を明確に捉え, 不要な冗長部分を排除する点を大きな特徴とする.
本システムは, まず YouTube 動画をダウンロードし, 音声のみを抽出して Google Speech-to-Text API で書き起こしを行う. 次に, TohokuBERT をファインチュー ニングした分類モデルで, 句点と「?」区切りの各文を「相談」「助言」「その他」の 3クラスに振り分ける. さらに「相談」から「助言」が連続する文グループを抽出 し, GPT-4o を用いて文脈に合致しない文を除去することで, 一貫性のある部分だ けを残す. 最後に, 各グループのタイムスタンプを基に動画を切り抜き, 再結合することで要約動画を生成する.
提案システムの評価として, YouTube 上で公開されている約 60 分程度のひろゆき氏の動画 3 本に対し, 本手法を適用した. 文字起こしの精度や BERT による分類精度を検証し, 抽出された「相談」から「助言」のペアがどの程度正しく成立し ているかシステムを実行し, 確認する.
実行の結果, 動画の総尺を約 3 分の 1 程度まで短縮することに成功し, しばしば, 「相談」から「助言」の流れが続いた切り抜き動画を生成できた. 一方で, 音声認 識に起因する文の乱れや表記ゆれにより, 一部の文が誤って「相談」や「助言」と 分類されたのではないかと推察した. また, GPT-4o での文脈調整を行っても, ラ ベルの連続するグループ内に含まれる余談部分をどの程度排除すべきか, それに応 じて, プロンプトをどのように定義するべきかが, 課題として残った. 今後は, モデ ル精度の向上, 処理時間の短縮, 多言語対応, および異なる話者の動画やジャンル への適用を図ることで, より多様な用途に対応可能な自動動画編集システムの実現 を目指し, 定量的な評価を通じてシステムの有効性をさらに明確化することが望ましい.