ビデオゲームにおいて,BGMは雰囲気を演出する上で重要な役割を担う.そのため,ゲームやシーンの雰囲気とBGMの間には強い関係があると考えられる.そこで,この研究はユーザが制作しがゲームのあるシーンに適したBGMを探索することを想定し,シーンおよびゲームを制作する際に参照したゲームを指定することで,それに適したBGMを探索するシステムを提案する.
本システムを実現する上での課題はシーンの入力方法である.シーンは自然の様子や人物の行動など情報を含んでいるため,手動で入力することは難しい.また,BGMとシーンがペアになったデータセットが必要である.そこで,本稿ではシーンとしてゲームの映像そのものを入力する.ゲームの映像には自然の様子や人物の行動などの情報が含まれている.また,BGMとシーンがペアになっている.
本稿では,BGMを付加したいゲームの映像を与えると,それに適したBGMを自動で検索する手法を提案する.まず,機械学習を用いて与えられたシーンに適したBGMの音響特徴を予測する.この機械学習モデルはゲームごとに学習してあるため,ユーザはゲームを制作する際に参照したゲームを選択することができる.その後,BGM候補として用意したフリー音源集から予測した音響特徴に最も近い音響特著を持つフリー音源を探索する.
提案手法について,予測した音響特徴と出力したフリー音源の妥当性の観点から評価実験を行う.まず,ゲームの類似度に関する実験を行う.ユーザが制作したゲームに類似したゲームを学習したモデルを選択する状況を再現するために学習するゲームに類似した既存のゲームを計算する.次に,予測した音響特徴の妥当性を評価する.予測した音響特徴と実際の音響特徴の距離を計算し,予測した音響特徴が妥当であるか検証する.そして,出力されたフリー音源の妥当性を評価する.どの音響特徴を用いれば異なるシーンに対して異なるフリー音源が出力されるか検証する.最後に,入力に用いたシーンと出力されたフリー音源の関係性について論ずる.
評価実験の結果,『クロノ・トリガー』をchroma_stftで学習したモデルに『ロマンシング サ・ガ3』を入力した結果は妥当であることが示された.また,『Take a Chance !』, 『Dew』, 『Downtown』がそれぞれ,戦闘シーン, 探索シーン, 会話シーンに適していることを論じた.
こちらから論文にアクセスできます.
プレビューの表示は乱れていますが,ダウンロードすれば正しく表示されます.
こちらから論文を発表した際の資料にアクセスできます.