日本大学 文理学部 情報科学科 北原研究室
田中 麻衣
本稿では,グループ楽曲における歌唱者ダイアライゼーション実現に向け、複 数の歌唱者の識別を行う手法の精度比較を行う。
初めて聞くグループ歌唱楽曲に対して、誰がどこを歌っているかを聞き分ける ことは難しい。もしもそこで誰がどこを歌っているかの情報を見ながら楽曲を聴く ことができれば、はじめて楽曲を聴く場合でも、より楽曲を楽しむことができる。
「誰がどこを歌っているか」を自動で同定する処理は、歌唱者ダイアライゼー ションと呼ばれる。歌唱者識別に関連する研究は多く存在するが、1 つの楽曲内で の歌唱者の交代を前提とした歌唱者ダイアライゼーションを行っている研究事例 は少ない。
本稿では、背景音付きの音源から既存の音源分離モデルを用いてボーカルのみを 抽出し、1s や 2s ごとに分割した信号にする。この信号を用いて、いくつかの手法 で歌唱者識別を行い、その精度を比較する。識別手法ではクラスタリングや RNN, LSTM,CNN 等を利用した。
結果として 2s ごとに分割した信号を用いて、CNN で学習したモデルが一番良 い結果を残し、正解率の中央値が 0.7706 であった。