歌唱者ダイアライゼーションに向けた

歌唱者識別手法の比較

日本大学文理学部情報科学科北原研究室

田中麻衣

本稿では，グループ楽曲における歌唱者ダイアライゼーション実現に向け、複数の歌唱者の識別を行う手法の精度比較を行う。

初めて聞くグループ歌唱楽曲に対して、誰がどこを歌っているかを聞き分けることは難しい。もしもそこで誰がどこを歌っているかの情報を見ながら楽曲を聴くことができれば、はじめて楽曲を聴く場合でも、より楽曲を楽しむことができる。

「誰がどこを歌っているか」を自動で同定する処理は、歌唱者ダイアライゼーションと呼ばれる。歌唱者識別に関連する研究は多く存在するが、1 つの楽曲内での歌唱者の交代を前提とした歌唱者ダイアライゼーションを行っている研究事例は少ない。

本稿では、背景音付きの音源から既存の音源分離モデルを用いてボーカルのみを抽出し、1s や 2s ごとに分割した信号にする。この信号を用いて、いくつかの手法で歌唱者識別を行い、その精度を比較する。識別手法ではクラスタリングや RNN， LSTM，CNN 等を利用した。

結果として 2s ごとに分割した信号を用いて、CNN で学習したモデルが一番良い結果を残し、正解率の中央値が 0.7706 であった。

Page updated

Report abuse