Upgrade to Pro — share decks privately, control downloads, hide ads and more …

歌唱者ダイアライゼーションに向けた 歌唱者識別手法の比較

Kitahara Lab.
February 06, 2023
19

歌唱者ダイアライゼーションに向けた 歌唱者識別手法の比較

2022年度卒業研究発表 田中麻衣

Kitahara Lab.

February 06, 2023
Tweet

More Decks by Kitahara Lab.

Transcript

  1. 手法 音源分離したボーカル音源 音源分離したボーカル音源 LIUM 0.5s, 1s,2s 0.5s, 1s,2s セグメント セグメント

    セグメント セグメント セグメント セグメント クラスタ リング 学習済み モデル クラスタ クラスタ クラスタ 特徴量 抽出 特徴量 抽出 MFCC MFCC MFCC 学習を必要としない手法 クラスタリング 学習を用いる手法 学習モデル MFCC MFCC MFCC ラベル ラベル ラベル
  2. 実験条件 使用音源 • 男性ボーカル2人組「ゆず」 の楽曲25曲を使用 • 音源分離モデル「demucs」 でボーカル音源抽出 データセット •

    年代順割当データセット • ランダム割当データセット 入出力データ • 入力:特徴量MFCC • 出力:4クラス
  3. ラ ベ ル r ラ ベ ル r 時間(10ms) 時間(10ms)

    結果:学習を必要としない手法 • 「未練歌」は評価値が低い 背景音の影響で誤認識 未練歌 (0.5s) 未練歌 (2s) 無音 同時歌唱 歌唱者A 歌唱者B
  4. 実験結果:学習モデル(ランダム割当) • CNN(2s)における「天国」「保土ヶ谷バイパス」「桜木町」 の正解率が9割以上 桜木町 CNN (2s) 保土ヶ谷バイパス CNN (2s)

    時間(10ms) ラ ベ ル r 無音 同時歌唱 歌唱者A 歌唱者B パート割りが単純 背景音がほぼ残っていない 時間(10ms) ラ ベ ル r