Slide 1

Slide 1 text

歌声の特徴に基づいて曲を探そう! @ Music×Analytics Meetup 増田 太郎 @ml_taro 2020/01/18

Slide 2

Slide 2 text

自己紹介 1 増田 太郎(ますだ たろう) @ml_taro • 仕事(株)電通国際情報サービス • 画像認識・音響解析・自然言語処理といった分野の技術検証、 研究開発、新規事業の企画提案 • 興味 • 音響信号処理、音楽情報処理 • 機械学習、特にモデルの動作原理など理論に興味あり、ベイズ(PRML) • 経歴 • 楽器の演奏フレーズをクエリとする楽曲検索の研究 @修士 • 論文: https://staff.aist.go.jp/m.goto/PAPER/ISMIR2014masuda.pdf • 音声信号処理の研究 @電機メーカー研究所 • 論文: https://ieeexplore.ieee.org/document/7952201 • その他 • 産総研メディアインタラクション研究G 技術研修生、ヤマハR&Dインターン • 好きなアーティスト • indigo la End, サカナクション, sumika

Slide 3

Slide 3 text

目次 1. 背景・目的 2. 処理フロー 3. 実験条件 4. 実験結果 5. まとめ 2

Slide 4

Slide 4 text

• 背景① 「歌声」は楽曲の中でリスナーが最も重視する要素の1つ – 「VOCALOID」等歌声編集ソフトの普及 – 「AI美空ひばり」プロジェクトでも 歌声のチューニングに多くの工数が割かれている(はず) – 私自身も好みの歌声を持ったボーカリストが複数いて、声が似た曲を探したい • 背景② カラオケで自分の声に似たアーティストの曲を歌いたい – 自分自身の声を客観的に誰と似ているか判定することは難しい • 目的 歌声の特徴に基づき楽曲の類似度を算出することで、 曲との新しい出会い方の実現性について実験すること – 好きな歌声の特徴を基に別の曲と出会う – 自分の声に似た曲と出会う 1. 背景・目的 3

Slide 5

Slide 5 text

• はじめに – 本発表では、いわしさん( @tty_tkhs_ml )のブログ記事 (*1) およびコード (*2) を大いに参照、活用させていただきました。 ここに厚く御礼申し上げます。 – (*1)「Spotify Web APIから収集した楽曲のメル周波数スペクトログラムを 用いたジャンル推定と特定次元空間へのマッピング」 https://fake-plastic-trees.hatenablog.jp/entry/2019/12/01/183713 – (*2) https://colab.research.google.com/drive/1_efY_YcYB3b_NkOT_bs85-8k73otVoUx 2. 処理フロー 4

Slide 6

Slide 6 text

2. 処理フロー 5 Web API 楽曲ファイルA 楽音分離 歌声特徴量 抽出 歌声波形A 歌声特徴量A 楽曲ファイルB 楽音分離 歌声特徴量 抽出 歌声波形B 歌声特徴量B 類似度 計算 Spotify DB

Slide 7

Slide 7 text

• 楽音分離 – Deezer社のOSSである「Spleeter」を使用 • 以下の3通りの学習済み楽音分離モデルを提供 – ボーカル / 伴奏 (2 stems) – ボーカル / ドラム / ベース / その他 (4 stems) – ボーカル / ドラム / ベース / ピアノ / その他 (5 stems) • https://github.com/deezer/spleeter • Romain Hennequin and Anis Khlif and Felix Voituret and Manuel Moussallam,“Spleeter: A Fast And State-of-the Art Music Source Separation Tool With Pre-trained Models,“ Late-Breaking/Demo ISMIR 2019, Deezer Research, November 2019. • 今回は 2 stems のみを使用 2. 処理フロー 6

Slide 8

Slide 8 text

• 歌声特徴量の抽出 – MFCC • 人間の聴覚特性に基づき人手で設計された特徴量 • 音声・音楽信号処理で幅広く使われる音響特徴量のド定番 – LPMCC • 線形予測(LP)を用いて声道特徴を表現する特徴量 – 歌声の特徴量として有効であることが報告されている » 中野, 吉井, 後藤, “トピックモデルを用いた歌声特徴量の分析" » https://staff.aist.go.jp/t.nakano/PAPER/SIGMUS201309nakano.pdf • 類似度計算 – ユークリッド距離 • 値が小さいほど類似度が高い 2. 処理フロー 7

Slide 9

Slide 9 text

• データセットについて – ジャンル:結果の分かりやすさのため「j-pop」に絞って収集 – 曲数:合計1,000曲のmp3ファイルを収集 • アーティスト数:181 • Spotify APIにてサンプル視聴用の30秒のクリップが提供されている – マーケットプレイスのリージョン:日本に限定 • クエリについて – 以下の3種類で実験 • サカナクション「新宝島」 • sumika「ファンファーレ」 • 増田太郎の歌唱 3. 実験条件 8

Slide 10

Slide 10 text

• サカナクション「新宝島」をクエリ とした場合の類似歌声 – 考察 ・同じ曲がトップ1に(Spotifyで別IDとして登録されていた) ・同一アーティストの別曲が上位に入らないなど、改善の余地あり 4. 実験結果 –MFCCの類似度- 9 曲名 アーティスト 距離 新宝島 サカナクション 0.42 地獄でなぜ悪い 星野源 9.65 Face Down 嵐 9.71 アゲハ蝶 ポルノグラフィティ 9.99 君のために僕がいる 嵐 10.05

Slide 11

Slide 11 text

• サカナクション「新宝島」をクエリとした場合の類似歌声 – 考察 ・MFCCとほぼ同じ結果 4. 実験結果 –LPMCCの類似度- 10 曲名 アーティスト 距離 新宝島 サカナクション 0.59 Face Down 嵐 10.59 地獄でなぜ悪い 星野源 11.03 水星(Original mix) feat. オノマトペ大臣 tofubeats 11.15 君のために僕がいる 嵐 11.29

Slide 12

Slide 12 text

• sumika「ファンファーレ」をクエリ とした場合の類似歌声 – 考察 ・4位に女性アーティストが来ており、類似度を上手く捉えられていない ・一方、サンボマスターのような熱く太い歌声は似ている 4. 実験結果 –MFCCの類似度- 11 曲名 アーティスト 距離 輝きだして走ってく サンボマスター 4.40 エソラ Mr.Children 5.75 Sorry 清水翔太 7.20 Jupiter 平原綾香 7.84 Bon Voyage ONE OK ROCK 8.05

Slide 13

Slide 13 text

• sumika「ファンファーレ」をクエリとした場合の類似歌声 – 考察 ・MFCCと同じアーティストが並ぶ 4. 実験結果 –LPMCCの類似度- 12 曲名 アーティスト 距離 輝きだして走ってく サンボマスター 4.27 エソラ Mr.Children 7.00 Sorry 清水翔太 7.25 努努-ゆめゆめ- ONE OK ROCK 7.67 Jupiter 平原綾香 8.08

Slide 14

Slide 14 text

• 増田太郎が歌う「ファンファーレ」をクエリ とした場合 – 考察 ・1位であっても距離のスケールが大きく、特徴を上手く掴めていない ・Spleeterによるダウンサンプリングなど前処理を揃えるべきだったか ・重複や偏りの影響でユニークなアーティスト数が十分でなかった 4. 実験結果 –MFCCの類似度- 13 曲名 アーティスト 距離 クローバー 菅田将暉 12,075 アゲハ蝶 ポルノグラフィティ 12,122 180° 山猿 12,126 君こそスターだ サザンオールスターズ 12,136 One Love 嵐 12,137

Slide 15

Slide 15 text

• 増田太郎が歌う「ファンファーレ」をクエリとした場合の類似歌声 – 考察 ・問題点はMFCCで上げたことと同じ 4. 実験結果 –LPMCCの類似度- 14 曲名 アーティスト 距離 クローバー 菅田将暉 9,332 アゲハ蝶 ポルノグラフィティ 9,376 ロングホープ・フィリア 菅田将暉 9,384 Everything 嵐 9,385 君こそスターだ サザンオールスターズ 9,401

Slide 16

Slide 16 text

• 歌声の特徴に基づき楽曲の類似度を算出することで、 曲との新しい出会い方の実現性について実験した – Spleeterを利用することで歌声波形と伴奏の分離 – 分離された歌声波形をMFCC, LPMCCを用いて歌声特徴量に変換 • 今後の課題 – 歌声の別の特徴量抽出手法を取り入れた精度の改善 • ΔF0:ビブラートやこぶしなど、音高の時間変化の特徴 – 今回は声質のみで検索するという思惑がありスコープ外とした – いわしさんの下記の取り組みに、アドオンとして歌声類似度機能を追加したい • “今回作成した曲同士のデータをGraphデータに変換し,3D空間に作図して Web公開しようと思います.”, -ブログより引用 – https://fake-plastic-trees.hatenablog.jp/entry/2019/12/01/183713 • ユーザの歌唱をクエリとするための音声入力インタフェースの実装 5. まとめ 15