Upgrade to Pro — share decks privately, control downloads, hide ads and more …

歌声の特徴に基づいて曲を探そう!

Taro Masuda
January 18, 2020

 歌声の特徴に基づいて曲を探そう!

Taro Masuda

January 18, 2020
Tweet

More Decks by Taro Masuda

Other Decks in Technology

Transcript

  1. 歌声の特徴に基づいて曲を探そう!
    @ Music×Analytics Meetup
    増田 太郎 @ml_taro
    2020/01/18

    View Slide

  2. 自己紹介
    1
    増田 太郎(ますだ たろう) @ml_taro
    • 仕事(株)電通国際情報サービス
    • 画像認識・音響解析・自然言語処理といった分野の技術検証、
    研究開発、新規事業の企画提案
    • 興味
    • 音響信号処理、音楽情報処理
    • 機械学習、特にモデルの動作原理など理論に興味あり、ベイズ(PRML)
    • 経歴
    • 楽器の演奏フレーズをクエリとする楽曲検索の研究 @修士
    • 論文: https://staff.aist.go.jp/m.goto/PAPER/ISMIR2014masuda.pdf
    • 音声信号処理の研究 @電機メーカー研究所
    • 論文: https://ieeexplore.ieee.org/document/7952201
    • その他
    • 産総研メディアインタラクション研究G 技術研修生、ヤマハR&Dインターン
    • 好きなアーティスト
    • indigo la End, サカナクション, sumika

    View Slide

  3. 目次
    1. 背景・目的
    2. 処理フロー
    3. 実験条件
    4. 実験結果
    5. まとめ
    2

    View Slide

  4. • 背景① 「歌声」は楽曲の中でリスナーが最も重視する要素の1つ
    – 「VOCALOID」等歌声編集ソフトの普及
    – 「AI美空ひばり」プロジェクトでも
    歌声のチューニングに多くの工数が割かれている(はず)
    – 私自身も好みの歌声を持ったボーカリストが複数いて、声が似た曲を探したい
    • 背景② カラオケで自分の声に似たアーティストの曲を歌いたい
    – 自分自身の声を客観的に誰と似ているか判定することは難しい
    • 目的 歌声の特徴に基づき楽曲の類似度を算出することで、
    曲との新しい出会い方の実現性について実験すること
    – 好きな歌声の特徴を基に別の曲と出会う
    – 自分の声に似た曲と出会う
    1. 背景・目的
    3

    View Slide

  5. • はじめに
    – 本発表では、いわしさん( @tty_tkhs_ml )のブログ記事 (*1)
    およびコード (*2) を大いに参照、活用させていただきました。
    ここに厚く御礼申し上げます。
    – (*1)「Spotify Web APIから収集した楽曲のメル周波数スペクトログラムを
    用いたジャンル推定と特定次元空間へのマッピング」
    https://fake-plastic-trees.hatenablog.jp/entry/2019/12/01/183713
    – (*2) https://colab.research.google.com/drive/1_efY_YcYB3b_NkOT_bs85-8k73otVoUx
    2. 処理フロー
    4

    View Slide

  6. 2. 処理フロー
    5
    Web
    API
    楽曲ファイルA
    楽音分離
    歌声特徴量
    抽出
    歌声波形A 歌声特徴量A
    楽曲ファイルB
    楽音分離
    歌声特徴量
    抽出
    歌声波形B 歌声特徴量B
    類似度
    計算
    Spotify DB

    View Slide

  7. • 楽音分離
    – Deezer社のOSSである「Spleeter」を使用
    • 以下の3通りの学習済み楽音分離モデルを提供
    – ボーカル / 伴奏 (2 stems)
    – ボーカル / ドラム /
    ベース / その他 (4 stems)
    – ボーカル / ドラム / ベース /
    ピアノ / その他 (5 stems)
    • https://github.com/deezer/spleeter
    • Romain Hennequin and Anis Khlif and Felix Voituret and
    Manuel Moussallam,“Spleeter: A Fast And State-of-the Art Music
    Source Separation Tool With Pre-trained Models,“
    Late-Breaking/Demo ISMIR 2019,
    Deezer Research, November 2019.
    • 今回は 2 stems のみを使用
    2. 処理フロー
    6

    View Slide

  8. • 歌声特徴量の抽出
    – MFCC
    • 人間の聴覚特性に基づき人手で設計された特徴量
    • 音声・音楽信号処理で幅広く使われる音響特徴量のド定番
    – LPMCC
    • 線形予測(LP)を用いて声道特徴を表現する特徴量
    – 歌声の特徴量として有効であることが報告されている
    » 中野, 吉井, 後藤, “トピックモデルを用いた歌声特徴量の分析"
    » https://staff.aist.go.jp/t.nakano/PAPER/SIGMUS201309nakano.pdf
    • 類似度計算
    – ユークリッド距離
    • 値が小さいほど類似度が高い
    2. 処理フロー
    7

    View Slide

  9. • データセットについて
    – ジャンル:結果の分かりやすさのため「j-pop」に絞って収集
    – 曲数:合計1,000曲のmp3ファイルを収集
    • アーティスト数:181
    • Spotify APIにてサンプル視聴用の30秒のクリップが提供されている
    – マーケットプレイスのリージョン:日本に限定
    • クエリについて
    – 以下の3種類で実験
    • サカナクション「新宝島」
    • sumika「ファンファーレ」
    • 増田太郎の歌唱
    3. 実験条件
    8

    View Slide

  10. • サカナクション「新宝島」をクエリ とした場合の類似歌声
    – 考察 ・同じ曲がトップ1に(Spotifyで別IDとして登録されていた)
    ・同一アーティストの別曲が上位に入らないなど、改善の余地あり
    4. 実験結果 –MFCCの類似度-
    9
    曲名 アーティスト 距離
    新宝島 サカナクション 0.42
    地獄でなぜ悪い 星野源 9.65
    Face Down 嵐 9.71
    アゲハ蝶 ポルノグラフィティ 9.99
    君のために僕がいる 嵐 10.05

    View Slide

  11. • サカナクション「新宝島」をクエリとした場合の類似歌声
    – 考察 ・MFCCとほぼ同じ結果
    4. 実験結果 –LPMCCの類似度-
    10
    曲名 アーティスト 距離
    新宝島 サカナクション 0.59
    Face Down 嵐 10.59
    地獄でなぜ悪い 星野源 11.03
    水星(Original mix) feat.
    オノマトペ大臣
    tofubeats 11.15
    君のために僕がいる 嵐 11.29

    View Slide

  12. • sumika「ファンファーレ」をクエリ とした場合の類似歌声
    – 考察 ・4位に女性アーティストが来ており、類似度を上手く捉えられていない
    ・一方、サンボマスターのような熱く太い歌声は似ている
    4. 実験結果 –MFCCの類似度-
    11
    曲名 アーティスト 距離
    輝きだして走ってく サンボマスター 4.40
    エソラ Mr.Children 5.75
    Sorry 清水翔太 7.20
    Jupiter 平原綾香 7.84
    Bon Voyage ONE OK ROCK 8.05

    View Slide

  13. • sumika「ファンファーレ」をクエリとした場合の類似歌声
    – 考察 ・MFCCと同じアーティストが並ぶ
    4. 実験結果 –LPMCCの類似度-
    12
    曲名 アーティスト 距離
    輝きだして走ってく サンボマスター 4.27
    エソラ Mr.Children 7.00
    Sorry 清水翔太 7.25
    努努-ゆめゆめ- ONE OK ROCK 7.67
    Jupiter 平原綾香 8.08

    View Slide

  14. • 増田太郎が歌う「ファンファーレ」をクエリ とした場合
    – 考察 ・1位であっても距離のスケールが大きく、特徴を上手く掴めていない
    ・Spleeterによるダウンサンプリングなど前処理を揃えるべきだったか
    ・重複や偏りの影響でユニークなアーティスト数が十分でなかった
    4. 実験結果 –MFCCの類似度-
    13
    曲名 アーティスト 距離
    クローバー 菅田将暉 12,075
    アゲハ蝶 ポルノグラフィティ 12,122
    180° 山猿 12,126
    君こそスターだ サザンオールスターズ 12,136
    One Love 嵐 12,137

    View Slide

  15. • 増田太郎が歌う「ファンファーレ」をクエリとした場合の類似歌声
    – 考察 ・問題点はMFCCで上げたことと同じ
    4. 実験結果 –LPMCCの類似度-
    14
    曲名 アーティスト 距離
    クローバー 菅田将暉 9,332
    アゲハ蝶 ポルノグラフィティ 9,376
    ロングホープ・フィリア 菅田将暉 9,384
    Everything 嵐 9,385
    君こそスターだ サザンオールスターズ 9,401

    View Slide

  16. • 歌声の特徴に基づき楽曲の類似度を算出することで、
    曲との新しい出会い方の実現性について実験した
    – Spleeterを利用することで歌声波形と伴奏の分離
    – 分離された歌声波形をMFCC, LPMCCを用いて歌声特徴量に変換
    • 今後の課題
    – 歌声の別の特徴量抽出手法を取り入れた精度の改善
    • ΔF0:ビブラートやこぶしなど、音高の時間変化の特徴
    – 今回は声質のみで検索するという思惑がありスコープ外とした
    – いわしさんの下記の取り組みに、アドオンとして歌声類似度機能を追加したい
    • “今回作成した曲同士のデータをGraphデータに変換し,3D空間に作図して
    Web公開しようと思います.”, -ブログより引用
    – https://fake-plastic-trees.hatenablog.jp/entry/2019/12/01/183713
    • ユーザの歌唱をクエリとするための音声入力インタフェースの実装
    5. まとめ
    15

    View Slide