Upgrade to Pro — share decks privately, control downloads, hide ads and more …

MULTIMODAL METRIC LEARNING FOR TAG-BASED MUSIC ...

MULTIMODAL METRIC LEARNING FOR TAG-BASED MUSIC RETRIEVAL@ICASSP2021読み会

ICASSP2021読み会(https://connpass.com/event/217284/ )で発表したものを一部修正&補足したものです.
論文:M. Won, S. Oramas, O. Nieto, F. Gouyon and X. Serra, "Multimodal Metric Learning for Tag-Based Music Retrieval," ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2021, pp. 591-595
コード:https://github.com/minzwon/tag-based-music-retrieval

Yuya Yamamoto

July 09, 2021
Tweet

More Decks by Yuya Yamamoto

Other Decks in Research

Transcript

  1. #11: Multimodal Metric Learning For Tag-based Music Retrieval (ICASSP2021読み会+修正&補足版) 著者:

    Minz Won1 Sergio Oramas2 Oriol Nieto2 Fabien Gouyon2 Xavier Serra1 1: Universitat Pompeu Fabra, 2: Pandra 発表者: 山本 雄也 (筑波大学) https://github.com/minzwon/tag-based- music-retrieval コードもあるよ!!
  2. 自動音楽タグ検索 マルチモーダル距離学習 (for tag&music) 埋め込み 空間 概要:マルチモーダル距離学習 for 音楽タグ検索の検証 11:

    山本雄也 (筑波大学) x/x (11) Multimodal Metric Learning For Tag-based Music Retrieval 童謡 森のくまさん 紅/X JAPAN タグに対し,適合する音楽の距 離を近く,適合しない音楽の距 離を遠くするよう, Triplet networkで学習 [Choi 2019] [Choi 2019] J.Choi+, Zero-shot Learning for Audio-based Music Classification and Tagging. ISMIR 2019 未知のタグで曲を探すことが可能に 従来はモデルが分類問題を学習しているため, 表記揺れや未知のタグに弱かった 本論文で検証した事項 1. Tripletのサンプル • 少数タグがnegative sampleに選ばれにくい問題 2. 音楽の空間埋め込み • 音からわかること vs それを聴いたユーザーからわかること 3. タグの空間埋め込み • 多種多様な音楽タグの意味を埋め込みで表現できているか? 音楽タグ付けのタスクを学習し た識別モデルに,クエリとなるタ グを投げて検索 「ディスコ」 positive sample anchor negative sample ①Triplet ②音楽 埋め込み ③タグ 埋め込み なんらかの ディスコソング
  3. マルチモーダルtriplet network 11: 山本雄也 (筑波大学) x/x (11) Multimodal Metric Learning

    For Tag-based Music Retrieval 1. Tripletのサンプル 2. 音楽の埋め込み 3. タグの埋め込み a. Random: ランダムに選定 b. Balanced: 少数タグの音楽を優先的 に選定 c. Weighted balanced:少数タグかつ positive sampleとの距離が遠い音楽を 優先的に選定 a. Cultural: ユーザーの音楽聴取履歴を WMF[Hu 2008]で行列分解して得たベクトルを concatし,MLPに入力して埋め込み b. Acoustic: 音楽の音源を利用. 対数メルスペクトログラム +CNNによって埋め 込み a. Google News: Google Newsで学習し たWord2Vec b. Domain specific: 音楽記事を集めた SemEval-2018 Task 9: Hypernym Discoveryのデータで学習した Word2Vec https://tryolabs.com/blog/introduction-to-recommender-systems/ [Hu 2008] Hu+, Collaborative Filtering for Implicit Feedback Datasets.ICDM2008. 童謡 anchor positive sample 森のくまさん (from 童謡タグ) negative sampleを 選ぶにしても... ロック クラシック 有象無象 ジャンルたち negative sampleに偏りが生じるのを どう解決する? 埋め込む音楽の形式でどう変わるか? 音楽特化の記事でタグを埋め込むと 性能は良くなる? 音楽推薦・検索の研究では,アイテムベース(音源)と協調 フィルタリング(聴取データ) 2通りの手法が存在 ロックばかりが サンプル されてしまう
  4. 評価データ:MSD100, MSD50 (タグ付け精度を高くし, タグ数を絞ったサブセット ) 結果 11: 山本雄也 (筑波大学) x/x

    (11) Multimodal Metric Learning For Tag-based Music Retrieval 1. Tripletのサンプル 2. 音楽の埋め込み 3. タグの埋め込み Balanced-weightedにおいて性能改善 -> tripletのサンプリングの工夫が有効 数値自体に改善はなし. しかしタグの類似検索において 似ている音楽ジャンルをとらえた ex. クエリ:”Jungle”(リズム楽器が特徴的なク ラブ音楽の一種) 森の方の ジャングルと みなされている ジャングルと似た 音楽ジャンルが ヒット 評価データ:MSD100 (Milion Song datasetの最 頻100タグを使用) 評価基準 ・MAP (Mean Average Precision); 上位にどれだけ適合アイ テムが来たか ・P@k; k位までの出力でのPrecision タグのカテゴリごとに性能の違いが見られた タグづけの質が良い場合は音楽聴取データの性 能が良くなる
  5. 補足1:Triplet Network [Hoffer 2015] • 深層距離学習の一つのモデル ◦ とある基準(anchor)に対し,似ているもの (positive sample)と似ていないもの

    (negative sample)を用意 ◦ anchorとpositive sampleの距離を小さく ,anchorとnegative sampleの距離を大きく するように学習 • Loss関数 ◦ anchor-positive間とanchor-negative間の距 離の差がα(>0)となると最適 [Hoffer 2015]Hoffer+,DEEP METRIC LEARNING USING TRIPLET NETWORK. ICLR2015 Kaya, Mahmut, and Hasan Şakir Bilge. "Deep metric learning: A survey." Symmetry 2019. より抜粋
  6. 補足3:Weighted Matrix Factorization [Hu 2008] ユーザーと楽曲の情報から,ユーザーの性質と楽曲の性質を行列分解により分離する方法 ユーザーがこの曲を何 回聴いたか, レーティングを どうつけたかなど....

    ユーザーの楽曲嗜好に 関するなんらか 楽曲の性質に 関するなんらか 最適化のための目的関数 音楽信号からは得られない情報 (その曲がどういう人たちに聴かれているか等)を獲得可能
  7. 質問対応 • Q. 音楽記事だけだとデータ量が少なくなりがちだと思うのですが,この論文では言語モデル適応 (例えば,Google Newsで学習 -> 音楽記事で適応) をやっているのでしょうか? •

    A. やった記述はありませんでした.音楽記事を使った場合で定量的に性能が上がらなかったのは ご指摘の通りデータ量が原因だとも考えられます.言語モデル適応で数値も向上する可能性はある かもしれません. • Q. タグ埋め込みの有効性は,どうやって定量的に評価するのでしょうか? • A. 正直私は検討がつきません.タグが階層化されていれば話は別ですが,そうでない場合できることと いえば検索システムを実際に使ってユーザーの評価を得る,類似タグ検索の MAPやp@kを測ることくら いでしょうか...タグと音楽の対応が取れていることと,タグ埋め込み自体が類似関係を適切に表現できて いることは必ずしも=にはならないので,前者さえ満たせていればお k,というスタンスな気もしています.