MULTIMODAL METRIC LEARNING FOR TAG-BASED MUSIC RETRIEVAL@ICASSP2021読み会

#11: Multimodal Metric Learning For Tag-based Music Retrieval （ICASSP2021読み会+修正&補足版）著者:
Minz Won1 Sergio Oramas2 Oriol Nieto2 Fabien Gouyon2 Xavier Serra1 1: Universitat Pompeu Fabra, 2: Pandra 発表者: 山本雄也 (筑波大学) https://github.com/minzwon/tag-based- music-retrieval コードもあるよ！！

自動音楽タグ検索マルチモーダル距離学習 (for tag&music) 埋め込み空間概要：マルチモーダル距離学習 for 音楽タグ検索の検証 11:
山本雄也 (筑波大学) x/x (11) Multimodal Metric Learning For Tag-based Music Retrieval 童謡森のくまさん紅/X JAPAN タグに対し，適合する音楽の距離を近く，適合しない音楽の距離を遠くするよう， Triplet networkで学習 [Choi 2019] [Choi 2019] J.Choi+, Zero-shot Learning for Audio-based Music Classification and Tagging. ISMIR 2019 未知のタグで曲を探すことが可能に従来はモデルが分類問題を学習しているため，表記揺れや未知のタグに弱かった本論文で検証した事項 1. Tripletのサンプル • 少数タグがnegative sampleに選ばれにくい問題 2. 音楽の空間埋め込み • 音からわかること vs それを聴いたユーザーからわかること 3. タグの空間埋め込み • 多種多様な音楽タグの意味を埋め込みで表現できているか？音楽タグ付けのタスクを学習した識別モデルに，クエリとなるタグを投げて検索「ディスコ」 positive sample anchor negative sample ①Triplet ②音楽埋め込み ③タグ埋め込みなんらかのディスコソング

マルチモーダルtriplet network 11: 山本雄也 (筑波大学) x/x (11) Multimodal Metric Learning
For Tag-based Music Retrieval 1. Tripletのサンプル 2. 音楽の埋め込み 3. タグの埋め込み a. Random: ランダムに選定 b. Balanced: 少数タグの音楽を優先的に選定 c. Weighted balanced:少数タグかつ positive sampleとの距離が遠い音楽を優先的に選定 a. Cultural: ユーザーの音楽聴取履歴を WMF[Hu 2008]で行列分解して得たベクトルを concatし，MLPに入力して埋め込み b. Acoustic: 音楽の音源を利用．対数メルスペクトログラム +CNNによって埋め込み a. Google News: Google Newsで学習したWord2Vec b. Domain specific: 音楽記事を集めた SemEval-2018 Task 9: Hypernym Discoveryのデータで学習した Word2Vec https://tryolabs.com/blog/introduction-to-recommender-systems/ [Hu 2008] Hu+, Collaborative Filtering for Implicit Feedback Datasets.ICDM2008. 童謡 anchor positive sample 森のくまさん（from 童謡タグ） negative sampleを選ぶにしても... ロッククラシック有象無象ジャンルたち negative sampleに偏りが生じるのをどう解決する？埋め込む音楽の形式でどう変わるか？音楽特化の記事でタグを埋め込むと性能は良くなる？音楽推薦・検索の研究では，アイテムベース（音源）と協調フィルタリング（聴取データ） 2通りの手法が存在ロックばかりがサンプルされてしまう

評価データ：MSD100, MSD50 (タグ付け精度を高くし，タグ数を絞ったサブセット ) 結果 11: 山本雄也 (筑波大学) x/x
(11) Multimodal Metric Learning For Tag-based Music Retrieval 1. Tripletのサンプル 2. 音楽の埋め込み 3. タグの埋め込み Balanced-weightedにおいて性能改善 -> tripletのサンプリングの工夫が有効数値自体に改善はなし．しかしタグの類似検索において似ている音楽ジャンルをとらえた ex. クエリ：”Jungle”（リズム楽器が特徴的なクラブ音楽の一種）森の方のジャングルとみなされているジャングルと似た音楽ジャンルがヒット評価データ：MSD100 (Milion Song datasetの最頻100タグを使用) 評価基準・MAP (Mean Average Precision); 上位にどれだけ適合アイテムが来たか・P@k; k位までの出力でのPrecision タグのカテゴリごとに性能の違いが見られたタグづけの質が良い場合は音楽聴取データの性能が良くなる

補足1：Triplet Network [Hoffer 2015] • 深層距離学習の一つのモデル ◦ とある基準（anchor）に対し，似ているもの（positive sample）と似ていないもの
（negative sample）を用意 ◦ anchorとpositive sampleの距離を小さく，anchorとnegative sampleの距離を大きくするように学習 • Loss関数 ◦ anchor-positive間とanchor-negative間の距離の差がα(>0)となると最適 [Hoffer 2015]Hoffer+,DEEP METRIC LEARNING USING TRIPLET NETWORK. ICLR2015 Kaya, Mahmut, and Hasan Şakir Bilge. "Deep metric learning: A survey." Symmetry 2019. より抜粋

補足2：距離学習音楽タグ検索の先行研究 [Choi 2019] Semantic spaceではタグの単語をベクトル化して埋め込む Audio Feature spaceでは音楽信号をCNNに通して埋め込む -> 2つの空間の関係性を学習し，
1つの空間に異なるモダリティ由来のベクトルを埋めこみを可能に

補足3：Weighted Matrix Factorization [Hu 2008] ユーザーと楽曲の情報から，ユーザーの性質と楽曲の性質を行列分解により分離する方法ユーザーがこの曲を何回聴いたか，レーティングをどうつけたかなど....
ユーザーの楽曲嗜好に関するなんらか楽曲の性質に関するなんらか最適化のための目的関数音楽信号からは得られない情報（その曲がどういう人たちに聴かれているか等）を獲得可能

質問対応 • Q. 音楽記事だけだとデータ量が少なくなりがちだと思うのですが，この論文では言語モデル適応（例えば，Google Newsで学習 -> 音楽記事で適応）をやっているのでしょうか？ •
A. やった記述はありませんでした．音楽記事を使った場合で定量的に性能が上がらなかったのはご指摘の通りデータ量が原因だとも考えられます．言語モデル適応で数値も向上する可能性はあるかもしれません． • Q. タグ埋め込みの有効性は，どうやって定量的に評価するのでしょうか？ • A. 正直私は検討がつきません．タグが階層化されていれば話は別ですが，そうでない場合できることといえば検索システムを実際に使ってユーザーの評価を得る，類似タグ検索の MAPやp@kを測ることくらいでしょうか...タグと音楽の対応が取れていることと，タグ埋め込み自体が類似関係を適切に表現できていることは必ずしも=にはならないので，前者さえ満たせていればお k，というスタンスな気もしています．

MULTIMODAL METRIC LEARNING FOR TAG-BASED MUSIC ...

MULTIMODAL METRIC LEARNING FOR TAG-BASED MUSIC RETRIEVAL@ICASSP2021読み会

Yuya Yamamoto

More Decks by Yuya Yamamoto

Other Decks in Research

Featured

Transcript

#11: Multimodal Metric Learning For Tag-based Music Retrieval （ICASSP2021読み会+修正&補足版）著者:

自動音楽タグ検索マルチモーダル距離学習 (for tag&music) 埋め込み空間概要：マルチモーダル距離学習 for 音楽タグ検索の検証 11:

マルチモーダルtriplet network 11: 山本雄也 (筑波大学) x/x (11) Multimodal Metric Learning

評価データ：MSD100, MSD50 (タグ付け精度を高くし，タグ数を絞ったサブセット ) 結果 11: 山本雄也 (筑波大学) x/x

補足1：Triplet Network [Hoffer 2015] • 深層距離学習の一つのモデル ◦ とある基準（anchor）に対し，似ているもの（positive sample）と似ていないもの

補足2：距離学習音楽タグ検索の先行研究 [Choi 2019] Semantic spaceではタグの単語をベクトル化して埋め込む Audio Feature spaceでは音楽信号をCNNに通して埋め込む -> 2つの空間の関係性を学習し，

補足3：Weighted Matrix Factorization [Hu 2008] ユーザーと楽曲の情報から，ユーザーの性質と楽曲の性質を行列分解により分離する方法ユーザーがこの曲を何回聴いたか，レーティングをどうつけたかなど....

質問対応 • Q. 音楽記事だけだとデータ量が少なくなりがちだと思うのですが，この論文では言語モデル適応（例えば，Google Newsで学習 -> 音楽記事で適応）をやっているのでしょうか？ •