Upgrade to Pro — share decks privately, control downloads, hide ads and more …

KDD2021論文読み会・Neural Instant Search for Music and Podcast

Sean Saito
October 07, 2021

KDD2021論文読み会・Neural Instant Search for Music and Podcast

Sean Saito

October 07, 2021
Tweet

More Decks by Sean Saito

Other Decks in Research

Transcript

  1. 発表者: Sean Saito ・ ⿑藤初雲 / Data Scientist, BCG GAMMA

    KDD2021 論⽂読み会 Neural Instant Search for Music and Podcast Helia Hashemi, Aasish Pappu, Mi Tian, Praveen Chandar, Mounia Lalmas, and Ben Carterette Spotify, University of Massachusetts Amherst
  2. ⾃⼰紹介 ⿑藤 初雲 Sean Saito Data Scientist, BCG GAMMA 経歴

    • 2020年 09⽉ – 現在: Data Scientist, BCG, DigitalBCG Japan, BCG GAMMA • 2017年 07⽉ - 2020年 07⽉: ML Developer, SAP Machine Learning (Singapore) • 2016年 05⽉ – 2020年 07⽉: Founder & CEO, Code Gakko (Singapore) • 2017年 05⽉: BSc. (Hons), Computer Science, Yale-NUS College (Inaugural Batch) 主な経験領域 ⼩売り: パーソナライゼーション 保険: 異常検知、クロスセル・アップセル、LTV ⼯業: 数理最適化 ⾃動⾞: Data Lake設計、構築⽀援 in/seansaito @saitonian
  3. 背景 1. Spotifyでは⾳楽の他にポッドキャストも提供しており、アプリ上では⼀ 括で検索できるようになっている 2. 年々ポッドキャストの番組数・再⽣数が増えてきており1、より⾼い検索 精度を出すことが必要になってきた 3. ただし、⾳楽・ポッドキャストそれぞれにおいてユーザの検索⾏動・パター ンには⼤きな違いがあるので単純な⼿法だとポッドキャストの検索精度

    が上がらない 4. そこで今回SpotifyチームはNeural Instant Searchという、⾳楽・ポッ ドキャスト両⽅の検索ができる⼿法を発案した Intro Neural Instant Search for Music and Podcast 3 Neural Instant Search for Music and Podcast・@saitonian・#kdd2021_reading Music Podcast 1. According to a recent survey, 55% of people in the US have listened to a podcast in 2020, with a 7.8% and 22.2% relative growth from 2019 and 2010, respectively. https://www.thepodcasthost.com/listening/podcast-industry-stats/
  4. ⾳楽とポッドキャストにおけるユーザ検索⾏動の明確な違い 4 Neural Instant Search for Music and Podcast・@saitonian・#kdd2021_reading ①

    検索⽬的 ② 検索⼤変度 検索⽬的 ⾏動 対⾳楽 聴く Stream +3% 整理する コレクション追加 +29% プレイリスト追加 -59% Artistフォロー -92% プレイリストフォロー -39% ダウンロード +593% シェア リンクのシェア +44% 動作 対⾳楽 平均削除⽂字数 +53.3% 検索の平均⻑さ(単語数) +0.4% 検索の平均⻑さ(⽂字数) +12.6% • ①⽬的: ポッドキャストは1回限りの視聴がほとんどなためプレイリ スト・フォローなどは少なく、代わりに保存・拡散⽅法としてダウン ロード・シェアの割合が⽐較的⾼い。 • ②⼤変度: 検索⽂の削除数、⻑さからポッドキャスト検索の⽅ が⼤変なことが分かる。 • 本来なら別々で学習しても良いが、ポッドキャストの検索データ ⾃体まだ少なく、単独で学習したモデルはベースラインに劣る。 ⾳楽とポッドキャスト双⽅のデータで学習することによってそれ ぞれの検索精度向上を⽬指せないか Intro
  5. 本研究の位置付け 5 Neural Instant Search for Music and Podcast・@saitonian・#kdd2021_reading Query

    Auto-Completion Neural Ranking Models Aggregated Search Neural Instant Search ユーザの途中までのクエリを⾃動コンプリートする • 事前インデックスの作成、など • 主に3つの分類: • ヒューリスティック⼿法 • Learning-to-rank⼿法 • 深層学習モデルによるもの NNによるランキング • QueryとDocumentの相互作⽤⾏列 ・表現学習、IR、QA、CQA、など • DSSM, DeepMatch, etc. • Early combination/late combination いくつかの情報種類(vertical)から選択し、 1つの検索結果としてまとめる • 画像、ビデオ、⾳声、本など Neural x QAC x Aggregate Search (Music & Podcast)の組み合わせはほとんど前例がない Intro
  6. NIS | Architecture NIS 1 2 3 4 5 Neural

    Instant Search for Music and Podcast・@saitonian・#kdd2021_reading 7 1 検索結果のランキングと検索⽬的判別の両タスク を最適化する Multi-task objective 2 ユーザが検索⽂を⽂字単位で編集する度に検索 結果を更新したいため (Instant Search)、 Character Embeddingを採⽤ 3 Character Embedding層へのインプットとして⼊ ⼒する concat(検索、結果) ベクトルを区分けす るための Segment Embedding 4 検索結果の⼈気度などを表現学習するための Item Embedding 5 Transformerを使う主な理由 • IRに有⽤なコンテキスト表現が学べる • Attentionによる検索⽂(prefix)と 結果(タイトル)のマッチング
  7. 定式化 8 Neural Instant Search for Music and Podcast・@saitonian・#kdd2021_reading Notation

    Dataset: 𝐷 = 𝑞!, 𝐼!, 𝑇!, 𝑅! , 𝑞", 𝐼", 𝑇", 𝑅" , … , (𝑞#, 𝐼#, 𝑇#, 𝑅#) } • 𝑞! : 検索⽂ • 𝐼! = 𝐼!", 𝐼!#, … , 𝐼!$ : 検索⽂に対する検索結果候補 • 𝑇! ∈ 0, 1 : 検索結果でユーザが選んだオーディオタイプ(⾳楽 or ポッドキャスト) • 𝑅! ∈ 0,1 $ : 検索結果候補𝐼!% がクリックされたか否か(implicit relevance label) NIS model: 𝑀 𝑞! , 𝐼!" • . 𝑅!% : 検索⽂と結果候補のマッチスコア • . 𝑇! : ユーザの検索⽬的の予測 NIS Loss function (Multi-task objective): 𝐿 = 𝐿!"#$%#& + 𝛼𝐿%#'(#' Ranking loss: 𝐿!"#$%#& = −𝑅%' log 0 𝑅%' − 1 − 𝑅%' log(1 − 0 𝑅%' ) Intent type loss: 𝐿%#()#( = −𝑇% log0 𝑇% − 1 − 𝑇% log(1 − 0 𝑇% )
  8. Experiments 実験及び結果|⼤体良い結果が得られた 10 Neural Instant Search for Music and Podcast・@saitonian・#kdd2021_reading

    問い 実験結果・⽰唆 SOTA・ベースラインに対するNIS の検索精度は︖ NIS各部分の検索精度への貢 献度は?(ablation study) NISの⾳楽・ポッドキャストそれぞ れの検索精度は︖ 検索⽂の⻑さによってNISの精 度はどう変わるか︖ Heuristicアプローチ(PMIP)、BERT、LSTM-Charと⽐べて各種指標で 上回った(NDCG@10、RPrecision、MRR、MAP) Multi-task objectiveとItem embeddingはどちらか・両⽅とも⽋けてい ると精度低くなり、モデルにとって重要な部分であることが分かった 1 2 3 4 ⾳楽・ポッドキャスト両⽅においてSOTA・ベースラインより⾼い検索精度( 検索⽬的判別)が達成できた 検索⽂が⻑いほど精度は⾼い。また、どの⻑さにおいてもmulti-task objectiveモデルの⽅がsingle-task objectiveのものより精度が⾼いこと が⽰された。
  9. Experiments 11 Neural Instant Search for Music and Podcast・@saitonian・#kdd2021_reading 1

    SOTA・ベースラインに対するNISの検索精度は︖
  10. Experiments 12 Neural Instant Search for Music and Podcast・@saitonian・#kdd2021_reading 1

    NISの⾳楽・ポッドキャストそれぞれの検索精度は︖ 3
  11. Summary まとめ 13 Neural Instant Search for Music and Podcast・@saitonian・#kdd2021_reading

    • ポッドキャストの⼈気度が上がるにつれて、検索精度も向上させる必要が出てきた • そこでNeural Instant Searchという⼿法を発案した • Multi-task objectiveで⾳楽・ポッドキャストそれぞれの検索傾向を学ばせた • Transformer & 各種 embeddingを駆使することによって他モデルより良い検索精度を達成することができた
  12. DigitalBCG GAMMA - 募集要項 勤務地 選考プロセス 書類選考、テクニカルテスト、複数回の⾯接 東京・京都・⼤阪オフィス データサイエンティスト ソフトウェアエンジニア/

    データエンジニア 詳細はDigitalBCG Japanウェブサイト もしくは [email protected]へお問合せ下さい もしくはいつでも気軽にお声がけください︕ 職種