Slide 1

Slide 1 text

IR Reading 2025春 2025年5月24日 利用シーンを意識した推薦システム 〜SpotifyとAmazonの事例から〜 Contextualizing Spotify’s Audiobook List Recommendations with Descriptive Shelves (ECIR 2025) Using Instruction-Tuned LMs for Scalable Use Case-Based Shopping - Where Customers Meet Their Needs (KDD 2025) 栗本 真太郎(@kuri8ive) ※ 断りのない限り、図表は紹介論文からの引用 or ChatGPTによる生成です

Slide 2

Slide 2 text

2/24 推薦システムは基本的に“ユーザーはどんなものが好きか?”を当てるお話 が、“ユーザーはどんなときに好きか?”まで考慮できたらもっと便利になりそう 例)目的、気分、季節、etc.… “どんなものが好き?”だけじゃなく“どんなときに好き?”

Slide 3

Slide 3 text

Contextualizing Spotify’s Audiobook List Recommendations with Descriptive Shelves (ECIR 2025)

Slide 4

Slide 4 text

4/24 Spotifyはオーディオブックを提供しており、その説明を充実させたいと考えていた が、ユーザーレビューやユーザー生成タグに乏しく、既存の説明生成手法は不向き → LLMでなんとかしよう Spotifyはオーディオブックの説明を充実させたかった https://storage.googleapis.com/pr-newsroom-wp/1/2023/09/Audiobooks-3-screens-v.2.jpg

Slide 5

Slide 5 text

5/24 LLMに説明を生成してもらうとして、どういう分類法に基づいてもらうのか?を検討 1. Spotifyのユーザー検索クエリを調査 2. redditのオーディオブックオススメスレを調査 「強い女性主人公が活躍する本ない?」のスレで出た本は、そのスレタイが本の良い説明になるよね しかしどう分類する…?現場に向かってみよう https://www.reddit.com/r/booksuggestions/

Slide 6

Slide 6 text

6/24 タイトル、著者、説明、BISACジャンルを入れ、LLMに以下10種の記述子を出してもらう LLMさんによろしく 分類 例 ジャンル 児童文学 テーマ or トピック 国際政治 キャラクター 女性主人公 ムード 冒険的 背景 中国の文化大革命 個人的な状況 喪失感への対処 物語の類型 敵から恋人へ ターゲット読者層 児童 目的 日本語を学ぶ 固有名詞 ブリトニー・スピアーズ

Slide 7

Slide 7 text

7/24 記述的本棚生成のパイプライン [4] Personalized audiobook recommendations at spotify through graph neural networks (TheWebConf'24) two-towerモデル[4]で 本推薦 & LLMによる記述子生成 記述子の重複排除 & ユーザーの嗜好に基づく 記述子ランク付け & 貪欲多様化 本棚タイトルに 合うよう アイテムを並び替え & フィルタリング 上位の本棚を選抜

Slide 8

Slide 8 text

8/24 編集者お手製の本棚とA/Bテストで比較 ⚫エンゲージメント指標が改善 ⚫ インプレッションあたりのクリック率 (i2c): +35.25% ⚫ インプレッションあたりの視聴率 (i2s): +86.96% ⚫発見指標が改善 ⚫ インプレッション数(ユニークなオーディオブック数): +627.27% ⚫ インタラクト数(ユニークなオーディオブック数): +804.56% 記述的本棚はクリックや視聴、発見の体験まで改善

Slide 9

Slide 9 text

Using Instruction-Tuned LMs for Scalable Use Case-Based Shopping - Where Customers Meet Their Needs (KDD 2025)

Slide 10

Slide 10 text

10/24 具体的にどの製品を買いたいか、顧客は大抵ハッキリとは分かっていない カテゴリやユースケースから探すことが多いが、 どういうスペックが向いているのか理解するのは難しい 物理店舗なら、 店員さんがユースケースを踏まえて いい感じにオススメしてくれる でもECは? Amazonは物理店舗ならではのオススメをECでも実現したかった

Slide 11

Slide 11 text

11/24 1. カスタマーレビューから、ユースケースとそこに付随する感情を抽出 2. クラスタリングののち、主要なユースケースを特定 3. プロダクトに紐付けてユースケースに基づく推薦(UBS)としてオススメ ECでもユースケースを踏まえて推薦をやっていくぞ

Slide 12

Slide 12 text

12/24 レビュー文章から以下の同時抽出を目的とした新しいタスク ⚫複数のユースケースフレーズ ⚫各ユースケースに対する感情極性(ポジティブ、ネガティブ、ニュートラル) アスペクトベース感情分析を参考 (1/3)ユースケースと感情抽出(UCSE)のタスク設計 zoom用に完璧 →(zoom, positive)

Slide 13

Slide 13 text

13/24 ⚫利益幅とユーザビリティテスト、検索ログから、21のカテゴリーを選定 ⚫ うち7個をRepresentative Categories、14個をHeld-out Categoriesとして分割 ⚫プロダクトあたり平均3000個のレビュー(うち500個を使用) ⚫AutoPhrase*でフレーズを抽出 ⚫社内のプロダクトカテゴリー専門家が4ヶ月アノテーション ⚫各カテゴリーレビューの400を学習用、100をテスト用に分割 ⚫ Held-out Categoriesのものはゼロショット性能評価時には学習用は不使用 追加学習時に少量使用 (1/3)ユースケースと感情抽出(UCSE)のデータセット * Automated Phrase Mining from Massive Text Corpora (IEEE TKDE’18)

Slide 14

Slide 14 text

14/24 予備実験とアスペクトベース感情トリプレット抽出の結果から、FLAN-T5[10]を選択 (T5をインストラクションチューニングしたモデルで、高いゼロ/フューショット性能) ⚫FLAN-T5-Large (780M parameters) ⚫FLAN-T5-XL (3B parameters) ⚫FLAN-T5-XL + LoRA[8] の3種で実験 (1/3)ユースケースと感情抽出(UCSE)に用いる手法 [10] The Flan Collection: Designing Data and Methods for Effective Instruction Tuning. (arXiv’23) [8] LoRA: Low-Rank Adaptation of Large Language Models (arXIv’21)

Slide 15

Slide 15 text

15/24 ⚫UC-F1 ⚫ ユースケースのF値 ⚫Pol-Acc. ⚫ 感情極性の精度 ⚫UCSE-F1 ⚫ ユースケースと感情極性ペアのF値 (1/3)ユースケースと感情抽出(UCSE)の評価指標

Slide 16

Slide 16 text

16/24 7 Representative Categoriesの学習データをカテゴリ個別に学習させた結果(理想) が、Amazonのカテゴリの数を考えると個別に学習させるのは現実的に不可能なので、 カテゴリごとの学習をせずこの水準に達する方法を試す (1/3)ユースケースと感情抽出(UCSE)の個別学習結果

Slide 17

Slide 17 text

17/24 いずれも7 Representative Categoriesの学習データを統合して学習 1. モデルは大きい方がよい 2. UCSE以外の関連タスクを含むマルチタスク学習をさせた方がよい 3. 追加学習させた方がよい (1/3)モデルを大きく、マルチタスク学習と追加学習でOK ↓前ページでの 理想の結果

Slide 18

Slide 18 text

18/24 Claude 2を活用し、2段階の階層型クラスタリングにより実施 1. まず粗い粒度でクラスタリング 2. 1の各クラスター内で 細かい粒度でクラスタリング (→は2段階目のプロンプト) 最終的にはカテゴリーマネージャーや プロダクトマネージャーの検証も 挟んで主要なユースケースを確定 (2/3)主要なユースケース(DU)特定

Slide 19

Slide 19 text

19/24 手法 ⚫KMeans ⚫LDA ⚫Claude 2 評価指標 ⚫クラスターの質評価:シルエットスコア ⚫ クラスター内は密集しているほどよく、クラスター同士は離れているほどよい、とする指標 ⚫ -1〜1 の範囲で、1 に近いほどクラスタリングの品質が高いことを示す ⚫クラスターの名前評価:コサイン類似度 ⚫ 名前とクラスターのエンティティとの類似度で評価 (2/3)主要なユースケース(DU)特定に用いる手法と評価指標

Slide 20

Slide 20 text

20/24 ⚫クラスターの質はClaude 2が最もよい ⚫クラスター名の質もClaude 2が最もよい ⚫ KMeansとLDAは最も言及のフレーズをクラスター名として割り当て、Claude 2は自動生成 (2/3)主要なユースケース(DU)特定の評価

Slide 21

Slide 21 text

21/24 1. 商品とDUのペアに対し、その商品に関する全レビューから、 そのDUに属するフレーズのポジティブ/ネガティブな言及を集計 2. ポジティブな言及の総数をポジティブ/ネガティブな言及の総数で割った比率を算出 3. 2のスコアに基づいて割り当て つまり、あるユースケースでよくポジティブに言及される商品は、 そのユースケースに向いているであろうという判断 (3/3)主要なユースケース(DU)のプロダクトへの割り当て

Slide 22

Slide 22 text

22/24 約2,500万件の顧客検索セッションを対象に、4週間のA/Bテストで評価 ⚫収益が改善 ⚫ 検索ページで +0.77%、閲覧ページで +0.94% 、製品詳細ページで +0.44% ⚫販売個数が改善 ⚫ 検索ページで +0.35%、閲覧ページで +0.51% 、製品詳細ページで +0.23% ⚫クリック率が改善 ⚫ 検索ページで +0.15% ユースケースに基づく推薦は収益、販売個数、クリック率を改善

Slide 23

Slide 23 text

まとめ

Slide 24

Slide 24 text

24/24 紹介した両論文は、単なるアイテムの提示に留まらず、 LLMを活用して商品に文脈を付与し、ユーザー体験の向上を目指していた ⚫SpotifyはLLMで拡充したメタデータの活用による「説明的本棚」を提案し、 エンゲージメントや発見率を改善 ⚫AmazonはLLMを活用してレビューからユースケースと感情の抽出、 主要ユースケースの特定、商品への割り当てによる、 「ユースケースに基づく推薦」を提案し、収益、販売個数、クリック率を改善 “どんなときに好き?”を組み込んだ推薦はユーザーにとって好ましいものかもしれない LLMを活用した推薦・ショッピング体験の文脈化は有望かも