Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介: COSMO: A Large-Scale E-commerce Common Se...

論文紹介: COSMO: A Large-Scale E-commerce Common Sense Knowledge Generation and Serving System at Amazon (SIGMOD 2024)

IR Reading 2024 秋 での論文紹介に使用したスライドです.
https://sigirtokyo.github.io/post/2024-11-09-irreading_2024fall/

紹介した論文
COSMO: A Large-Scale E-commerce Common Sense Knowledge Generation and Serving System at Amazon (SIGMOD 2024, Industrial Track)

Yu Nakano / 中野優

November 08, 2024
Tweet

More Decks by Yu Nakano / 中野優

Other Decks in Research

Transcript

  1. 論⽂紹介する⼈: 中野 優 https://sites.google.com/view/yu-nakano 図表は基本的に論⽂より引⽤ COSMO: A Large-Scale E-commerce Common

    Sense Knowledge Generation and Serving System at Amazon (SIGMOD 2024, Industrial Track) URL: https://dl.acm.org/doi/10.1145/3626246.3653398 公開版: https://www.amazon.science/publications/cosmo-a-large-scale-e-commerce-common-sense-knowledge-generation-and-serving-system-at-amazon
  2. • 実システムへの適⽤に根ざした論⽂を募集する Track ◦ 新規性はそこまで求められないイメージ ◦ 最近のトップ国際会議だと併設されていることが多い Industrial Track ?

    2 Track 名 ページ数 SIGIR SIRIP (Industry Track) 4 ページ RecSys Industry Track 2 ページ WSDM Industry Day Talk 2 ページ KDD Applied Data Science Track 8 ページ WebConf Industry Track 8 ページ SIGMOD Industrial Track 12 ページ 表: 関連学会の対応する Track とページ数 論⽂はおまけで 発表がメインっぽい 論⽂がフルペーパー と同じページ数
  3. • 購買⾏動の意図を推定するための常識知識グラフを LLM で⼤規模に作ったよ by Amazon ◦ 「常識知識グラフを LLM で作る」という部分の新規性はない

    ◦ 実応⽤のためにより⼤規模かつ⾼品質にした部分が新規性 • 実応⽤先の 1 つでは年間数⼗億ドルの収益増相当の結果に ◦ 実際は⼀部のトラフィックにおける A/B テストで 0.7% の改善 それを全ユーザに展開した場合は年間数⼗億ドル⾒込みという話 ◦ そしてどうやって実装したの?という肝⼼な部分の詳細が書かれていない この論⽂がやったこと 3
  4. • 購買⾏動の意図を推定するための常識知識グラフを LLM で⼤規模に作ったよ by Amazon ◦ 「常識知識グラフを LLM で作る」という部分の新規性はない

    ◦ 実応⽤のためにより⼤規模かつ⾼品質にした部分が新規性 • 実応⽤先の 1 つでは年間数⼗億ドルの収益増相当の結果に ◦ 実際は⼀部のトラフィックにおける A/B テストで 0.7% の改善 それを全ユーザに展開した場合は年間数⼗億ドル⾒込みという話 ◦ そしてどうやって実装したの?という肝⼼な部分の詳細が書かれていない😇 この論⽂がやったことの実際 4 こちらで発表済み: FolkScope: Intention Knowledge Graph Construction for E-commerce Commonsense Discovery (ACL 2023)
  5. • 購買⾏動の意図を推定するための常識知識グラフを LLM で⼤規模に作ったよ by Amazon ◦ 「常識知識グラフを LLM で作る」という部分の新規性はない

    ◦ 実応⽤のためにより⼤規模かつ⾼品質にした部分が新規性 • 実応⽤先の 1 つでは年間数⼗億ドルの収益増相当の結果に ◦ 実際は⼀部のトラフィックにおける A/B テストで 0.7% の改善 それを全ユーザに展開した場合は年間数⼗億ドル⾒込みという話 ◦ そしてどうやって実装したの?という肝⼼な部分の詳細が書かれていない😇 この論⽂がやったことの実際 5 こいつは何者なのか???
  6. 商品の属性をベースとしたグラフ e-Commerce における知識グラフ 6 Figure From: All You Need to

    Know to Build a Product Knowledge Graph (KDD 2021 Tutorial) https://naixlee.github.io/Product_Knowledge_Graph_Tutorial_KDD2021/ ⾳楽では 曲名やアーティストなど 本では タイトルや著者名など 商品の持つ属性を グラフとして表現 応⽤先: 商品検索・推薦に組み込んで精度や解釈性を向上
  7. FolkScope: EC 向け常識知識グラフ by Amazon 常識知識グラフ(Commonsense Knowledge Graph) 11 FolkScope:

    Intention Knowledge Graph Construction for E-commerce Commonsense Discovery (ACL 2023) 共同購⼊の⾏動ログから 購⼊意図を LLM で⽣成し 常識知識グラフを作成 推薦タスクに応⽤し性能向上 co-buy
  8. 課題: 規模と品質 FolkScope の課題 12 FolkScope ⾏動ログの種類 1 種類 co-buy

    ドメイン 2 個 品質向上の⼯夫 • MTurk での アノテーション • BERT などで スコア推定 ⾏動ログは 1 種類で ドメインも 2 種類のみと 規模が限定的 スマートウォッチを購⼊した意図を 「時計の⼀種だから」など 妥当性の低い意図を⽣成しがち + 推薦への応⽤ Clothing / Electronics co-buy
  9. 提案⼿法: COSMO 13 FolkScope 提案⼿法: COSMO ⾏動ログの種類 1 種類 co-buy

    2 種類 co-buy / search-buy ドメイン 2 個 18 個 品質向上の⼯夫 • MTurk での アノテーション • BERT などで スコア推定 • スコアベースの 事前フィルタ • アノテーション会社に 依頼しアノテーション • BERT ベースの スコア推定 • Instruction Tuning ⼤規模化 ⾼品質化 + 推薦への応⽤ + Online Serving の⼯夫 + 検索/推薦への応⽤
  10. 知識グラフ作成の流れ 14 ① ⾏動ログから LLM で知識を⽣成 ② 複数の⽅法で アノテーション前に フィルタ

    ③ 複数観点でアノテーション + DeBERTa をファインチューニングしてフィルタ ④ アノテーションデータで Instruction Tuning
  11. Online Serving 15 • 検索/推薦システムは レイテンシ要件が厳しい • リクエスト時の LLM ⽣成は

    遅すぎてできない キャッシュを利⽤した⾼速化 キャッシュにヒットしなかった場合 • そのリクエストには LLM は不使⽤ • バッチで⽣成しキャッシュに格納 キャッシュにヒットした場合 • 格納された LLM の⽣成結果を使⽤ 実システムにおける LLM 適⽤の課題 このパターンは Taobao の LLM ベースのクエリ書き換えの論⽂にもあったので⽐較的汎⽤的かも? Large Language Model based Long-tail Query Rewriting in Taobao Search (WebConf 2024, Industry)
  12. 以下の 3 つの応⽤先で提案⼿法の有⽤性を検証 3 つの実応⽤ 16 結果の概要 ① リランキング 公開/⾮公開データでオフライン評価

    公開データでの Macro F1 が最⼤ +27.8% ② セッションベース推薦 ⾮公開データでオフライン評価 Hits@10 が最⼤ +5.8% ③ 検索ナビゲーション 10 % のトラフィックで A/B テスト 0.7% の売上向上で年間数億ドル相当 全展開すれば年間数⼗億ドル(数千億円)に
  13. 以下の 3 つの応⽤先で提案⼿法の有⽤性を検証 3 つの実応⽤ 17 結果の概要 ① リランキング 公開/⾮公開データでオフライン評価

    公開データでの Macro F1 が最⼤ +27.8% ② セッションベース推薦 ⾮公開データでオフライン評価 Hits@10 が最⼤ +5.8% ③ 検索ナビゲーション 10 % のトラフィックで A/B テスト 0.7% の売上向上で年間数億ドル相当 全展開すれば年間数⼗億ドル(数千億円)に (クエリ, 商品情報) を COSMO に⼊⼒し購⼊意図を⽣成 ⽣成結果をリランキング/推薦のモデルに利⽤
  14. Amazon ESCI データセットで実験 応⽤先① リランキングタスク 18 図: 提案⼿法の適⽤⽅法 クエリ 商品情報

    クエリ意図 (DeBERTa-v3-large) (クエリ, 商品情報) の ペアから⽣成した購⼊意図
  15. Amazon ESCI データセットで実験 応⽤先① リランキングタスク 19 図: 提案⼿法の適⽤⽅法 クエリ 商品情報

    クエリ意図 (DeBERTa-v3-large) 表: 公開データ (EN) での実験 提案⼿法が既存⼿法を⼤幅に改善 ⾮公開データ(4 カ国)でも同様に性能改善 オンライン評価(A/B テストはなし)
  16. ⾮公開データで実験 応⽤先② セッションベース推薦 20 提案⼿法 COSMO-GNN では 以下の 2 種の埋め込みを利⽤

    1. GCE-GNN の埋め込み 2. COSMO で⽣成した (セッション内クエリ, 商品) ペアの購⼊意図の埋め込み ほぼ全ての指標で性能向上したが 電⼦機器ドメインの MRR@10 のみ下がった 電⼦機器は⾐服より検索クエリが多様で 購⼊意図の推定が難しかった可能性を⽰唆
  17. 以下の 3 つの応⽤先で提案⼿法の有⽤性を検証 3 つの実応⽤ 21 結果の概要 ① リランキング 公開/⾮公開データでオフライン評価

    公開データでの Macro F1 が最⼤ +27.8% ② セッションベース推薦 ⾮公開データでオフライン評価 Hits@10 が最⼤ +5.8% ③ 検索ナビゲーション 10 % のトラフィックで A/B テスト 0.7% の売上向上で年間数億ドル相当 全展開すれば年間数⼗億ドル(数千億円)に
  18. 応⽤先③ 検索ナビゲーション 24 従来 検索結果の商品の属性をベースに表⽰ 提案 COSMO でクエリ意図に応じたキーワードを表⽰ outdoor activity

    car camping rv camping winter camping hiking camping … winter tent jetboil balaclava winter boots … 図: Figure 8 を元に作成した COSMO の知識 ただしここからどのように表⽰するキーワードを選択しているか?などの詳細不明 クエリ
  19. COSMO ベースの検索ナビゲーションを A/B テストで検証 Amazon US の 10% のトラフィックを使って数ヶ⽉間実施 応⽤先③

    検索ナビゲーション 25 売上 ナビゲーションの エンゲージメント 相対的に 0.7% 向上 全トラフィックに展開した場合… 年間 数⼗億ドル(数千億円) 相対的に 8% 向上 →顧客のインタラクションと満⾜度増を⽰唆 の収益増相当
  20. • 購買⾏動の意図を推定するための 常識知識グラフを LLM で⼤規模に 作った話 by Amazon • 実応⽤先の

    1 つでは年間数⼗億ドルの 収益増相当の結果に まとめと所感 26 所感 Online Serving (Deployment) の話まで載っている点など, Industry Track 特有の⾯⽩さがあり,エンジニアとしてはかな り⾯⽩かった ⼀⽅で「〇〇をやりました!」で投げっぱなしな部分もあり, 詳細が気になるがわからない部分も割とあった点が少し残念 E コマースだと知識グラフや常識知識グラフは合っていそうだ が他ドメインだとどこまでうまく機能するのだろうか?という 点は気になる
  21. ① ⾏動ログから LLM で知識を⽣成 28 search-buy の Capable_Of の意図⽣成プロンプト search-buy

    と co-buy の ログをサンプリング ↓ 質問応答ベースの プロンプトで意図を⽣成 LLM としては OPT157B / OPT30B を A100 GPU x 16 で利⽤
  22. ② 複数の⽅法での事前フィルタ 29 いくつかのルールでフィルタ • GPT-2 の perplexity を利⽤して不完全な⽂を除去 •

    クエリや商品タイトルなどと完全に⼀致するもの などを除去 • ⼀般的すぎるものを頻度やエントロピーで除去 クエリや商品情報との類似度が⾼すぎるものは これらの単なる⾔い換えであると考えて除去
  23. ③ アノテーション + DeBERTa の学習とフィルタ 30 知識の頻度と,クエリや商品の⼈気度で重み付きサンプリング ↓ ⽣成元の⾏動ログに対して,⽣成した購⼊意図が 以下の観点を満たすかを

    yes/no/not sure の 3 値で評価 complete, relevant, informative, plausible, typical ↓ アノテーションしたデータ 3 万件を⽤いて DeBERTa-large をファインチューニング ↓ DeBERTa-large で plausibility が 0.5 以下の知識を除去
  24. ④ アノテーションデータを利⽤して Instruction Tuning 31 表: アノテーションした知識が plausible / typical

    であると 判定された割合(⾏動種別ごと) LLM が⽣成した知識の品質があまり良くない 例えば co-buy から⽣成された知識のうち, typical であると判定された割合はたった 9.0% LLM がより⾼品質な知識を⽣成できるように アノテーションしたデータを⽤いて LLM の Instruction Tuning を実施 対象 LLM: LLaMA 7B/13B ↓