Slide 1

Slide 1 text

論⽂紹介する⼈: 中野 優 https://sites.google.com/view/yu-nakano 図表は基本的に論⽂より引⽤ COSMO: A Large-Scale E-commerce Common Sense Knowledge Generation and Serving System at Amazon (SIGMOD 2024, Industrial Track) URL: https://dl.acm.org/doi/10.1145/3626246.3653398 公開版: https://www.amazon.science/publications/cosmo-a-large-scale-e-commerce-common-sense-knowledge-generation-and-serving-system-at-amazon

Slide 2

Slide 2 text

• 実システムへの適⽤に根ざした論⽂を募集する Track ◦ 新規性はそこまで求められないイメージ ◦ 最近のトップ国際会議だと併設されていることが多い Industrial Track ? 2 Track 名 ページ数 SIGIR SIRIP (Industry Track) 4 ページ RecSys Industry Track 2 ページ WSDM Industry Day Talk 2 ページ KDD Applied Data Science Track 8 ページ WebConf Industry Track 8 ページ SIGMOD Industrial Track 12 ページ 表: 関連学会の対応する Track とページ数 論⽂はおまけで 発表がメインっぽい 論⽂がフルペーパー と同じページ数

Slide 3

Slide 3 text

• 購買⾏動の意図を推定するための常識知識グラフを LLM で⼤規模に作ったよ by Amazon ◦ 「常識知識グラフを LLM で作る」という部分の新規性はない ◦ 実応⽤のためにより⼤規模かつ⾼品質にした部分が新規性 • 実応⽤先の 1 つでは年間数⼗億ドルの収益増相当の結果に ◦ 実際は⼀部のトラフィックにおける A/B テストで 0.7% の改善 それを全ユーザに展開した場合は年間数⼗億ドル⾒込みという話 ◦ そしてどうやって実装したの?という肝⼼な部分の詳細が書かれていない この論⽂がやったこと 3

Slide 4

Slide 4 text

• 購買⾏動の意図を推定するための常識知識グラフを LLM で⼤規模に作ったよ by Amazon ◦ 「常識知識グラフを LLM で作る」という部分の新規性はない ◦ 実応⽤のためにより⼤規模かつ⾼品質にした部分が新規性 • 実応⽤先の 1 つでは年間数⼗億ドルの収益増相当の結果に ◦ 実際は⼀部のトラフィックにおける A/B テストで 0.7% の改善 それを全ユーザに展開した場合は年間数⼗億ドル⾒込みという話 ◦ そしてどうやって実装したの?という肝⼼な部分の詳細が書かれていない😇 この論⽂がやったことの実際 4 こちらで発表済み: FolkScope: Intention Knowledge Graph Construction for E-commerce Commonsense Discovery (ACL 2023)

Slide 5

Slide 5 text

• 購買⾏動の意図を推定するための常識知識グラフを LLM で⼤規模に作ったよ by Amazon ◦ 「常識知識グラフを LLM で作る」という部分の新規性はない ◦ 実応⽤のためにより⼤規模かつ⾼品質にした部分が新規性 • 実応⽤先の 1 つでは年間数⼗億ドルの収益増相当の結果に ◦ 実際は⼀部のトラフィックにおける A/B テストで 0.7% の改善 それを全ユーザに展開した場合は年間数⼗億ドル⾒込みという話 ◦ そしてどうやって実装したの?という肝⼼な部分の詳細が書かれていない😇 この論⽂がやったことの実際 5 こいつは何者なのか???

Slide 6

Slide 6 text

商品の属性をベースとしたグラフ e-Commerce における知識グラフ 6 Figure From: All You Need to Know to Build a Product Knowledge Graph (KDD 2021 Tutorial) https://naixlee.github.io/Product_Knowledge_Graph_Tutorial_KDD2021/ ⾳楽では 曲名やアーティストなど 本では タイトルや著者名など 商品の持つ属性を グラフとして表現 応⽤先: 商品検索・推薦に組み込んで精度や解釈性を向上

Slide 7

Slide 7 text

No! ユーザの購⼊意図を理解する上では不⼗分 属性ベースの知識グラフで⼗分? 7 クエリ:「靴 妊婦」 購⼊ この購⼊意図は? なぜこの靴は購⼊された?

Slide 8

Slide 8 text

No! ユーザの購⼊意図を理解する上では不⼗分 属性ベースの知識グラフで⼗分? 8 クエリ:「靴 妊婦」 購⼊ これらは滑りにくい靴 なので購⼊された つまり「妊婦さんには転倒防⽌のために滑りにくい靴が必要」 という常識が購⼊意図の理解に必要

Slide 9

Slide 9 text

属性ベースの知識グラフで⼗分? 9 妊婦さんには転倒防⽌のために 滑りにくい靴が必要 スマートフォンは衝撃で壊れやすいので スマホケースが必要 のような常識は Commonsense Knowledge ⽇本の⾸都は東京 ⼈間は哺乳類 のような事実とは違って Factual Knowledge 常に成⽴するとは限らず 通常の知識グラフには 含まれないことが多い

Slide 10

Slide 10 text

代表的なもの: ConceptNet 常識知識グラフ(Commonsense Knowledge Graph) 10 From: https://conceptnet.io/c/ja/%E4%BA%BA%E9%96%93

Slide 11

Slide 11 text

FolkScope: EC 向け常識知識グラフ by Amazon 常識知識グラフ(Commonsense Knowledge Graph) 11 FolkScope: Intention Knowledge Graph Construction for E-commerce Commonsense Discovery (ACL 2023) 共同購⼊の⾏動ログから 購⼊意図を LLM で⽣成し 常識知識グラフを作成 推薦タスクに応⽤し性能向上 co-buy

Slide 12

Slide 12 text

課題: 規模と品質 FolkScope の課題 12 FolkScope ⾏動ログの種類 1 種類 co-buy ドメイン 2 個 品質向上の⼯夫 • MTurk での アノテーション • BERT などで スコア推定 ⾏動ログは 1 種類で ドメインも 2 種類のみと 規模が限定的 スマートウォッチを購⼊した意図を 「時計の⼀種だから」など 妥当性の低い意図を⽣成しがち + 推薦への応⽤ Clothing / Electronics co-buy

Slide 13

Slide 13 text

提案⼿法: COSMO 13 FolkScope 提案⼿法: COSMO ⾏動ログの種類 1 種類 co-buy 2 種類 co-buy / search-buy ドメイン 2 個 18 個 品質向上の⼯夫 • MTurk での アノテーション • BERT などで スコア推定 • スコアベースの 事前フィルタ • アノテーション会社に 依頼しアノテーション • BERT ベースの スコア推定 • Instruction Tuning ⼤規模化 ⾼品質化 + 推薦への応⽤ + Online Serving の⼯夫 + 検索/推薦への応⽤

Slide 14

Slide 14 text

知識グラフ作成の流れ 14 ① ⾏動ログから LLM で知識を⽣成 ② 複数の⽅法で アノテーション前に フィルタ ③ 複数観点でアノテーション + DeBERTa をファインチューニングしてフィルタ ④ アノテーションデータで Instruction Tuning

Slide 15

Slide 15 text

Online Serving 15 • 検索/推薦システムは レイテンシ要件が厳しい • リクエスト時の LLM ⽣成は 遅すぎてできない キャッシュを利⽤した⾼速化 キャッシュにヒットしなかった場合 • そのリクエストには LLM は不使⽤ • バッチで⽣成しキャッシュに格納 キャッシュにヒットした場合 • 格納された LLM の⽣成結果を使⽤ 実システムにおける LLM 適⽤の課題 このパターンは Taobao の LLM ベースのクエリ書き換えの論⽂にもあったので⽐較的汎⽤的かも? Large Language Model based Long-tail Query Rewriting in Taobao Search (WebConf 2024, Industry)

Slide 16

Slide 16 text

以下の 3 つの応⽤先で提案⼿法の有⽤性を検証 3 つの実応⽤ 16 結果の概要 ① リランキング 公開/⾮公開データでオフライン評価 公開データでの Macro F1 が最⼤ +27.8% ② セッションベース推薦 ⾮公開データでオフライン評価 Hits@10 が最⼤ +5.8% ③ 検索ナビゲーション 10 % のトラフィックで A/B テスト 0.7% の売上向上で年間数億ドル相当 全展開すれば年間数⼗億ドル(数千億円)に

Slide 17

Slide 17 text

以下の 3 つの応⽤先で提案⼿法の有⽤性を検証 3 つの実応⽤ 17 結果の概要 ① リランキング 公開/⾮公開データでオフライン評価 公開データでの Macro F1 が最⼤ +27.8% ② セッションベース推薦 ⾮公開データでオフライン評価 Hits@10 が最⼤ +5.8% ③ 検索ナビゲーション 10 % のトラフィックで A/B テスト 0.7% の売上向上で年間数億ドル相当 全展開すれば年間数⼗億ドル(数千億円)に (クエリ, 商品情報) を COSMO に⼊⼒し購⼊意図を⽣成 ⽣成結果をリランキング/推薦のモデルに利⽤

Slide 18

Slide 18 text

Amazon ESCI データセットで実験 応⽤先① リランキングタスク 18 図: 提案⼿法の適⽤⽅法 クエリ 商品情報 クエリ意図 (DeBERTa-v3-large) (クエリ, 商品情報) の ペアから⽣成した購⼊意図

Slide 19

Slide 19 text

Amazon ESCI データセットで実験 応⽤先① リランキングタスク 19 図: 提案⼿法の適⽤⽅法 クエリ 商品情報 クエリ意図 (DeBERTa-v3-large) 表: 公開データ (EN) での実験 提案⼿法が既存⼿法を⼤幅に改善 ⾮公開データ(4 カ国)でも同様に性能改善 オンライン評価(A/B テストはなし)

Slide 20

Slide 20 text

⾮公開データで実験 応⽤先② セッションベース推薦 20 提案⼿法 COSMO-GNN では 以下の 2 種の埋め込みを利⽤ 1. GCE-GNN の埋め込み 2. COSMO で⽣成した (セッション内クエリ, 商品) ペアの購⼊意図の埋め込み ほぼ全ての指標で性能向上したが 電⼦機器ドメインの MRR@10 のみ下がった 電⼦機器は⾐服より検索クエリが多様で 購⼊意図の推定が難しかった可能性を⽰唆

Slide 21

Slide 21 text

以下の 3 つの応⽤先で提案⼿法の有⽤性を検証 3 つの実応⽤ 21 結果の概要 ① リランキング 公開/⾮公開データでオフライン評価 公開データでの Macro F1 が最⼤ +27.8% ② セッションベース推薦 ⾮公開データでオフライン評価 Hits@10 が最⼤ +5.8% ③ 検索ナビゲーション 10 % のトラフィックで A/B テスト 0.7% の売上向上で年間数億ドル相当 全展開すれば年間数⼗億ドル(数千億円)に

Slide 22

Slide 22 text

検索ナビゲーションとは? 応⽤先③ 検索ナビゲーション 22 この論⽂では検索クエリに応じて 絞り込みのためキーワード群を表⽰すること ただ「検索ナビゲーション」と⾔ったときには Search Clarification や Faceted Search なども該当しそう? いわゆる Query Suggestion (≠ Query Auto-Completion) に近そう

Slide 23

Slide 23 text

検索ナビゲーションとは? 応⽤先③ 検索ナビゲーション 23 選択すると検索クエリに キーワードを追加して検索 さらにキーワードに応じて 新たなキーワード群を表⽰ (複数ターンのナビゲーション)

Slide 24

Slide 24 text

応⽤先③ 検索ナビゲーション 24 従来 検索結果の商品の属性をベースに表⽰ 提案 COSMO でクエリ意図に応じたキーワードを表⽰ outdoor activity car camping rv camping winter camping hiking camping … winter tent jetboil balaclava winter boots … 図: Figure 8 を元に作成した COSMO の知識 ただしここからどのように表⽰するキーワードを選択しているか?などの詳細不明 クエリ

Slide 25

Slide 25 text

COSMO ベースの検索ナビゲーションを A/B テストで検証 Amazon US の 10% のトラフィックを使って数ヶ⽉間実施 応⽤先③ 検索ナビゲーション 25 売上 ナビゲーションの エンゲージメント 相対的に 0.7% 向上 全トラフィックに展開した場合… 年間 数⼗億ドル(数千億円) 相対的に 8% 向上 →顧客のインタラクションと満⾜度増を⽰唆 の収益増相当

Slide 26

Slide 26 text

• 購買⾏動の意図を推定するための 常識知識グラフを LLM で⼤規模に 作った話 by Amazon • 実応⽤先の 1 つでは年間数⼗億ドルの 収益増相当の結果に まとめと所感 26 所感 Online Serving (Deployment) の話まで載っている点など, Industry Track 特有の⾯⽩さがあり,エンジニアとしてはかな り⾯⽩かった ⼀⽅で「〇〇をやりました!」で投げっぱなしな部分もあり, 詳細が気になるがわからない部分も割とあった点が少し残念 E コマースだと知識グラフや常識知識グラフは合っていそうだ が他ドメインだとどこまでうまく機能するのだろうか?という 点は気になる

Slide 27

Slide 27 text

No content

Slide 28

Slide 28 text

① ⾏動ログから LLM で知識を⽣成 28 search-buy の Capable_Of の意図⽣成プロンプト search-buy と co-buy の ログをサンプリング ↓ 質問応答ベースの プロンプトで意図を⽣成 LLM としては OPT157B / OPT30B を A100 GPU x 16 で利⽤

Slide 29

Slide 29 text

② 複数の⽅法での事前フィルタ 29 いくつかのルールでフィルタ • GPT-2 の perplexity を利⽤して不完全な⽂を除去 • クエリや商品タイトルなどと完全に⼀致するもの などを除去 • ⼀般的すぎるものを頻度やエントロピーで除去 クエリや商品情報との類似度が⾼すぎるものは これらの単なる⾔い換えであると考えて除去

Slide 30

Slide 30 text

③ アノテーション + DeBERTa の学習とフィルタ 30 知識の頻度と,クエリや商品の⼈気度で重み付きサンプリング ↓ ⽣成元の⾏動ログに対して,⽣成した購⼊意図が 以下の観点を満たすかを yes/no/not sure の 3 値で評価 complete, relevant, informative, plausible, typical ↓ アノテーションしたデータ 3 万件を⽤いて DeBERTa-large をファインチューニング ↓ DeBERTa-large で plausibility が 0.5 以下の知識を除去

Slide 31

Slide 31 text

④ アノテーションデータを利⽤して Instruction Tuning 31 表: アノテーションした知識が plausible / typical であると 判定された割合(⾏動種別ごと) LLM が⽣成した知識の品質があまり良くない 例えば co-buy から⽣成された知識のうち, typical であると判定された割合はたった 9.0% LLM がより⾼品質な知識を⽣成できるように アノテーションしたデータを⽤いて LLM の Instruction Tuning を実施 対象 LLM: LLaMA 7B/13B ↓