Slide 1

Slide 1 text

© 2023 Wantedly, Inc. 論文紹介: How to Index Item IDs for Recommendation Foundation Models ウォンテッドリー社内勉強会~推薦論文読み会~ Nov. 22 2023 - @nogawanogawa Wenyue Hua, Shuyuan Xu, Yingqiang Ge, Yongfeng Zhang SIGIR-AP 2023 https://arxiv.org/abs/2305.06569

Slide 2

Slide 2 text

tl;dr; © 2023 Wantedly, Inc. ● 生成的推薦(Generative Recommendation)で有効そうな4種類のItem id作成手法 を考案 1. Sequential Indexing 2. Collaborative Indexing 3. Semantic (Content-based) Indexing 4. Hybrid Indexing ● これら単体 (もしくはこれらの組み合わせ)を使用することで生成的推薦によって従来の推 薦手法より高い性能が得られる

Slide 3

Slide 3 text

How to Index Item IDs for Recommendation Foundation Models © 2023 Wantedly, Inc.

Slide 4

Slide 4 text

背景: Generative Recommendation © 2023 Wantedly, Inc. ● 言語モデルにプロンプトを与えることで推薦結果を作成するパラダイム ○ 様々なタスクを単一のモデルで対応することができるメリットがある ■ 例: P5 ※P5に関してはRecSys2022論文読み会 でも紹介されています。日本語資料は こち ら

Slide 5

Slide 5 text

背景: 出力の柔軟性の弊害 © 2023 Wantedly, Inc. ● 生成的推薦では言語モデルがitem idを生成する ○ ランダムなitem idは推薦の質の低下やハルシネーションを誘発する恐れがある Output: location_1934 According to the places user_1 has visited: location_1123, location_4332, location_8463, location_12312, can you recommend another place for the user? idに情報が少ないと推論 時に検討違いの出力を誘 発する (最悪存在しないidを生成 する)

Slide 6

Slide 6 text

背景: 出力の制限とLLMの柔軟性とのトレードオフ © 2023 Wantedly, Inc. ● とはいえ、idを機械的に制限するのはLLMを使うメリットを阻害する ○ モデルに特定の記述パターンを守らせることはモデルはレコメンデーション固有の知識に 加えて、硬直したテキストパターンを記憶することを要求される その細かい生成のルールを学習するくらい なら、もっとLLMが識別・表現しやすい idな ら良いのでは? idは〇〇桁 xxの状況のときはidは〜

Slide 7

Slide 7 text

目的とアプローチ © 2023 Wantedly, Inc. - 背景 - 生成的推薦でのid設計において、検討違いの出力のリスクとLLMの柔軟性がトレードオフ の関係 - 目的 - 生成的推薦において効果的なidの作成方法の考案 - アプローチ - 4種類のitem_id作成手法によって生成的推薦を行う際に idに意味をもたせる 1. Sequential Indexing 2. Collaborative Indexing 3. Semantic (Content-based) Indexing 4. Hybrid Indexing

Slide 8

Slide 8 text

テキスト生成による推薦 © 2023 Wantedly, Inc. - 言語モデルにプロンプトを与えることで推薦結果を作成する - 与える情報は3種類 - 入力テンプレート - モデルへの主な入力 - ターゲットテンプレート - どんな形式で応答してほしいか - 関連するメタデータ - 推薦するに当たっての前提情報

Slide 9

Slide 9 text

Item idを作る際のポイント © 2023 Wantedly, Inc. - Itemを一意に識別できること - これが大前提 - 逆に、識別できれば数字の羅列である必要はない (原理的には任意の文字列で問題ない) その上で… - 適度な長さ - 長すぎず、短すぎず - テキスト生成が困難でないように、かつ表現力が高い - 同じ最大トークン数 - 特定のアイテムのidだけが長すぎたりするのはダメ - 類似アイテムの表現性 - 類似アイテムほど共通するトークンを多く持つようになっている

Slide 10

Slide 10 text

Item IDのよくある生成手法 © 2023 Wantedly, Inc. - RID (Random) - アイテムを識別できるようにランダムに IDを割り当てる →意図せずアイテムが似てしまったり、似なかったりしてしまう - TID (Title) - タイトルをIDとして利用する - タイトルの生成は一般に難しく、また一部の tokenは意味を持たない場合もある - “lord of the ring” / “lord of the war” → 字面は似ているがジャンルも内容も大きく異なる - IID (独立) - prefixなど(IID_1234)の記号をつけることで独立にする - 固有のIDは振れるが、それでもあんまり Randomと変わらない 類似アイテムの表現性が乏しい 🤔

Slide 11

Slide 11 text

提案手法①: Sequential Indexing © 2023 Wantedly, Inc. - ランダムなidで意図せずidが似る/似ない事象を回避するために、ユーザーのインタラクションの系列情報 をidに持たせる - インタラクションした順に idを割り当てる - 過去登場したアイテムには同じ idを割り当てる →同じユーザーがインタラクションしたアイテムほど idが近くなりやすい

Slide 12

Slide 12 text

提案手法②: Collaborative Indexing © 2023 Wantedly, Inc. - idに協調フィルタリングの情報を持たせるために、スペクトル行列分解の情報を idに持たせる - 共起度をエッジに持つグラフ構造を作り、 scikit-learnのスペクトルクラスタリングによってクラスタリン グ(左図) - 再帰的にクラスタリングを行い、クラスタの IDのつなぎ合わせをアイテムの idとする(右図)

Slide 13

Slide 13 text

提案手法③: Semantic (Content-based) Indexing © 2023 Wantedly, Inc. - アイテムのコンテンツ情報を idに持たせるために、タクソノミーに基づいたカテゴリ情報を付与

Slide 14

Slide 14 text

提案手法④: Hybrid Indexing © 2023 Wantedly, Inc. - 複数の手法の組み合わせ - id作成の手法は排他的ではなく、それぞれ組み合わせて使用することができる SID IID + CID IID + 単純に末尾に結合 CIDの末尾のトークンを 除去してIIDを結合 SemID CID + どちらかの末尾のトーク ンを削除し、結合

Slide 15

Slide 15 text

性能評価 © 2023 Wantedly, Inc. - 実験方法 - P5 + Index (提案手法)の性能を他の手法と比較して評価 - 実験タスク - Sequential recommendation - Dataset - Amazon Sports - Amazon Beauty - Yelp - 比較対象 - Caser - HGN - GRU4Rec - BERT4Rec - FSDA - SASRec - S3-Rec

Slide 16

Slide 16 text

性能評価 © 2023 Wantedly, Inc. - 提案手法で作ったIDを使用することでSequential Recommendation系の先行研究よりHR, NDCGが向上 baseline 従来のid 提案手 法 Hybrid

Slide 17

Slide 17 text

性能評価 © 2023 Wantedly, Inc. - Sequential IDはid作成時のUserの順序が重要? - 時間的に早いシーケンスから順に idを振っていくのが最も性能が良かった - Time-Sensitive > {Long-to-Short, Short-to-Long} > Random この順番が 影響する?

Slide 18

Slide 18 text

性能評価 © 2023 Wantedly, Inc. - Collaborative IDの各階層のクラスタ数( N)と最終クラスタに許容されるアイテムの最大数( k)はどれくらい が良いか? - kは100よりは大きいくらいで性能が急に高まる - この設定で行うとおおよそ IDのトークン長は3~4が最適になっていた

Slide 19

Slide 19 text

性能評価 © 2023 Wantedly, Inc. - Semantic IDは効く? - カテゴリ情報が階層構造に近いときほどモデルの性能は向上する

Slide 20

Slide 20 text

まとめ © 2023 Wantedly, Inc. ● 背景 ○ 生成的推薦でのID設計において、検討違いの出力のリスクとLLMの柔軟性がトレード オフの関係 ● 目的 ○ 生成的推薦において効果的なidの作成方法の考案 ● アプローチ ○ 4種類のitem_id作成手法によって生成的推薦を行う際に idに意味をもたせる 1. Sequential Indexing 2. Collaborative Indexing 3. Semantic (Content-based) Indexing 4. Hybrid Indexing ● 評価 ○ 提案手法で作ったIDを使用することでSequential Recommendation系の先行研究よ りHR・NDCGが向上

Slide 21

Slide 21 text

告知 (重要) © 2023 Wantedly, Inc. ● どうやら生成的推薦(に関連するもの)を実際に使ってみたブログが投下されるアドベ ントカレンダーがあるとかないとか ... ● 他にもDSからブログが投下されるカレンダーがあるとかないとか … ● Wantedlyのカレンダー | Advent Calendar 2023 - Qiita