How to Index Item IDs for Recommendation Foundation Models

© 2023 Wantedly, Inc. 論文紹介: How to Index Item IDs
for Recommendation Foundation Models ウォンテッドリー社内勉強会~推薦論文読み会~ Nov. 22 2023 - @nogawanogawa Wenyue Hua, Shuyuan Xu, Yingqiang Ge, Yongfeng Zhang SIGIR-AP 2023 https://arxiv.org/abs/2305.06569

tl;dr; © 2023 Wantedly, Inc. • 生成的推薦（Generative Recommendation）で有効そうな4種類のItem id作成手法を考案
1. Sequential Indexing 2. Collaborative Indexing 3. Semantic (Content-based) Indexing 4. Hybrid Indexing • これら単体 (もしくはこれらの組み合わせ)を使用することで生成的推薦によって従来の推薦手法より高い性能が得られる

How to Index Item IDs for Recommendation Foundation Models ©
2023 Wantedly, Inc.

背景: Generative Recommendation © 2023 Wantedly, Inc. • 言語モデルにプロンプトを与えることで推薦結果を作成するパラダイム ◦
様々なタスクを単一のモデルで対応することができるメリットがある ▪ 例: P5 ※P5に関してはRecSys2022論文読み会でも紹介されています。日本語資料はこちら

背景: 出力の柔軟性の弊害 © 2023 Wantedly, Inc. • 生成的推薦では言語モデルがitem idを生成する ◦
ランダムなitem idは推薦の質の低下やハルシネーションを誘発する恐れがある Output: location_1934 According to the places user_1 has visited: location_1123, location_4332, location_8463, location_12312, can you recommend another place for the user? idに情報が少ないと推論時に検討違いの出力を誘発する (最悪存在しないidを生成する)

背景: 出力の制限とLLMの柔軟性とのトレードオフ © 2023 Wantedly, Inc. • とはいえ、idを機械的に制限するのはLLMを使うメリットを阻害する ◦ モデルに特定の記述パターンを守らせることはモデルはレコメンデーション固有の知識に
加えて、硬直したテキストパターンを記憶することを要求されるその細かい生成のルールを学習するくらいなら、もっとLLMが識別・表現しやすい idなら良いのでは？ idは〇〇桁 xxの状況のときはidは〜

目的とアプローチ © 2023 Wantedly, Inc. - 背景 - 生成的推薦でのid設計において、検討違いの出力のリスクとLLMの柔軟性がトレードオフの関係
- 目的 - 生成的推薦において効果的なidの作成方法の考案 - アプローチ - 4種類のitem_id作成手法によって生成的推薦を行う際に idに意味をもたせる 1. Sequential Indexing 2. Collaborative Indexing 3. Semantic (Content-based) Indexing 4. Hybrid Indexing

テキスト生成による推薦 © 2023 Wantedly, Inc. - 言語モデルにプロンプトを与えることで推薦結果を作成する - 与える情報は3種類 -
入力テンプレート - モデルへの主な入力 - ターゲットテンプレート - どんな形式で応答してほしいか - 関連するメタデータ - 推薦するに当たっての前提情報

Item idを作る際のポイント © 2023 Wantedly, Inc. - Itemを一意に識別できること - これが大前提
- 逆に、識別できれば数字の羅列である必要はない（原理的には任意の文字列で問題ない）その上で… - 適度な長さ - 長すぎず、短すぎず - テキスト生成が困難でないように、かつ表現力が高い - 同じ最大トークン数 - 特定のアイテムのidだけが長すぎたりするのはダメ - 類似アイテムの表現性 - 類似アイテムほど共通するトークンを多く持つようになっている

Item IDのよくある生成手法 © 2023 Wantedly, Inc. - RID (Random) -
アイテムを識別できるようにランダムに IDを割り当てる →意図せずアイテムが似てしまったり、似なかったりしてしまう - TID (Title) - タイトルをIDとして利用する - タイトルの生成は一般に難しく、また一部の tokenは意味を持たない場合もある - “lord of the ring” / “lord of the war” → 字面は似ているがジャンルも内容も大きく異なる - IID (独立) - prefixなど（IID_1234）の記号をつけることで独立にする - 固有のIDは振れるが、それでもあんまり Randomと変わらない類似アイテムの表現性が乏しい 🤔

提案手法①: Sequential Indexing © 2023 Wantedly, Inc. - ランダムなidで意図せずidが似る/似ない事象を回避するために、ユーザーのインタラクションの系列情報をidに持たせる
- インタラクションした順に idを割り当てる - 過去登場したアイテムには同じ idを割り当てる →同じユーザーがインタラクションしたアイテムほど idが近くなりやすい

提案手法②: Collaborative Indexing © 2023 Wantedly, Inc. - idに協調フィルタリングの情報を持たせるために、スペクトル行列分解の情報を idに持たせる
- 共起度をエッジに持つグラフ構造を作り、 scikit-learnのスペクトルクラスタリングによってクラスタリング（左図） - 再帰的にクラスタリングを行い、クラスタの IDのつなぎ合わせをアイテムの idとする（右図）

提案手法③: Semantic (Content-based) Indexing © 2023 Wantedly, Inc. - アイテムのコンテンツ情報を
idに持たせるために、タクソノミーに基づいたカテゴリ情報を付与

提案手法④: Hybrid Indexing © 2023 Wantedly, Inc. - 複数の手法の組み合わせ -
id作成の手法は排他的ではなく、それぞれ組み合わせて使用することができる SID IID + CID IID + 単純に末尾に結合 CIDの末尾のトークンを除去してIIDを結合 SemID CID + どちらかの末尾のトークンを削除し、結合

性能評価 © 2023 Wantedly, Inc. - 実験方法 - P5 +
Index (提案手法)の性能を他の手法と比較して評価 - 実験タスク - Sequential recommendation - Dataset - Amazon Sports - Amazon Beauty - Yelp - 比較対象 - Caser - HGN - GRU4Rec - BERT4Rec - FSDA - SASRec - S3-Rec

性能評価 © 2023 Wantedly, Inc. - Sequential IDはid作成時のUserの順序が重要？ - 時間的に早いシーケンスから順に
idを振っていくのが最も性能が良かった - Time-Sensitive > {Long-to-Short, Short-to-Long} > Random この順番が影響する？

性能評価 © 2023 Wantedly, Inc. - Collaborative IDの各階層のクラスタ数（ N）と最終クラスタに許容されるアイテムの最大数（ k）はどれくらい
が良いか？ - kは100よりは大きいくらいで性能が急に高まる - この設定で行うとおおよそ IDのトークン長は3~4が最適になっていた

まとめ © 2023 Wantedly, Inc. • 背景 ◦ 生成的推薦でのID設計において、検討違いの出力のリスクとLLMの柔軟性がトレードオフの関係
• 目的 ◦ 生成的推薦において効果的なidの作成方法の考案 • アプローチ ◦ 4種類のitem_id作成手法によって生成的推薦を行う際に idに意味をもたせる 1. Sequential Indexing 2. Collaborative Indexing 3. Semantic (Content-based) Indexing 4. Hybrid Indexing • 評価 ◦ 提案手法で作ったIDを使用することでSequential Recommendation系の先行研究よりHR・NDCGが向上

告知 (重要) © 2023 Wantedly, Inc. • どうやら生成的推薦（に関連するもの）を実際に使ってみたブログが投下されるアドベントカレンダーがあるとかないとか ...
• 他にもDSからブログが投下されるカレンダーがあるとかないとか … • Wantedlyのカレンダー | Advent Calendar 2023 - Qiita

How to Index Item IDs for Recommendation Founda...

How to Index Item IDs for Recommendation Foundation Models

nogawanogawa

More Decks by nogawanogawa

Featured

Transcript

© 2023 Wantedly, Inc. 論文紹介: How to Index Item IDs

tl;dr; © 2023 Wantedly, Inc. • 生成的推薦（Generative Recommendation）で有効そうな4種類のItem id作成手法を考案

How to Index Item IDs for Recommendation Foundation Models ©

背景: Generative Recommendation © 2023 Wantedly, Inc. • 言語モデルにプロンプトを与えることで推薦結果を作成するパラダイム ◦

背景: 出力の柔軟性の弊害 © 2023 Wantedly, Inc. • 生成的推薦では言語モデルがitem idを生成する ◦

目的とアプローチ © 2023 Wantedly, Inc. - 背景 - 生成的推薦でのid設計において、検討違いの出力のリスクとLLMの柔軟性がトレードオフの関係

テキスト生成による推薦 © 2023 Wantedly, Inc. - 言語モデルにプロンプトを与えることで推薦結果を作成する - 与える情報は3種類 -

Item idを作る際のポイント © 2023 Wantedly, Inc. - Itemを一意に識別できること - これが大前提

Item IDのよくある生成手法 © 2023 Wantedly, Inc. - RID (Random) -

提案手法①: Sequential Indexing © 2023 Wantedly, Inc. - ランダムなidで意図せずidが似る/似ない事象を回避するために、ユーザーのインタラクションの系列情報をidに持たせる

提案手法②: Collaborative Indexing © 2023 Wantedly, Inc. - idに協調フィルタリングの情報を持たせるために、スペクトル行列分解の情報を idに持たせる

提案手法③: Semantic (Content-based) Indexing © 2023 Wantedly, Inc. - アイテムのコンテンツ情報を

提案手法④: Hybrid Indexing © 2023 Wantedly, Inc. - 複数の手法の組み合わせ -

性能評価 © 2023 Wantedly, Inc. - 実験方法 - P5 +

性能評価 © 2023 Wantedly, Inc. - 提案手法で作ったIDを使用することでSequential Recommendation系の先行研究よりHR, NDCGが向上 baseline

性能評価 © 2023 Wantedly, Inc. - Sequential IDはid作成時のUserの順序が重要？ - 時間的に早いシーケンスから順に

性能評価 © 2023 Wantedly, Inc. - Collaborative IDの各階層のクラスタ数（ N）と最終クラスタに許容されるアイテムの最大数（ k）はどれくらい

性能評価 © 2023 Wantedly, Inc. - Semantic IDは効く？ - カテゴリ情報が階層構造に近いときほどモデルの性能は向上する

まとめ © 2023 Wantedly, Inc. • 背景 ◦ 生成的推薦でのID設計において、検討違いの出力のリスクとLLMの柔軟性がトレードオフの関係

告知 (重要) © 2023 Wantedly, Inc. • どうやら生成的推薦（に関連するもの）を実際に使ってみたブログが投下されるアドベントカレンダーがあるとかないとか ...