Upgrade to Pro — share decks privately, control downloads, hide ads and more …

How to Index Item IDs for Recommendation Foundation Models

nogawanogawa
November 21, 2023
270

How to Index Item IDs for Recommendation Foundation Models

nogawanogawa

November 21, 2023
Tweet

Transcript

  1. © 2023 Wantedly, Inc.
    論文紹介: How to Index Item IDs for Recommendation
    Foundation Models
    ウォンテッドリー社内勉強会~推薦論文読み会~
    Nov. 22 2023 - @nogawanogawa
    Wenyue Hua, Shuyuan Xu, Yingqiang Ge, Yongfeng Zhang
    SIGIR-AP 2023
    https://arxiv.org/abs/2305.06569

    View full-size slide

  2. tl;dr;
    © 2023 Wantedly, Inc.
    ● 生成的推薦(Generative Recommendation)で有効そうな4種類のItem id作成手法
    を考案
    1. Sequential Indexing
    2. Collaborative Indexing
    3. Semantic (Content-based) Indexing
    4. Hybrid Indexing
    ● これら単体 (もしくはこれらの組み合わせ)を使用することで生成的推薦によって従来の推
    薦手法より高い性能が得られる

    View full-size slide

  3. How to Index Item IDs for Recommendation
    Foundation Models
    © 2023 Wantedly, Inc.

    View full-size slide

  4. 背景: Generative Recommendation
    © 2023 Wantedly, Inc.
    ● 言語モデルにプロンプトを与えることで推薦結果を作成するパラダイム
    ○ 様々なタスクを単一のモデルで対応することができるメリットがある
    ■ 例: P5
    ※P5に関してはRecSys2022論文読み会
    でも紹介されています。日本語資料は こち

    View full-size slide

  5. 背景: 出力の柔軟性の弊害
    © 2023 Wantedly, Inc.
    ● 生成的推薦では言語モデルがitem idを生成する
    ○ ランダムなitem idは推薦の質の低下やハルシネーションを誘発する恐れがある
    Output: location_1934
    According to the places user_1 has visited:
    location_1123, location_4332, location_8463,
    location_12312, can you recommend another
    place for the user?
    idに情報が少ないと推論
    時に検討違いの出力を誘
    発する
    (最悪存在しないidを生成
    する)

    View full-size slide

  6. 背景: 出力の制限とLLMの柔軟性とのトレードオフ
    © 2023 Wantedly, Inc.
    ● とはいえ、idを機械的に制限するのはLLMを使うメリットを阻害する
    ○ モデルに特定の記述パターンを守らせることはモデルはレコメンデーション固有の知識に
    加えて、硬直したテキストパターンを記憶することを要求される
    その細かい生成のルールを学習するくらい
    なら、もっとLLMが識別・表現しやすい idな
    ら良いのでは?
    idは〇〇桁
    xxの状況のときはidは〜

    View full-size slide

  7. 目的とアプローチ
    © 2023 Wantedly, Inc.
    - 背景
    - 生成的推薦でのid設計において、検討違いの出力のリスクとLLMの柔軟性がトレードオフ
    の関係
    - 目的
    - 生成的推薦において効果的なidの作成方法の考案
    - アプローチ
    - 4種類のitem_id作成手法によって生成的推薦を行う際に
    idに意味をもたせる
    1. Sequential Indexing
    2. Collaborative Indexing
    3. Semantic (Content-based) Indexing
    4. Hybrid Indexing

    View full-size slide

  8. テキスト生成による推薦
    © 2023 Wantedly, Inc.
    - 言語モデルにプロンプトを与えることで推薦結果を作成する
    - 与える情報は3種類
    - 入力テンプレート
    - モデルへの主な入力
    - ターゲットテンプレート
    - どんな形式で応答してほしいか
    - 関連するメタデータ
    - 推薦するに当たっての前提情報

    View full-size slide

  9. Item idを作る際のポイント
    © 2023 Wantedly, Inc.
    - Itemを一意に識別できること
    - これが大前提
    - 逆に、識別できれば数字の羅列である必要はない
    (原理的には任意の文字列で問題ない)
    その上で…
    - 適度な長さ
    - 長すぎず、短すぎず
    - テキスト生成が困難でないように、かつ表現力が高い
    - 同じ最大トークン数
    - 特定のアイテムのidだけが長すぎたりするのはダメ
    - 類似アイテムの表現性
    - 類似アイテムほど共通するトークンを多く持つようになっている

    View full-size slide

  10. Item IDのよくある生成手法
    © 2023 Wantedly, Inc.
    - RID (Random)
    - アイテムを識別できるようにランダムに IDを割り当てる
    →意図せずアイテムが似てしまったり、似なかったりしてしまう
    - TID (Title)
    - タイトルをIDとして利用する
    - タイトルの生成は一般に難しく、また一部の tokenは意味を持たない場合もある
    - “lord of the ring” / “lord of the war” → 字面は似ているがジャンルも内容も大きく異なる
    - IID (独立)
    - prefixなど(IID_1234)の記号をつけることで独立にする
    - 固有のIDは振れるが、それでもあんまり Randomと変わらない
    類似アイテムの表現性が乏しい 🤔

    View full-size slide

  11. 提案手法①: Sequential Indexing
    © 2023 Wantedly, Inc.
    - ランダムなidで意図せずidが似る/似ない事象を回避するために、ユーザーのインタラクションの系列情報
    をidに持たせる
    - インタラクションした順に idを割り当てる
    - 過去登場したアイテムには同じ idを割り当てる
    →同じユーザーがインタラクションしたアイテムほど idが近くなりやすい

    View full-size slide

  12. 提案手法②: Collaborative Indexing
    © 2023 Wantedly, Inc.
    - idに協調フィルタリングの情報を持たせるために、スペクトル行列分解の情報を idに持たせる
    - 共起度をエッジに持つグラフ構造を作り、 scikit-learnのスペクトルクラスタリングによってクラスタリン
    グ(左図)
    - 再帰的にクラスタリングを行い、クラスタの IDのつなぎ合わせをアイテムの idとする(右図)

    View full-size slide

  13. 提案手法③: Semantic (Content-based) Indexing
    © 2023 Wantedly, Inc.
    - アイテムのコンテンツ情報を idに持たせるために、タクソノミーに基づいたカテゴリ情報を付与

    View full-size slide

  14. 提案手法④: Hybrid Indexing
    © 2023 Wantedly, Inc.
    - 複数の手法の組み合わせ
    - id作成の手法は排他的ではなく、それぞれ組み合わせて使用することができる
    SID IID
    +
    CID IID
    +
    単純に末尾に結合
    CIDの末尾のトークンを
    除去してIIDを結合
    SemID CID
    + どちらかの末尾のトーク
    ンを削除し、結合

    View full-size slide

  15. 性能評価
    © 2023 Wantedly, Inc.
    - 実験方法
    - P5 + Index (提案手法)の性能を他の手法と比較して評価
    - 実験タスク
    - Sequential recommendation
    - Dataset
    - Amazon Sports
    - Amazon Beauty
    - Yelp
    - 比較対象
    - Caser
    - HGN
    - GRU4Rec
    - BERT4Rec
    - FSDA
    - SASRec
    - S3-Rec

    View full-size slide

  16. 性能評価
    © 2023 Wantedly, Inc.
    - 提案手法で作ったIDを使用することでSequential Recommendation系の先行研究よりHR, NDCGが向上
    baseline
    従来のid
    提案手

    Hybrid

    View full-size slide

  17. 性能評価
    © 2023 Wantedly, Inc.
    - Sequential IDはid作成時のUserの順序が重要?
    - 時間的に早いシーケンスから順に idを振っていくのが最も性能が良かった
    - Time-Sensitive > {Long-to-Short, Short-to-Long} > Random
    この順番が
    影響する?

    View full-size slide

  18. 性能評価
    © 2023 Wantedly, Inc.
    - Collaborative IDの各階層のクラスタ数( N)と最終クラスタに許容されるアイテムの最大数( k)はどれくらい
    が良いか?
    - kは100よりは大きいくらいで性能が急に高まる
    - この設定で行うとおおよそ IDのトークン長は3~4が最適になっていた

    View full-size slide

  19. 性能評価
    © 2023 Wantedly, Inc.
    - Semantic IDは効く?
    - カテゴリ情報が階層構造に近いときほどモデルの性能は向上する

    View full-size slide

  20. まとめ
    © 2023 Wantedly, Inc.
    ● 背景
    ○ 生成的推薦でのID設計において、検討違いの出力のリスクとLLMの柔軟性がトレード
    オフの関係
    ● 目的
    ○ 生成的推薦において効果的なidの作成方法の考案
    ● アプローチ
    ○ 4種類のitem_id作成手法によって生成的推薦を行う際に
    idに意味をもたせる
    1. Sequential Indexing
    2. Collaborative Indexing
    3. Semantic (Content-based) Indexing
    4. Hybrid Indexing
    ● 評価
    ○ 提案手法で作ったIDを使用することでSequential Recommendation系の先行研究よ
    りHR・NDCGが向上

    View full-size slide

  21. 告知 (重要)
    © 2023 Wantedly, Inc.
    ● どうやら生成的推薦(に関連するもの)を実際に使ってみたブログが投下されるアドベ
    ントカレンダーがあるとかないとか
    ...
    ● 他にもDSからブログが投下されるカレンダーがあるとかないとか

    ● Wantedlyのカレンダー | Advent Calendar 2023 - Qiita

    View full-size slide