N=1 の推薦系コンペの戦い方

Slide 1

Slide 1 text

Slide 2

Slide 2 text

© DeNA Co., Ltd. 2 kami @634kami © DeNA Co., Ltd. 自己紹介 https://www.kaggle.com/kami634 Kaggle @kami634 ● メガベンチャーのDS ○ 昨年度入社の新卒２年目 ○ 現在は業務中のKaggle工数50% ● 推薦系コンペが得意だと思いこんでいる ○ Kaggleの推薦系コンペは参加したことない ○ 推薦以外のコンペも参加 ■ 鳥の音声認識 ■ 自然言語処理 ■ 系列データ処理等…

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

© DeNA Co., Ltd. 8 推薦タスクのよくあるデータ形式 ● 基本はテーブルデータ ● 細かいところはコンペ・タスクによって色々！ ○ だが基本形がある ● 1+2種類のテーブルデータ(もしくはそれを加工したもの) が中心 ○ User の Log データ：行動ログ。過去好んだItemや正解ラベルの情報を含む ○ 特徴量 ■ User の Master データ：年齢・性別などのユーザの情報 ■ Item の Master データ：推薦したい商品の情報 3

Slide 9

Slide 9 text

© DeNA Co., Ltd. 9 具体例：atmaCup #16 in collaboration with RECRUIT ● タスク ○ 閲覧履歴から最終的に予約する宿を当てる(推薦する) ● データ ○ train / test_log.csv ■ セッションごとに出現した宿を記録したログデータ ■ 最後に出現した宿は答えにならない ○ train_label.csv：最終的にどの宿を予約したかのデータ ○ yado.csv：宿の属性情報が記録されたデータ ○ その他：宿の画像のembedding ● 分割方法 ○ Train/Test : 時系列で分割 ○ Public/Private: Test をランダム分割 4 Train Public (25%) Private (75%) 時間 Master User に相当するデータはないが、log データを元に各ユーザーの情報をある程度学習できる input output (候補を10個予測) https://www.guruguru.science/competitions/22/

Slide 10

Slide 10 text

© DeNA Co., Ltd. 10 推薦タスクのよくある解法 ● その１：ルールベース ○ 一番お手軽だが創意工夫が必要 ○ コンペによってはこれだけである程度戦えることもある ■ 特に User の情報が少ないケース (コールドスタート) で有効な印象 ● その２：協調フィルタリング系の手法 ○ Matrix Factorization、GNNなど色々手法が存在 ● その３：2 stage 推薦システム (今日のメイントピック) ○ 候補生成 → re-ranking の2段階のパイプライン ■ 推薦コンペの上位解法はこれが多い (もしくはこれを組み合わせるor発展させたもの) ○ 候補生成が不要なパターンもある： e.g.) atmaCup#15, RecSys Challenge 2024 ○ 実装は大変だが計算効率を保ったまま LightGBM などで良い性能を出せる 5

Slide 11

Slide 11 text

© DeNA Co., Ltd. 11 推薦タスクのよくある解法：2 stage 推薦システム ● 1st Stage: 候補生成 ○ 多すぎるアイテムの中から候補を絞ることで、2nd Stage の効率を上げる ○ ルールベース・embeddingと近傍探索を用いる方法などを複数種類組み合わせることが多い ● 2nd Stage: re-ranking ○ 候補アイテムにそれぞれについて LightGBM などで並び替え 6

Slide 12

Slide 12 text

Slide 13

Slide 13 text

© DeNA Co., Ltd. 13 N=1 の戦い方 ● 初手 ○ 2 stage のパイプラインを LightGBM 使ってまず一通り組んでみる ■ と言いつつ atmaCup#15 はGNN使いたかったので初手で試した (候補生成が不要なコンペだったし...） ○ 新規ユーザが多い場合(コールドスタート系) の時はルールベースも考えてみる ● その後は以下をやっていく ○ 1st Stage 周りの改善 ○ 2nd Stage 周りの改善 ○ ルールベースとの組み合わせの検討/改善 ○ 協調フィルタリング系の手法との組み合わせの検討/改善 ○ … 8

Slide 14

Slide 14 text

Slide 15

Slide 15 text

© DeNA Co., Ltd. 15 1 ● 推薦タスクのテーブルデータは結構重くなりがち ○ 例：1ユーザに対して500候補作ると、ユーザー数 x 500 行のテーブルを用意する必要がある ● 候補生成や特徴量生成の処理だけでも結構時間がかかることがある ○ 例：RecSys Challenge 2024 の一番効いた特徴量は作るのに数時間かかった前処理の重要性候補生成や特徴量は前処理結果を保存して使いまわしたい！！ ※候補生成時に関連する特徴量を一緒に作れることが多いという側面もある ※一方で実験用に作ったデータが使われずにストレージを圧迫することもある（こまめに消す手間がいるかも）

Slide 16

Slide 16 text

© DeNA Co., Ltd. 16 候補生成の基本 ● さまざまな方法で推薦候補を作成・組み合わせる ○ ユーザにパーソナライズした候補生成の方法 ■ 「ユーザが見たアイテムに似たアイテムを候補にする」 ○ どのユーザにも共通した候補生成の方法 ■ 「人気のアイテムを候補にする」・「最新のアイテムを候補にする」 ● 良い候補生成の方法をどうやって判断する？ ○ 細かい精度は re-ranking でなんとかなる(する)ので recall を高めるのを意識すると良さそう ■ そもそも答えをここで取りこぼすと、あとの re-ranking の意味がない ○ 候補数を増やせば recall は高くなるが、2nd stageでの計算時間も増えるトレードオフがある 2 候補数少計算時間小候補数多 recall 良

Slide 17

Slide 17 text

© DeNA Co., Ltd. 17 特徴量の基本 ● 基本的は3種類ある ○ User の特徴量 ○ Item の特徴量 ○ User×Item の特徴量 ● しかし場合によっては更に種類が増えるケースも ○ 例：Userだけではなくて、Session や Impression ごとの情報も与えられる場合 ■ Session の特徴量、Session × Item の特徴量 ■ Impression の特徴量、Impression × Item の特徴量 ○ 例：Itemのカテゴリの情報も与えられる場合 ■ … 3 User 特徴 Item 特徴 User×Item 特徴 LightGBM等のモデルへ

Slide 18

Slide 18 text

© DeNA Co., Ltd. 18 具体例を見てみる: 共起・遷移確率系の方法 ● ユーザのログから「共起」や「遷移確率」を考えて候補生成や特徴量に利用できる ○ 共起：Item A と Item B が同時に好まれやすい ○ 遷移確率：Item A を見たら Item C を次に見る確率が高い ● 具体例 ○ ユーザが最後に見た Item に対して、共起(遷移)する確率が高い Item 上位50件を候補にし、その確率を特徴量にする 4

Slide 19

Slide 19 text

© DeNA Co., Ltd. 19 具体例を見てみる: Item の類似度を利用した方法 ● Item 間の類似度を計算する方法もある ○ Item の説明文など利用する ■ BERT系のモデルで埋込み cos 類似度を計算 ■ tf-idf を利用 ○ Item の共起関係や遷移の関係をグラフ等にして embedding を教師なし学習で求める ■ item2vec, node2vec や ProNE などで各 Item の embeding を求めて cos 類似度を計算 ● 具体例 ○ ユーザが最後に見た Item に対して、類似度が高い Item 上位50件を候補にし、その類似度を特徴量にする 5

Slide 20

Slide 20 text

Slide 21

Slide 21 text

© DeNA Co., Ltd. 21 1 2nd Stage: re-ranking の概要全体の流れをおさらい 1. 前処理等で候補生成・特徴量作成 ← さっきまで話してたところ 2. 学習用データ作成 (前処理結果を結合） ○ 候補生成で正解を拾えなかった場合でも、学習データには含めておくことが多い 3. 学習 (LightGBM, Transformer 等を利用) ← いまここどんなモデルでやるか？ ● 王道は LightGBM などのGBDT ○ （Transformer などを利用する方法もある。使ったことはない）

Slide 22

Slide 22 text

© DeNA Co., Ltd. 22 推薦タスクでの LightGBM ● 基本：普通のテーブルデータと変わらない ● 学習方法を変えるのは試すべき ○ 方法１: ２クラス分類等 (ポイントワイズ） ■ objective: binary などにして、普通のテーブルデータと同様に正解を 1, 不正解を 0 としてクラス分類。その候補１つに対する確率を求める ○ 方法２ : ランキング学習 (ペアワイズ・リストワイズ） ■ objective: labmdarank などにする。Userごとに group 化して学習する ● binaryの方が良い時もあるが、lambdarankの方が性能が良いことが多い印象 ○ objective: rank_xendcg などもあるのでいくつか試してみても良いかも 2

Slide 23

Slide 23 text

© DeNA Co., Ltd. 23 リークに注意しつつなるべく未来のデータを利用するテストデータが時系列 split されている場合 ● 可能な限り未来のデータを含めて学習したほうが性能が高いことが多い ○ リークしないように full train っぽくやるのが良い 3 Train Private (75%) 時間 Public (25%) Validation Train Private (75%) 時間 Public (25%) 最適なパラメータ・イテレーション数を決定全データを使って同じパラメータで学習 ※データサイズ合わせるためTrainの前半を捨てるのもありかも

Slide 24

Slide 24 text

Slide 25

Slide 25 text

© DeNA Co., Ltd. 25 1 おまけ：その他の手法について ● 2 stage 以外の手法もある ○ 協調フィルタリング系の手法等 ○ 最近は GNN を使うのが個人的お気に入り ● これらの予測結果を候補生成や特徴量に使っても良い ○ 学習が必要な場合はスタッキングっぽくなる ■ 時間情報がなければ oof を利用するなどリークに注意する ■ 時間情報があれば時系列splitして未来の予測結果を利用するなど注意する

Slide 26

Slide 26 text

© DeNA Co., Ltd. 26 2 おまけ：大きいデータの取り扱いについて ● マシンリソースは結構必要なことが多い ○ 特にLightGBMで学習する際にメモリは結構必要なイメージ ○ ディスクの利用で節約することは可能だが学習に時間がかかる ● CV,LBが相関するなら小さいデータで高速に実験を回すのを検討しても良い ○ 例：RecSys Challenge 2024 では小さいデータで実験・検証を行っていた ■ 最終提出も全データで学習せずに20%程度のデータで学習していたが性能はあまり変わらず ○ 例：Kaggle のOTTOコンペでも同様のチームがあった模様 ● 前処理のためにpandasではなくBigQueryを使ってみたという人もいる