Slide 1

Slide 1 text

© 2024 Wantedly, Inc. 推薦データ分析コンペに参加して得 た知見 AIミーティング 2024/01/10 Jan. 10 2024 - Yudai Hayashi

Slide 2

Slide 2 text

© 2024 Wantedly, Inc. INTERNAL ONLY 自己紹介 林 悠大 ● 経歴: ○ 東京大学工学系研究科でPh.D取得 ○ 2022年にウォンテッドリーにデータサイ エンティストとして新卒入社。推薦シス テムの開発を行う ● X: @python_walker ● 趣味: ○ 読書 ○ 音楽聴くこと ○ ウイスキー

Slide 3

Slide 3 text

© 2024 Wantedly, Inc. INTERNAL ONLY 今日話すこと ● データ分析コンペって何? ● どんなコンペに参加した? ● 参加することでどんな知見を得られた?

Slide 4

Slide 4 text

© 2024 Wantedly, Inc. INTERNAL ONLY データ分析コンペとは ● 与えられた課題に対して精度の高いモデルを構築して競うコンペ ● 有名なものだとKaggleやatma, signateなど ● なぜ参加するのか ○ 普段の業務にとらわれない幅広い知識を学べる ○ 新しいことを試せる

Slide 5

Slide 5 text

© 2024 Wantedly, Inc. INTERNAL ONLY 今回参加したコンペ ● atmaで開催されたコンペ ● 期間は一週間 ● テーマはじゃらんのセッションデータを用いた予約される宿の予測 ● 評価指標はMAP@10 https://www.guruguru.science/competitions/22

Slide 6

Slide 6 text

© 2024 Wantedly, Inc. INTERNAL ONLY 与えられたデータ ● セッション情報 ○ どの順番でどの宿を見たか ● 宿の情報 ○ 所在地 (地方、都道府県などがエンコード) ○ 宿の部屋数 ○ 立地の情報 (駅が近い、コンビニが近い、、、) ○ 宿の画像のembedding ○ … ● データの難しかったところ ○ 長さが1のセッションが大量にあった

Slide 7

Slide 7 text

© 2024 Wantedly, Inc. INTERNAL ONLY おおまかな方針 ● 宿は1.4万件くらい、セッションは40万個あるので全組み合わせ(56億通り!)で推 論すると計算にかなりの時間がかかるし非効率 ● 候補の絞り込み + 並び替えの2-stage構成でモデルを構築 ○ 候補生成:予約されそうな宿をざっくり取ってくる ○ リランキング:候補を予測される確率が高い順に並び替える 宿全体 Top-10 Candidate Generator Re-ranker

Slide 8

Slide 8 text

© 2024 Wantedly, Inc. INTERNAL ONLY 候補生成の方法 複数の手法を組み合わせて、予約されそうな宿の集合を構築する ● セッション中に出現する宿 ● 見ている宿とよく一緒に見られている 宿 ● 見ている宿の次に見られていることが 多い宿 上位解法で使われていた手法 ● グラフ構造を使った生成 ○ ProNE ○ 共起グラフからクラスタ係数や ホップ数を計算

Slide 9

Slide 9 text

© 2024 Wantedly, Inc. INTERNAL ONLY リランキングの方法 LightGBMでbinary classificationタスクとして解いた ● セッションの情報 ○ どの地域の宿を見ている? ○ どんな条件で宿を見ている? ● 宿の情報 ○ どこにある? ○ どんな立地? ● 候補生成で使った特徴量 ○ セッションで見られていた宿とどれくらい一緒に見られている? 上位解法で使われていた手法 ● セッションの長さが1のものに対しては遷移確率を使ったルールベース手法 ● train/testでのデータの傾向変化に影響を受けづらい特徴量設計

Slide 10

Slide 10 text

© 2024 Wantedly, Inc. INTERNAL ONLY まとめ ● 業務とは異なるドメインのデータを使えることで得られた学びは多かった ● 他の参加者の挙げたディスカッションを通して色々なデータの見方を学べた ○ train/testでデータ分布が変わっている ○ セッションで見ている地域と予約した地域が異なるときの考察 ○ etc.