Upgrade to Pro — share decks privately, control downloads, hide ads and more …

クリック率を最大化しない推薦システム

 クリック率を最大化しない推薦システム

セレンディピティのある推薦、多様性のある推薦、コンテンツ生産者を配慮した推薦など、クリック率の最大化(だけ)を目指さない推薦システムについての紹介です。

連絡先: @joisino_ (Twitter) / https://joisino.net/

佐藤竜馬 (Ryoma Sato)

January 26, 2024
Tweet

More Decks by 佐藤竜馬 (Ryoma Sato)

Other Decks in Research

Transcript

  1. 5 KYOTO UNIVERSITY 相関はあってもクリックから「良さ」への因果効果は薄い 推薦 方策 クリック 「良さ」 定量化が 難しい

    コレを最大化しても コレが最大化できるとは限らない ◼ 因果的な書き方をすると
  2. 6 KYOTO UNIVERSITY 最適化指標はモニタリング指標よりも厳しく作りこむべき 推薦 方策 クリック 「良さ」 定量化が 難しい

    ◼ 因果的な書き方をすると ◼ とはいえ、機械学習をする以上何かしらの基準は必要 ◼ グッドハートの法則を念頭に置きつつ、モニタリング指標よりも 厳しく設計することが重要 よりロバストかつ根源に近いほどよい
  3. 7 KYOTO UNIVERSITY クリック率以外の指標を考慮する推薦を紹介する ◼ 従来の推薦システム → クリック率やコンバージョン率を目的関数に最適化 ◼ 最近、クリック率やコンバージョン率以外の基準を基に構築する

    推薦システムが増えてきている といっても 20 年以上前から研究されている 本日はそのような推薦システムのさまざまなアプローチを紹介
  4. 10 KYOTO UNIVERSITY 探索が重要であるという結果が知られている ◼ どうすれば末永いユーザーやコアユーザーが増えるか? Values of User Exploration

    in Recommender Systems. RecSys 2021. ◼ ユーザーが新しいと思える情報を推薦することが長期的な利益 に繋がることを示した研究。 我々は、モデルの不確実性を低減する以上の、推薦システムにおける 探索の価値を理解するための体系的研究を発表する。 We present a systemic study to understand the values of exploration in recommender systems beyond reducing model uncertainty. Ed H. Chi
  5. 11 KYOTO UNIVERSITY 初めて消費するトピックを推薦するのがセレンディピティ ◼ セレンディピティ (serendipity) とは、素敵な偶然に出会った り、予想外のものを発見すること (Wikipedia)

    ◼ この研究では、ユーザーが初めて消費するトピックのアイテムを 推薦したとき、セレンディピティのある推薦であるという。 アイテムのトピックは決まっているものとする。属性として備わっているトピックと、クラスタリングにより人 工的に付与するトピックの両方を考える。ユーザーの過去の行動で触れたことのあるトピック集合に 含まれておらずそこで初めて消費した場合セレンディピティと判定する。 ◼ セレンディピティのある推薦が長期の利益に効くというのがこの 論文の主な発見。
  6. 13 KYOTO UNIVERSITY 提案法はより根源的な指標の改善に成功 ユーザーの満足度 ベースラインとの差 ◼ 数十億ユーザーを持つ Google の実サービス上で

    A/B テスト をデプロイした。 ◼ 単に消費するアイテムを当てる方策よりも、精度は下がったが 長期的なユーザーの満足度とコアユーザー転換率が上昇した。 横軸:時刻 コアユーザーへの 転換率が大幅上昇 満足度が上昇
  7. 14 KYOTO UNIVERSITY Spotify での同様の研究を紹介 ◼ の事例 Algorithmic Effects on

    the Diversity of Consumption on Spotify. WWW 2020. 我々は高い消費多様性が、コンバージョンやリテンションなどの重要な 長期的ユーザー指標と強く関連していることを発見した。 We [...] find that high consumption diversity is strongly associated with important long-term user metrics, such as conversion and retention. Ashton Anderson
  8. 15 KYOTO UNIVERSITY 消費コンテンツが多様なほど長期的な恩恵が大きい 多様 プレミアム移行率が高い 離脱が少ない 多様 ユーザーの活発度で 層別・制御しても

    ◼ Spotify の実データを分析し、消費コンテンツが多様なほど、 離脱が少なくプレミアム会員移行率が高いことが分かった。
  9. 19 KYOTO UNIVERSITY 点数を正確に推定できても ◼ 例: ロマンス映画とアクション映画が 6:4 くらいで好きなユーザー ◼

    点数予測モデルの出力: タイタニック DVD: 60 点 ダイハード DVD: 40 点 点数を正確に推定できている
  10. 20 KYOTO UNIVERSITY この方式だと同じようなアイテムばかりが推薦される ◼ 例: ロマンス映画とアクション映画が 6:4 くらいで好きなユーザー ◼

    アイテム数が増えると… タイタニック DVD: 60 点 タイタニック ブルーレイ: 59 点 タイタニック DVD 特典付き 61 点 ダイハード DVD: 40 点 ダイハード ブルーレイ: 39 点 ダイハード 2 DVD: 42 点 K = 3 のとき、 これらだけが推薦される → うんざり 推定精度は良い感じなのに…
  11. 21 KYOTO UNIVERSITY リスト内のアイテムを多様化する手順を導入 ◼ 対策:リスト内のアイテムの多様化 空の推薦リストから初めて、アイテムを一つずつ追加していく。 追加アイテムは「既にリストに含まれるアイテムとの距離の順位」 と「アイテムのスコアの順位」の重み付き和により決める。重みは 多様性と有効性のトレードオフを制御するハイパーパラメータ。

    生スコアではなく順位を基準としているのはスケールを揃える効果がある。 我々の新しい方法は、提案の正確さと、特定のトピックに対するユー ザーの興味の度合いの両方を考慮する。 Our novel method takes into consideration both the accuracy of suggestions made, and the user’s extent of interest in specific topics. Improving Recommendation Lists Through Topic Diversification. WWW 2005. Cai-Nicolas Ziegler
  12. 23 KYOTO UNIVERSITY 較正推薦はジャンル割合を細かく制御する ◼ もう少し細かく制御するには較正推薦が有用 Calibrated Recommendations. RecSys 2018.

    ◼ 推薦リスト内のジャンル割合が、ユーザーの好むジャンル割合に 近くなるように推薦を行う ◼ 例: ロマンスとアクションが 6:4 くらいで好きなユーザーに対して、 ロマンス映画とアクション映画をリスト内で 6:4 に制約する
  13. 24 KYOTO UNIVERSITY スコアとジャンル割合の和を貪欲法で最適化 ◼ 設定:ユーザーの理想ジャンル割合は既知とする。 過去の視聴割合などを用いるのが基本。 セレンディピティを増やすため一様分布と混ぜて使うことも可。 ◼ 方針:

    理想と現実のジャンル割合の差を KL ダイバージェンスで測定 (アイテムスコアの総和 – KL ダイバージェンス)を最大化する ◼ アルゴリズム: 貪欲法でアイテムをリストに追加する 劣モジュラなので 1 – 1/e 近似保証
  14. 29 KYOTO UNIVERSITY 推薦システムは知識の幅を広げる効果が優勢 ◼ 推薦システムは意外とフィルターバブルを引き起こさないことが 報告されている (推薦に)従ったグループは従わなかったグループよりも多様な コンテンツを消費した。 the

    following group consumed more diverse content than the ignoring group Exploring the Filter Bubble: The Effect of Using Recommender Systems on Content Diversity. WWW 2014. Joseph A. Konstan パーソナライゼーションは、ユーザーの興味の幅を広げ、他者との 共通性を生み出すツールであるようだ。 Personalization appears to be a tool that helps users widen their interests, which in turn creates commonality with others. Will the Global Village Fracture Into Tribes? Recommender Systems and Their Effects on Consumer Fragmentation. Management Science 2014. Kartik Hosanagar
  15. 30 KYOTO UNIVERSITY 多様性推薦システムによりさらに幅を広げることができる ◼ (もちろんケースにもよるが)推薦システムを導入することで ユーザーの興味を縮小してしまう危険はあまり考えなくてよい。 フィルターバブルの存在を支持する研究もある。 Algorithmic Effects

    on the Diversity of Consumption on Spotify. WWW 2020. 推薦により取得したデータで推薦システムを訓練するとフィード バックループにより偏りが増幅する危険性がある点は注意。 Preference Amplification in Recommender Systems. KDD 2021. ◼ 前述の多様性を考慮した推薦システムを用いるとさらに ユーザーの興味を多様化できると期待できる。
  16. 35 KYOTO UNIVERSITY マタイ効果:人気者はさらに人気者に ◼ マタイ効果 (Matthew effect): 金持ちはより金持ちに、貧乏人はより貧乏になる The

    rich get richer and the poor get poorer おおよそ、持っている人は与えられて、いよいよ豊かになるが、持っていない人は、持ってい るものまでも取り上げられるであろう。 — マタイによる福音書13:12(口語訳) ◼ 推薦システムにより新規参入者が成功する確率が低くなり、 サービス内に新しい風が吹くこともなくなる。 ◼ マッチングアプリや入札などでは、入札が断られることも増えて 消費者の体験も悪くなるデメリットもある。 消費者側のセレンディピティが少なくなるというデメリットもある。
  17. 36 KYOTO UNIVERSITY Spotify でも人気アーティストの露出過剰問題がある ◼ の事例 人気アーティストは 大量の推薦を得る マイナーアーティストは

    ほとんど推薦されない より多くのコンテンツ提供者をプラットフォームに引き付け続けるために […] コンテンツ提供者の露出を最適化するという問題に直面している。 to continue to attract more suppliers to the platform, two-sided marketplaces face an interesting problem of optimizing their models for supplier exposure Towards a Fair Marketplace: Counterfactual Evaluation of the trade-off between Relevance, Fairness & Satisfaction in Recommendation Systems. CIKM 2018. Rishabh Mehrotra
  18. 37 KYOTO UNIVERSITY 人気度ごとに平等に推薦リストに含める ◼ 解決策: 基本方針は多様な、セレンディピティのある推薦と同じ ◼ コンテンツを人気度に応じてカテゴリに分け、すべての人気度が 同じ割合で推薦リストに登場するように調整する

    多様化の場合はジャンルで分けていたがそれが人気度になる ◼ ただし、これだと同じ人気度グループの中で格差が出てしまう。 一回の推薦では全員を満足させることはできないので履歴を 持って、長期的に全員が平等になるようにすることも可能。 Equity of Attention: Amortizing Individual Fairness in Rankings. SIGIR 2018. Optimizing Long-term Social Welfare in Recommender Systems: A Constrained Matching Approach. ICML 2020.
  19. 38 KYOTO UNIVERSITY 生産者を考慮すると、消費者にとっても長期的な利益 貪欲に推薦すると (ニッチな生産者が辞めて) 一部の消費者が大きな不満 生産者を考慮すると ごく一部の消費者が わずかに損するが全体的

    に良い方にシフト Martin Mladenov 近視眼的なポリシーは、生産者が存続し続けることができない均衡にシス テムを追い込むことによって、ユーザーへのサービスを低下させる myopic policies can serve users poorly by driving the system to an equilibrium in which many providers fail to remain viable Optimizing Long-term Social Welfare in Recommender Systems: A Constrained Matching Approach. ICML 2020.
  20. 39 KYOTO UNIVERSITY 消費者側も同時に考えて全体の最適性を追求する ◼ もう少し発展的な配慮: ◼ 好みが極端なユーザーと、幅広い好みを持つユーザーがいる。 全員を完全に等しく扱うのではなく、懐が広い消費者でできる だけニッチな生産者のノルマを達成し、全体で帳尻を合わせる

    ようにする。 Towards a Fair Marketplace: Counterfactual Evaluation of the trade-off between Relevance, Fairness & Satisfaction in Recommendation Systems. CIKM 2018. ◼ 生産者が誰にでも消費されたいとは限らない。消費者がその生 産者を消費したいと思う度合いと、生産者がその消費者に消 費されたいと思う度合いのバランスを考慮して推薦する。 特に、マッチングアプリなど消費回数が限定的な場合に有効。 Fairness in Reciprocal Recommendations: A Speed-Dating Study. UMAP 2018.
  21. 42 KYOTO UNIVERSITY サイレントマジョリティを無視してしまっているかもしれない ◼ Twitter (X) のトレンド一覧は全ユーザーに一斉配信される ◼ 基本的な戦略:ポスト数が多いトピックを配信

    多くの人が興味を持っているトピックを配信できる → 本当? ◼ そのトピックはただ声が大きい人が多いだけかもしれない。 大多数のユーザー(サイレントマジョリティ)には興味の無い トピックかもしれない。
  22. 43 KYOTO UNIVERSITY 全ユーザーを一旦推定してから全員のデータで投票する ◼ Equality of Voice [Chakraborty+ FAT

    2019] では、 一旦全ユーザーの好みを機械学習で推定 → もし全員が同数発言していたらどのトピックが一位になるか を考えてランキングを作成 Equality of Voice: Towards Fair Representation in Crowdsourced Top-K Recommendations. FAT 2019. ◼ 加えて、単に上から順番に取るのではなく、ユーザーの好みを 「投票」とみなし単記移譲式投票(イギリス式比例代表制) で「当選」トピックを決める。 → これにより多くの人から二位指名を受けているトピックを 考慮したり、多くの人から嫌われているトピックを排除できる
  23. 44 KYOTO UNIVERSITY 提案法は全員の好みを反映したリストが作れる 提案法はユーザーが少なくとも 一つの好きなトピックがリストに現れる ユーザーの数を多くできる 提案法は嫌われているトピックを リストに載せることを避けることができる 提案法はユーザ満足度を最大化しながら、大多数には嫌われているが少数

    のユーザによって超積極的に推進されているアイテムを大幅に削減する。 we show that our proposed approach provides maximum user satisfaction, and cuts down drastically on items disliked by most but hyper-actively promoted by a few users. Equality of Voice: Towards Fair Representation in Crowdsourced Top-K Recommendations. FAT 2019. Abhijnan Chakraborty
  24. 47 KYOTO UNIVERSITY いきなり変えてしまうとコンテンツ生産者が困るかも ◼ これまで学んだことに基づいて、推薦システムを刷新しよう! ◼ ちょっと待った! 推薦システムの仕組みをいきなり大きく変えると コンテンツ生産者が困るかもかもしれない。

    ◼ 推薦される回数が大幅に変わると、収入が大きく下落する コンテンツ生産者が現れてしまう。 フェイスブックのアルゴリズムの変更により、出版社はオンラインスペースの管 理方法を調整する必要に迫られる。 Facebook’s changing algorithms will force publishers to adjust how they manage their online spaces. Facebook News Feed Changes Will Challenge Publishers To Stay Relevant https://www.adexchanger.com/data-driven-thinking/facebook-news-feed-changes-will- challenge-publishers-stay-relevant/ Matt McGowan
  25. 48 KYOTO UNIVERSITY スコアを徐々に変化させて時間的猶予を与える ◼ 基本的な戦略: 推薦スコアを現状から変更先に時間をかけて徐々に変化 させていく。 順位が落ちる生産者に対策する時間的猶予を与える。 ◼

    ただし、徐々に変化させることでユーザーが被る不利益は小さく とどめたい。 ◼ [Patro+ AAAI 2020] では、ユーザーの被る不利益が小さいこと を制約に、推薦スコアの変化のスピードを目的関数にした 最適化問題として定式化し、理想的な段階的変化を求める。 Incremental Fairness in Two-Sided Market Platforms: On Smoothly Updating Recommendations. AAAI 2020.
  26. 49 KYOTO UNIVERSITY 適切な変動方法によりゆっくり着実に変化 我々の提案アプローチは、生産者の露出をよりスムーズに移行させるだけで なく、中間段階における顧客の効用を最低限に保証する。 our proposed approach not

    only allows smoother transition of producer exposures, but also guarantees a minimum customer utility in intermediate steps. Incremental Fairness in Two-Sided Market Platforms: On Smoothly Updating Recommendations. AAAI 2020. Gourab K Patro 従来のアプローチは大きく変動する 提案法はゆっくり着実に移行する
  27. 51 KYOTO UNIVERSITY 長いスパンで社会全員の利益を考えることが重要 ◼ 長いスパンで利益を考えることを忘れてはならない ◼ クリック率を最大化するだけでは長期の利益になるとは限らない ◼ 定量化がしやすく、かつ長期的な利益に効くような指標を

    用いることが重要 ◼ 多様性やセレンディピティはその一例 ◼ 消費者だけでなく、生産者のことも考えて全員が幸せになれる サービスを作ることが長期的には重要
  28. 53 KYOTO UNIVERSITY 長期の影響についての研究をもう一つ ◼ もう一つ、Google からの研究を紹介 Surrogate for Long-Term

    User Experience in Recommender Systems. KDD 2022. ◼ より大規模に調査し、長期的に好影響を及ぼしかつ比較的 簡単に計測できる指標を調べた研究
  29. 54 KYOTO UNIVERSITY 活動量が増えたユーザーの要因を分析 ◼ ある時期ではサービスへの訪問回数が少なかったが、その数カ 月後には訪問回数が増えたユーザーを LH (Low ->

    High) そうならなかったユーザーを LL (Low -> Low) と呼ぶ。 ◼ LH ユーザーは長期の体験が良いとみなす。 ◼ LH ユーザーと LL ユーザーを比較することで長期的な体験 を向上させるためのシグナルを見つけることを目指す。 数十億人規模の実サービスで 20 週間のログデータを収集 one of the largest industrial recommendation platforms serving billions of users, and analyze the user visiting logs over a 20-week period 詳細は隠されているが YouTube のデータ?
  30. 55 KYOTO UNIVERSITY そのようなユーザーはトピックの裾野が広くなりつつ偏る ◼ 得られた行動傾向についての知見: LH ユーザーは時間経過と共に多くのトピックに触れていた。 アイテムの細かなトピック(トピック数 1

    万)をアイテム埋め込みから決定し、ユーザーがこれまでに 触れたトピックの数を分析すると、LL はほぼ一定だったが、LH は時間と共に大きく増加していた。 先ほどの研究の知見とも一致 ◼ LH ユーザーのトピックは裾野が広くなりつつもその中では 特定のトピックに偏っていく。 ユーザーが触れたトピック分布と一様分布の KL ダイバージェンスを測ると、時間と共に増加する。 また、ユーザーが触れたアイテムの数のうち、ユーザーが触れたユニークなトピックの数の割合は時間 と共に減少していた。
  31. 56 KYOTO UNIVERSITY 反復・高品質・短スパンの消費傾向が強かった ◼ LH ユーザーは同じアイテムを反復して消費する。 消費回数のうち、同じアイテムを消費した回数の割合は時間と共に増加していた。 ◼ LH

    ユーザーは繰り返し消費するトピックの割合が多い。 ユーザーが触れたトピックのうち、一定回数以上消費したトピックの割合は時間と共に時間と共に 増加していた。 ◼ LH ユーザーは動画を最後まで見終えるなど高品質な消費が 時間と共に増加していた。 ◼ LH ユーザーはサービスにアクセスする間隔が短くなっていく。 トップページにアクセスする間隔は初期の時点でも LL ユーザー よりも短かった。
  32. 57 KYOTO UNIVERSITY これらの傾向を用いて報酬を設計する ◼ これらの知見を基に、強化学習の報酬を設計する。 ⚫ 推薦することでトピック割合のエントロピーが増加するならば報 酬を増やす(LH ユーザーはトピックの裾野が広いため)

    ⚫ 推薦してトップページへのアクセス間隔が短くなると報酬を増 やす(LH ユーザーはトップページによくアクセスするため) ◼ 提案法はログデータを用いてオフライン強化学習で訓練。 ◼ 注:「LH ユーザーになるかどうか」を指標にしたいが疎なので 報酬にしづらい。簡単にたくさん計測できる信号を使うのがミソ
  33. 58 KYOTO UNIVERSITY 提案法はより根源的な指標の改善に成功 ユーザーの満足度 長期の訪問数 消費したトピック数 ベースラインとの差 ◼ 実サービス上で

    A/B テストをデプロイ ◼ 提案法は「ユーザーの満足度」や「長期の訪問」など より根源的な指標を改善することに成功した。 横軸:時刻