クリック率を最大化しない推薦システム

1 KYOTO UNIVERSITY KYOTO UNIVERSITY クリック率を最大化しない推薦システム佐藤竜馬

2 KYOTO UNIVERSITY 世はクリックベイトで溢れている ◼ とにかくクリックさせようとしてくるコンテンツ（クリックベイト）でインターネットは溢れている ◼ 推薦のクリック率を最適化すると、こういったコンテンツばかりが推薦され、再生産され、体験はどんどん悪くなっていく…

3 KYOTO UNIVERSITY 指標は目標になったとき、良い指標ではなくなる Charles Goodhart グッドハートの法則指標は目標になったとき、良い指標ではなくなる When a
measure becomes a target, it ceases to be a good measure

4 KYOTO UNIVERSITY モニタリングするのは良いが最適化すると良いとは限らない ◼ 人々が正常にコンテンツを作っているとき、クリック率をモニタリングすることはよいフィードバックになる。 ◼ しかし、ひとたびクリック率至上主義がはびこると、本来の目的から外れた方法でクリック率が最適化されはじめてしまう。
Charles Goodhart グッドハートの法則指標は目標になったとき、良い指標ではなくなる When a measure becomes a target, it ceases to be a good measure

5 KYOTO UNIVERSITY 相関はあってもクリックから「良さ」への因果効果は薄い推薦方策クリック「良さ」定量化が難しい
コレを最大化してもコレが最大化できるとは限らない ◼ 因果的な書き方をすると

6 KYOTO UNIVERSITY 最適化指標はモニタリング指標よりも厳しく作りこむべき推薦方策クリック「良さ」定量化が難しい
◼ 因果的な書き方をすると ◼ とはいえ、機械学習をする以上何かしらの基準は必要 ◼ グッドハートの法則を念頭に置きつつ、モニタリング指標よりも厳しく設計することが重要よりロバストかつ根源に近いほどよい

7 KYOTO UNIVERSITY クリック率以外の指標を考慮する推薦を紹介する ◼ 従来の推薦システム → クリック率やコンバージョン率を目的関数に最適化 ◼ 最近、クリック率やコンバージョン率以外の基準を基に構築する
推薦システムが増えてきているといっても 20 年以上前から研究されている本日はそのような推薦システムのさまざまなアプローチを紹介

8 KYOTO UNIVERSITY 推薦システムの大目標：長期的な効果

9 KYOTO UNIVERSITY 長期的な利益を考えることが重要 ◼ 末永くユーザーに使われたり、コアユーザー（毎日サービスを使うようなユーザー）が増えると、サービスにとってもユーザーにとっても嬉しいクリック率の最大化は目先の利益を考えたアプローチ

10 KYOTO UNIVERSITY 探索が重要であるという結果が知られている ◼ どうすれば末永いユーザーやコアユーザーが増えるか？ Values of User Exploration
in Recommender Systems. RecSys 2021. ◼ ユーザーが新しいと思える情報を推薦することが長期的な利益に繋がることを示した研究。我々は、モデルの不確実性を低減する以上の、推薦システムにおける探索の価値を理解するための体系的研究を発表する。 We present a systemic study to understand the values of exploration in recommender systems beyond reducing model uncertainty. Ed H. Chi

11 KYOTO UNIVERSITY 初めて消費するトピックを推薦するのがセレンディピティ ◼ セレンディピティ (serendipity) とは、素敵な偶然に出会ったり、予想外のものを発見すること (Wikipedia)
◼ この研究では、ユーザーが初めて消費するトピックのアイテムを推薦したとき、セレンディピティのある推薦であるという。アイテムのトピックは決まっているものとする。属性として備わっているトピックと、クラスタリングにより人工的に付与するトピックの両方を考える。ユーザーの過去の行動で触れたことのあるトピック集合に含まれておらずそこで初めて消費した場合セレンディピティと判定する。 ◼ セレンディピティのある推薦が長期の利益に効くというのがこの論文の主な発見。

12 KYOTO UNIVERSITY セレンディピティを報酬として推薦方策を最適化する ◼ 提案法はセレンディピティのあるアイテムを推薦した場合大きな報酬を与える強化学習。状態：ユーザーの履歴、行動：アイテムを推薦 ◼ セレンディピティは無いがユーザーが消費するアイテムを推薦した
場合には小さな報酬を与える。 ◼ 具体的には、履歴をエンコードして推薦アイテムを出力する方策を RNN でモデル化し、REINFORCE で最適化。

13 KYOTO UNIVERSITY 提案法はより根源的な指標の改善に成功ユーザーの満足度ベースラインとの差 ◼ 数十億ユーザーを持つ Google の実サービス上で
A/B テストをデプロイした。 ◼ 単に消費するアイテムを当てる方策よりも、精度は下がったが長期的なユーザーの満足度とコアユーザー転換率が上昇した。横軸：時刻コアユーザーへの転換率が大幅上昇満足度が上昇

14 KYOTO UNIVERSITY Spotify での同様の研究を紹介 ◼ の事例 Algorithmic Effects on
the Diversity of Consumption on Spotify. WWW 2020. 我々は高い消費多様性が、コンバージョンやリテンションなどの重要な長期的ユーザー指標と強く関連していることを発見した。 We [...] find that high consumption diversity is strongly associated with important long-term user metrics, such as conversion and retention. Ashton Anderson

15 KYOTO UNIVERSITY 消費コンテンツが多様なほど長期的な恩恵が大きい多様プレミアム移行率が高い離脱が少ない多様ユーザーの活発度で層別・制御しても
◼ Spotify の実データを分析し、消費コンテンツが多様なほど、離脱が少なくプレミアム会員移行率が高いことが分かった。

16 KYOTO UNIVERSITY 推薦の多様性とセレンディピティ

17 KYOTO UNIVERSITY 従来の推薦は同じアイテムばかりで新鮮味が少ない ◼ 問題点： ◼ 一度クリックと類似したアイテムが執拗におすすめされ続ける → ユーザーはうんざり
/ セレンディピティは少ない ◼ もっとバランスの取れた推薦を受けたい

18 KYOTO UNIVERSITY 典型的な推薦アルゴリズムはスコア上位 K 件を推薦 ◼ 典型的な推薦アルゴリズム： 1. 各アイテムのクリックされそう度合いを機械学習で推定する
2. クリックされそう度合いの高い上位 K 件を推薦する

19 KYOTO UNIVERSITY 点数を正確に推定できても ◼ 例：ロマンス映画とアクション映画が 6:4 くらいで好きなユーザー ◼
点数予測モデルの出力：タイタニック DVD: 60 点ダイハード DVD: 40 点点数を正確に推定できている

20 KYOTO UNIVERSITY この方式だと同じようなアイテムばかりが推薦される ◼ 例：ロマンス映画とアクション映画が 6:4 くらいで好きなユーザー ◼
アイテム数が増えると… タイタニック DVD: 60 点タイタニックブルーレイ: 59 点タイタニック DVD 特典付き 61 点ダイハード DVD: 40 点ダイハードブルーレイ: 39 点ダイハード 2 DVD: 42 点 K = 3 のとき、これらだけが推薦される → うんざり推定精度は良い感じなのに…

21 KYOTO UNIVERSITY リスト内のアイテムを多様化する手順を導入 ◼ 対策：リスト内のアイテムの多様化空の推薦リストから初めて、アイテムを一つずつ追加していく。追加アイテムは「既にリストに含まれるアイテムとの距離の順位」と「アイテムのスコアの順位」の重み付き和により決める。重みは多様性と有効性のトレードオフを制御するハイパーパラメータ。
生スコアではなく順位を基準としているのはスケールを揃える効果がある。我々の新しい方法は、提案の正確さと、特定のトピックに対するユーザーの興味の度合いの両方を考慮する。 Our novel method takes into consideration both the accuracy of suggestions made, and the user’s extent of interest in specific topics. Improving Recommendation Lists Through Topic Diversification. WWW 2005. Cai-Nicolas Ziegler

22 KYOTO UNIVERSITY 正確性と多様性のバランスを取ることが重要多様性重視ユーザーの満足度正確性重視多様性と正確性の良いバランスを取ることが重要 ◼
書籍の推薦システムにおけるユーザーアンケート調査の結果

23 KYOTO UNIVERSITY 較正推薦はジャンル割合を細かく制御する ◼ もう少し細かく制御するには較正推薦が有用 Calibrated Recommendations. RecSys 2018.
◼ 推薦リスト内のジャンル割合が、ユーザーの好むジャンル割合に近くなるように推薦を行う ◼ 例：ロマンスとアクションが 6:4 くらいで好きなユーザーに対して、ロマンス映画とアクション映画をリスト内で 6:4 に制約する

24 KYOTO UNIVERSITY スコアとジャンル割合の和を貪欲法で最適化 ◼ 設定：ユーザーの理想ジャンル割合は既知とする。過去の視聴割合などを用いるのが基本。セレンディピティを増やすため一様分布と混ぜて使うことも可。 ◼ 方針：
理想と現実のジャンル割合の差を KL ダイバージェンスで測定（アイテムスコアの総和 – KL ダイバージェンス）を最大化する ◼ アルゴリズム：貪欲法でアイテムをリストに追加する劣モジュラなので 1 – 1/e 近似保証

25 KYOTO UNIVERSITY 精度を保ちつつジャンル割合の較正が可能リコールをほとんど下げることなく、理想ジャンル割合との開きを大きく下げることができる。 ◼ MovieLens での検証結果

26 KYOTO UNIVERSITY ジャンルごとに推薦リストを作ることも有効 ◼ 現実的かつ簡単な対応策：ジャンルごとに推薦リストを作るどのジャンルのリストを見るかはユーザーに任せる各リストに偏りがあったとしても体験はある程度良くなる

27 KYOTO UNIVERSITY コラム：フィルターバブルとコミュニティの分断

28 KYOTO UNIVERSITY 推薦に頼ると情報の範囲が狭まる？ ◼ 関連する話題にフィルターバブルがある「インターネットの検索サイトが提供するアルゴリズムが、各ユーザーが見たくないような情報を遮断する機能」（フィルター）のせいで、まるで「泡」（バブル）の中に包まれたように、自分が見たい情報しか見えなくなること。
(Wikipedia) 慣れ親しんだものから構築された世界は、学ぶべきものが何もない世界だ A world constructed from the familiar is a world in which there's nothing to learn in The Economist. 2011. Eli Pariser

29 KYOTO UNIVERSITY 推薦システムは知識の幅を広げる効果が優勢 ◼ 推薦システムは意外とフィルターバブルを引き起こさないことが報告されている（推薦に）従ったグループは従わなかったグループよりも多様なコンテンツを消費した。 the
following group consumed more diverse content than the ignoring group Exploring the Filter Bubble: The Effect of Using Recommender Systems on Content Diversity. WWW 2014. Joseph A. Konstan パーソナライゼーションは、ユーザーの興味の幅を広げ、他者との共通性を生み出すツールであるようだ。 Personalization appears to be a tool that helps users widen their interests, which in turn creates commonality with others. Will the Global Village Fracture Into Tribes? Recommender Systems and Their Effects on Consumer Fragmentation. Management Science 2014. Kartik Hosanagar

30 KYOTO UNIVERSITY 多様性推薦システムによりさらに幅を広げることができる ◼ （もちろんケースにもよるが）推薦システムを導入することでユーザーの興味を縮小してしまう危険はあまり考えなくてよい。フィルターバブルの存在を支持する研究もある。 Algorithmic Effects
on the Diversity of Consumption on Spotify. WWW 2020. 推薦により取得したデータで推薦システムを訓練するとフィードバックループにより偏りが増幅する危険性がある点は注意。 Preference Amplification in Recommender Systems. KDD 2021. ◼ 前述の多様性を考慮した推薦システムを用いるとさらにユーザーの興味を多様化できると期待できる。

31 KYOTO UNIVERSITY コンテンツ生産者を考慮する

32 KYOTO UNIVERSITY コンテンツの消費者だけでなく生産者も考慮する ◼ ここまではコンテンツの消費者について考えてきた ◼ コンテンツの生産者・配信者のことを考えることも、社会全体の効用を最大化するためには重要 ◼
コンテンツの生産者を足蹴にすると、粗悪なコンテンツが作られるようになり、回り回って消費者の満足も長期的に減少する。

33 KYOTO UNIVERSITY マイナーな生産者への配慮

34 KYOTO UNIVERSITY 従来の推薦システムは人気コンテンツを推薦しがち ◼ 多くの推薦システムは人気のあるコンテンツを（意識的に・無意識のうちに）推薦することが多い特に、消費者の情報が少ないうちはとりあえず人気のあるコンテンツを推薦しておくのが安牌

35 KYOTO UNIVERSITY マタイ効果：人気者はさらに人気者に ◼ マタイ効果 (Matthew effect): 金持ちはより金持ちに、貧乏人はより貧乏になる The
rich get richer and the poor get poorer おおよそ、持っている人は与えられて、いよいよ豊かになるが、持っていない人は、持っているものまでも取り上げられるであろう。 — マタイによる福音書13:12(口語訳) ◼ 推薦システムにより新規参入者が成功する確率が低くなり、サービス内に新しい風が吹くこともなくなる。 ◼ マッチングアプリや入札などでは、入札が断られることも増えて消費者の体験も悪くなるデメリットもある。消費者側のセレンディピティが少なくなるというデメリットもある。

36 KYOTO UNIVERSITY Spotify でも人気アーティストの露出過剰問題がある ◼ の事例人気アーティストは大量の推薦を得るマイナーアーティストは
ほとんど推薦されないより多くのコンテンツ提供者をプラットフォームに引き付け続けるために […] コンテンツ提供者の露出を最適化するという問題に直面している。 to continue to attract more suppliers to the platform, two-sided marketplaces face an interesting problem of optimizing their models for supplier exposure Towards a Fair Marketplace: Counterfactual Evaluation of the trade-off between Relevance, Fairness & Satisfaction in Recommendation Systems. CIKM 2018. Rishabh Mehrotra

37 KYOTO UNIVERSITY 人気度ごとに平等に推薦リストに含める ◼ 解決策：基本方針は多様な、セレンディピティのある推薦と同じ ◼ コンテンツを人気度に応じてカテゴリに分け、すべての人気度が同じ割合で推薦リストに登場するように調整する
多様化の場合はジャンルで分けていたがそれが人気度になる ◼ ただし、これだと同じ人気度グループの中で格差が出てしまう。一回の推薦では全員を満足させることはできないので履歴を持って、長期的に全員が平等になるようにすることも可能。 Equity of Attention: Amortizing Individual Fairness in Rankings. SIGIR 2018. Optimizing Long-term Social Welfare in Recommender Systems: A Constrained Matching Approach. ICML 2020.

38 KYOTO UNIVERSITY 生産者を考慮すると、消費者にとっても長期的な利益貪欲に推薦すると（ニッチな生産者が辞めて）一部の消費者が大きな不満生産者を考慮するとごく一部の消費者がわずかに損するが全体的
に良い方にシフト Martin Mladenov 近視眼的なポリシーは、生産者が存続し続けることができない均衡にシステムを追い込むことによって、ユーザーへのサービスを低下させる myopic policies can serve users poorly by driving the system to an equilibrium in which many providers fail to remain viable Optimizing Long-term Social Welfare in Recommender Systems: A Constrained Matching Approach. ICML 2020.

39 KYOTO UNIVERSITY 消費者側も同時に考えて全体の最適性を追求する ◼ もう少し発展的な配慮： ◼ 好みが極端なユーザーと、幅広い好みを持つユーザーがいる。全員を完全に等しく扱うのではなく、懐が広い消費者でできるだけニッチな生産者のノルマを達成し、全体で帳尻を合わせる
ようにする。 Towards a Fair Marketplace: Counterfactual Evaluation of the trade-off between Relevance, Fairness & Satisfaction in Recommendation Systems. CIKM 2018. ◼ 生産者が誰にでも消費されたいとは限らない。消費者がその生産者を消費したいと思う度合いと、生産者がその消費者に消費されたいと思う度合いのバランスを考慮して推薦する。特に、マッチングアプリなど消費回数が限定的な場合に有効。 Fairness in Reciprocal Recommendations: A Speed-Dating Study. UMAP 2018.

40 KYOTO UNIVERSITY 一斉配信するコンテンツの配慮

41 KYOTO UNIVERSITY トレンドやアクセスランキングなどの全体配信リストについて ◼ Twitter (X) のトレンド一覧は全ユーザーに一斉配信される ◼ 基本的な戦略：ポスト数が多いトピックを配信
多くの人が興味を持っているトピックを配信できる

42 KYOTO UNIVERSITY サイレントマジョリティを無視してしまっているかもしれない ◼ Twitter (X) のトレンド一覧は全ユーザーに一斉配信される ◼ 基本的な戦略：ポスト数が多いトピックを配信
多くの人が興味を持っているトピックを配信できる → 本当？ ◼ そのトピックはただ声が大きい人が多いだけかもしれない。大多数のユーザー（サイレントマジョリティ）には興味の無いトピックかもしれない。

43 KYOTO UNIVERSITY 全ユーザーを一旦推定してから全員のデータで投票する ◼ Equality of Voice [Chakraborty+ FAT
2019] では、一旦全ユーザーの好みを機械学習で推定 → もし全員が同数発言していたらどのトピックが一位になるかを考えてランキングを作成 Equality of Voice: Towards Fair Representation in Crowdsourced Top-K Recommendations. FAT 2019. ◼ 加えて、単に上から順番に取るのではなく、ユーザーの好みを「投票」とみなし単記移譲式投票（イギリス式比例代表制）で「当選」トピックを決める。 → これにより多くの人から二位指名を受けているトピックを考慮したり、多くの人から嫌われているトピックを排除できる

44 KYOTO UNIVERSITY 提案法は全員の好みを反映したリストが作れる提案法はユーザーが少なくとも一つの好きなトピックがリストに現れるユーザーの数を多くできる提案法は嫌われているトピックをリストに載せることを避けることができる提案法はユーザ満足度を最大化しながら、大多数には嫌われているが少数
のユーザによって超積極的に推進されているアイテムを大幅に削減する。 we show that our proposed approach provides maximum user satisfaction, and cuts down drastically on items disliked by most but hyper-actively promoted by a few users. Equality of Voice: Towards Fair Representation in Crowdsourced Top-K Recommendations. FAT 2019. Abhijnan Chakraborty

45 KYOTO UNIVERSITY 生産者の安定性

46 KYOTO UNIVERSITY いよいよ推薦システムを刷新 ◼ これまで学んだことに基づいて、推薦システムを刷新しよう！

47 KYOTO UNIVERSITY いきなり変えてしまうとコンテンツ生産者が困るかも ◼ これまで学んだことに基づいて、推薦システムを刷新しよう！ ◼ ちょっと待った！推薦システムの仕組みをいきなり大きく変えるとコンテンツ生産者が困るかもかもしれない。
◼ 推薦される回数が大幅に変わると、収入が大きく下落するコンテンツ生産者が現れてしまう。フェイスブックのアルゴリズムの変更により、出版社はオンラインスペースの管理方法を調整する必要に迫られる。 Facebook’s changing algorithms will force publishers to adjust how they manage their online spaces. Facebook News Feed Changes Will Challenge Publishers To Stay Relevant https://www.adexchanger.com/data-driven-thinking/facebook-news-feed-changes-will- challenge-publishers-stay-relevant/ Matt McGowan

48 KYOTO UNIVERSITY スコアを徐々に変化させて時間的猶予を与える ◼ 基本的な戦略：推薦スコアを現状から変更先に時間をかけて徐々に変化させていく。順位が落ちる生産者に対策する時間的猶予を与える。 ◼
ただし、徐々に変化させることでユーザーが被る不利益は小さくとどめたい。 ◼ [Patro+ AAAI 2020] では、ユーザーの被る不利益が小さいことを制約に、推薦スコアの変化のスピードを目的関数にした最適化問題として定式化し、理想的な段階的変化を求める。 Incremental Fairness in Two-Sided Market Platforms: On Smoothly Updating Recommendations. AAAI 2020.

49 KYOTO UNIVERSITY 適切な変動方法によりゆっくり着実に変化我々の提案アプローチは、生産者の露出をよりスムーズに移行させるだけでなく、中間段階における顧客の効用を最低限に保証する。 our proposed approach not
only allows smoother transition of producer exposures, but also guarantees a minimum customer utility in intermediate steps. Incremental Fairness in Two-Sided Market Platforms: On Smoothly Updating Recommendations. AAAI 2020. Gourab K Patro 従来のアプローチは大きく変動する提案法はゆっくり着実に移行する

50 KYOTO UNIVERSITY まとめ

51 KYOTO UNIVERSITY 長いスパンで社会全員の利益を考えることが重要 ◼ 長いスパンで利益を考えることを忘れてはならない ◼ クリック率を最大化するだけでは長期の利益になるとは限らない ◼ 定量化がしやすく、かつ長期的な利益に効くような指標を
用いることが重要 ◼ 多様性やセレンディピティはその一例 ◼ 消費者だけでなく、生産者のことも考えて全員が幸せになれるサービスを作ることが長期的には重要

52 KYOTO UNIVERSITY おまけ（時間の都合上入りきらなかったもの）

53 KYOTO UNIVERSITY 長期の影響についての研究をもう一つ ◼ もう一つ、Google からの研究を紹介 Surrogate for Long-Term
User Experience in Recommender Systems. KDD 2022. ◼ より大規模に調査し、長期的に好影響を及ぼしかつ比較的簡単に計測できる指標を調べた研究

54 KYOTO UNIVERSITY 活動量が増えたユーザーの要因を分析 ◼ ある時期ではサービスへの訪問回数が少なかったが、その数カ月後には訪問回数が増えたユーザーを LH (Low ->
High) そうならなかったユーザーを LL (Low -> Low) と呼ぶ。 ◼ LH ユーザーは長期の体験が良いとみなす。 ◼ LH ユーザーと LL ユーザーを比較することで長期的な体験を向上させるためのシグナルを見つけることを目指す。数十億人規模の実サービスで 20 週間のログデータを収集 one of the largest industrial recommendation platforms serving billions of users, and analyze the user visiting logs over a 20-week period 詳細は隠されているが YouTube のデータ？

55 KYOTO UNIVERSITY そのようなユーザーはトピックの裾野が広くなりつつ偏る ◼ 得られた行動傾向についての知見： LH ユーザーは時間経過と共に多くのトピックに触れていた。アイテムの細かなトピック（トピック数 1
万）をアイテム埋め込みから決定し、ユーザーがこれまでに触れたトピックの数を分析すると、LL はほぼ一定だったが、LH は時間と共に大きく増加していた。先ほどの研究の知見とも一致 ◼ LH ユーザーのトピックは裾野が広くなりつつもその中では特定のトピックに偏っていく。ユーザーが触れたトピック分布と一様分布の KL ダイバージェンスを測ると、時間と共に増加する。また、ユーザーが触れたアイテムの数のうち、ユーザーが触れたユニークなトピックの数の割合は時間と共に減少していた。

56 KYOTO UNIVERSITY 反復・高品質・短スパンの消費傾向が強かった ◼ LH ユーザーは同じアイテムを反復して消費する。消費回数のうち、同じアイテムを消費した回数の割合は時間と共に増加していた。 ◼ LH
ユーザーは繰り返し消費するトピックの割合が多い。ユーザーが触れたトピックのうち、一定回数以上消費したトピックの割合は時間と共に時間と共に増加していた。 ◼ LH ユーザーは動画を最後まで見終えるなど高品質な消費が時間と共に増加していた。 ◼ LH ユーザーはサービスにアクセスする間隔が短くなっていく。トップページにアクセスする間隔は初期の時点でも LL ユーザーよりも短かった。

57 KYOTO UNIVERSITY これらの傾向を用いて報酬を設計する ◼ これらの知見を基に、強化学習の報酬を設計する。 ⚫ 推薦することでトピック割合のエントロピーが増加するならば報酬を増やす（LH ユーザーはトピックの裾野が広いため）
⚫ 推薦してトップページへのアクセス間隔が短くなると報酬を増やす（LH ユーザーはトップページによくアクセスするため） ◼ 提案法はログデータを用いてオフライン強化学習で訓練。 ◼ 注：「LH ユーザーになるかどうか」を指標にしたいが疎なので報酬にしづらい。簡単にたくさん計測できる信号を使うのがミソ

58 KYOTO UNIVERSITY 提案法はより根源的な指標の改善に成功ユーザーの満足度長期の訪問数消費したトピック数ベースラインとの差 ◼ 実サービス上で
A/B テストをデプロイ ◼ 提案法は「ユーザーの満足度」や「長期の訪問」などより根源的な指標を改善することに成功した。横軸：時刻

クリック率を最大化しない推薦システム

クリック率を最大化しない推薦システム

More Decks by 佐藤竜馬 (Ryoma Sato)

Other Decks in Research

Featured

Transcript