Slide 1

Slide 1 text

1 KYOTO UNIVERSITY KYOTO UNIVERSITY クリック率を最大化しない推薦システム 佐藤 竜馬

Slide 2

Slide 2 text

2 KYOTO UNIVERSITY 世はクリックベイトで溢れている ◼ とにかくクリックさせようとしてくるコンテンツ(クリックベイト)で インターネットは溢れている ◼ 推薦のクリック率を最適化すると、こういったコンテンツばかりが 推薦され、再生産され、体験はどんどん悪くなっていく…

Slide 3

Slide 3 text

3 KYOTO UNIVERSITY 指標は目標になったとき、良い指標ではなくなる Charles Goodhart グッドハートの法則 指標は目標になったとき、良い指標ではなくなる When a measure becomes a target, it ceases to be a good measure

Slide 4

Slide 4 text

4 KYOTO UNIVERSITY モニタリングするのは良いが最適化すると良いとは限らない ◼ 人々が正常にコンテンツを作っているとき、クリック率を モニタリングすることはよいフィードバックになる。 ◼ しかし、ひとたびクリック率至上主義がはびこると、本来の目的 から外れた方法でクリック率が最適化されはじめてしまう。 Charles Goodhart グッドハートの法則 指標は目標になったとき、良い指標ではなくなる When a measure becomes a target, it ceases to be a good measure

Slide 5

Slide 5 text

5 KYOTO UNIVERSITY 相関はあってもクリックから「良さ」への因果効果は薄い 推薦 方策 クリック 「良さ」 定量化が 難しい コレを最大化しても コレが最大化できるとは限らない ◼ 因果的な書き方をすると

Slide 6

Slide 6 text

6 KYOTO UNIVERSITY 最適化指標はモニタリング指標よりも厳しく作りこむべき 推薦 方策 クリック 「良さ」 定量化が 難しい ◼ 因果的な書き方をすると ◼ とはいえ、機械学習をする以上何かしらの基準は必要 ◼ グッドハートの法則を念頭に置きつつ、モニタリング指標よりも 厳しく設計することが重要 よりロバストかつ根源に近いほどよい

Slide 7

Slide 7 text

7 KYOTO UNIVERSITY クリック率以外の指標を考慮する推薦を紹介する ◼ 従来の推薦システム → クリック率やコンバージョン率を目的関数に最適化 ◼ 最近、クリック率やコンバージョン率以外の基準を基に構築する 推薦システムが増えてきている といっても 20 年以上前から研究されている 本日はそのような推薦システムのさまざまなアプローチを紹介

Slide 8

Slide 8 text

8 KYOTO UNIVERSITY 推薦システムの大目標:長期的な効果

Slide 9

Slide 9 text

9 KYOTO UNIVERSITY 長期的な利益を考えることが重要 ◼ 末永くユーザーに使われたり、コアユーザー(毎日サービスを 使うようなユーザー)が増えると、サービスにとってもユーザーに とっても嬉しい クリック率の最大化は目先の利益を考えたアプローチ

Slide 10

Slide 10 text

10 KYOTO UNIVERSITY 探索が重要であるという結果が知られている ◼ どうすれば末永いユーザーやコアユーザーが増えるか? Values of User Exploration in Recommender Systems. RecSys 2021. ◼ ユーザーが新しいと思える情報を推薦することが長期的な利益 に繋がることを示した研究。 我々は、モデルの不確実性を低減する以上の、推薦システムにおける 探索の価値を理解するための体系的研究を発表する。 We present a systemic study to understand the values of exploration in recommender systems beyond reducing model uncertainty. Ed H. Chi

Slide 11

Slide 11 text

11 KYOTO UNIVERSITY 初めて消費するトピックを推薦するのがセレンディピティ ◼ セレンディピティ (serendipity) とは、素敵な偶然に出会った り、予想外のものを発見すること (Wikipedia) ◼ この研究では、ユーザーが初めて消費するトピックのアイテムを 推薦したとき、セレンディピティのある推薦であるという。 アイテムのトピックは決まっているものとする。属性として備わっているトピックと、クラスタリングにより人 工的に付与するトピックの両方を考える。ユーザーの過去の行動で触れたことのあるトピック集合に 含まれておらずそこで初めて消費した場合セレンディピティと判定する。 ◼ セレンディピティのある推薦が長期の利益に効くというのがこの 論文の主な発見。

Slide 12

Slide 12 text

12 KYOTO UNIVERSITY セレンディピティを報酬として推薦方策を最適化する ◼ 提案法はセレンディピティのあるアイテムを推薦した場合大き な報酬を与える強化学習。 状態:ユーザーの履歴、行動:アイテムを推薦 ◼ セレンディピティは無いがユーザーが消費するアイテムを推薦した 場合には小さな報酬を与える。 ◼ 具体的には、履歴をエンコードして推薦アイテムを出力する 方策を RNN でモデル化し、REINFORCE で最適化。

Slide 13

Slide 13 text

13 KYOTO UNIVERSITY 提案法はより根源的な指標の改善に成功 ユーザーの満足度 ベースラインとの差 ◼ 数十億ユーザーを持つ Google の実サービス上で A/B テスト をデプロイした。 ◼ 単に消費するアイテムを当てる方策よりも、精度は下がったが 長期的なユーザーの満足度とコアユーザー転換率が上昇した。 横軸:時刻 コアユーザーへの 転換率が大幅上昇 満足度が上昇

Slide 14

Slide 14 text

14 KYOTO UNIVERSITY Spotify での同様の研究を紹介 ◼ の事例 Algorithmic Effects on the Diversity of Consumption on Spotify. WWW 2020. 我々は高い消費多様性が、コンバージョンやリテンションなどの重要な 長期的ユーザー指標と強く関連していることを発見した。 We [...] find that high consumption diversity is strongly associated with important long-term user metrics, such as conversion and retention. Ashton Anderson

Slide 15

Slide 15 text

15 KYOTO UNIVERSITY 消費コンテンツが多様なほど長期的な恩恵が大きい 多様 プレミアム移行率が高い 離脱が少ない 多様 ユーザーの活発度で 層別・制御しても ◼ Spotify の実データを分析し、消費コンテンツが多様なほど、 離脱が少なくプレミアム会員移行率が高いことが分かった。

Slide 16

Slide 16 text

16 KYOTO UNIVERSITY 推薦の多様性とセレンディピティ

Slide 17

Slide 17 text

17 KYOTO UNIVERSITY 従来の推薦は同じアイテムばかりで新鮮味が少ない ◼ 問題点: ◼ 一度クリックと類似したアイテムが執拗におすすめされ続ける → ユーザーはうんざり / セレンディピティは少ない ◼ もっとバランスの取れた推薦を受けたい

Slide 18

Slide 18 text

18 KYOTO UNIVERSITY 典型的な推薦アルゴリズムはスコア上位 K 件を推薦 ◼ 典型的な推薦アルゴリズム: 1. 各アイテムのクリックされそう度合いを機械学習で推定する 2. クリックされそう度合いの高い上位 K 件を推薦する

Slide 19

Slide 19 text

19 KYOTO UNIVERSITY 点数を正確に推定できても ◼ 例: ロマンス映画とアクション映画が 6:4 くらいで好きなユーザー ◼ 点数予測モデルの出力: タイタニック DVD: 60 点 ダイハード DVD: 40 点 点数を正確に推定できている

Slide 20

Slide 20 text

20 KYOTO UNIVERSITY この方式だと同じようなアイテムばかりが推薦される ◼ 例: ロマンス映画とアクション映画が 6:4 くらいで好きなユーザー ◼ アイテム数が増えると… タイタニック DVD: 60 点 タイタニック ブルーレイ: 59 点 タイタニック DVD 特典付き 61 点 ダイハード DVD: 40 点 ダイハード ブルーレイ: 39 点 ダイハード 2 DVD: 42 点 K = 3 のとき、 これらだけが推薦される → うんざり 推定精度は良い感じなのに…

Slide 21

Slide 21 text

21 KYOTO UNIVERSITY リスト内のアイテムを多様化する手順を導入 ◼ 対策:リスト内のアイテムの多様化 空の推薦リストから初めて、アイテムを一つずつ追加していく。 追加アイテムは「既にリストに含まれるアイテムとの距離の順位」 と「アイテムのスコアの順位」の重み付き和により決める。重みは 多様性と有効性のトレードオフを制御するハイパーパラメータ。 生スコアではなく順位を基準としているのはスケールを揃える効果がある。 我々の新しい方法は、提案の正確さと、特定のトピックに対するユー ザーの興味の度合いの両方を考慮する。 Our novel method takes into consideration both the accuracy of suggestions made, and the user’s extent of interest in specific topics. Improving Recommendation Lists Through Topic Diversification. WWW 2005. Cai-Nicolas Ziegler

Slide 22

Slide 22 text

22 KYOTO UNIVERSITY 正確性と多様性のバランスを取ることが重要 多様性重視 ユーザーの満足度 正確性重視 多様性と正確性の良い バランスを取ることが重要 ◼ 書籍の推薦システムにおけるユーザーアンケート調査の結果

Slide 23

Slide 23 text

23 KYOTO UNIVERSITY 較正推薦はジャンル割合を細かく制御する ◼ もう少し細かく制御するには較正推薦が有用 Calibrated Recommendations. RecSys 2018. ◼ 推薦リスト内のジャンル割合が、ユーザーの好むジャンル割合に 近くなるように推薦を行う ◼ 例: ロマンスとアクションが 6:4 くらいで好きなユーザーに対して、 ロマンス映画とアクション映画をリスト内で 6:4 に制約する

Slide 24

Slide 24 text

24 KYOTO UNIVERSITY スコアとジャンル割合の和を貪欲法で最適化 ◼ 設定:ユーザーの理想ジャンル割合は既知とする。 過去の視聴割合などを用いるのが基本。 セレンディピティを増やすため一様分布と混ぜて使うことも可。 ◼ 方針: 理想と現実のジャンル割合の差を KL ダイバージェンスで測定 (アイテムスコアの総和 – KL ダイバージェンス)を最大化する ◼ アルゴリズム: 貪欲法でアイテムをリストに追加する 劣モジュラなので 1 – 1/e 近似保証

Slide 25

Slide 25 text

25 KYOTO UNIVERSITY 精度を保ちつつジャンル割合の較正が可能 リコールをほとんど下げることなく、 理想ジャンル割合との開きを大きく 下げることができる。 ◼ MovieLens での検証結果

Slide 26

Slide 26 text

26 KYOTO UNIVERSITY ジャンルごとに推薦リストを作ることも有効 ◼ 現実的かつ簡単な対応策:ジャンルごとに推薦リストを作る どのジャンルのリストを見るかはユーザーに任せる 各リストに偏りがあったとしても体験はある程度良くなる

Slide 27

Slide 27 text

27 KYOTO UNIVERSITY コラム:フィルターバブルとコミュニティの分断

Slide 28

Slide 28 text

28 KYOTO UNIVERSITY 推薦に頼ると情報の範囲が狭まる? ◼ 関連する話題にフィルターバブルがある 「インターネットの検索サイトが提供するアルゴリズムが、各ユー ザーが見たくないような情報を遮断する機能」(フィルター)の せいで、まるで「泡」(バブル)の中に包まれたように、自分が 見たい情報しか見えなくなること。 (Wikipedia) 慣れ親しんだものから構築された世界は、学ぶべきものが 何もない世界だ A world constructed from the familiar is a world in which there's nothing to learn in The Economist. 2011. Eli Pariser

Slide 29

Slide 29 text

29 KYOTO UNIVERSITY 推薦システムは知識の幅を広げる効果が優勢 ◼ 推薦システムは意外とフィルターバブルを引き起こさないことが 報告されている (推薦に)従ったグループは従わなかったグループよりも多様な コンテンツを消費した。 the following group consumed more diverse content than the ignoring group Exploring the Filter Bubble: The Effect of Using Recommender Systems on Content Diversity. WWW 2014. Joseph A. Konstan パーソナライゼーションは、ユーザーの興味の幅を広げ、他者との 共通性を生み出すツールであるようだ。 Personalization appears to be a tool that helps users widen their interests, which in turn creates commonality with others. Will the Global Village Fracture Into Tribes? Recommender Systems and Their Effects on Consumer Fragmentation. Management Science 2014. Kartik Hosanagar

Slide 30

Slide 30 text

30 KYOTO UNIVERSITY 多様性推薦システムによりさらに幅を広げることができる ◼ (もちろんケースにもよるが)推薦システムを導入することで ユーザーの興味を縮小してしまう危険はあまり考えなくてよい。 フィルターバブルの存在を支持する研究もある。 Algorithmic Effects on the Diversity of Consumption on Spotify. WWW 2020. 推薦により取得したデータで推薦システムを訓練するとフィード バックループにより偏りが増幅する危険性がある点は注意。 Preference Amplification in Recommender Systems. KDD 2021. ◼ 前述の多様性を考慮した推薦システムを用いるとさらに ユーザーの興味を多様化できると期待できる。

Slide 31

Slide 31 text

31 KYOTO UNIVERSITY コンテンツ生産者を考慮する

Slide 32

Slide 32 text

32 KYOTO UNIVERSITY コンテンツの消費者だけでなく生産者も考慮する ◼ ここまではコンテンツの消費者について考えてきた ◼ コンテンツの生産者・配信者のことを考えることも、 社会全体の効用を最大化するためには重要 ◼ コンテンツの生産者を足蹴にすると、粗悪なコンテンツが作られ るようになり、回り回って消費者の満足も長期的に減少する。

Slide 33

Slide 33 text

33 KYOTO UNIVERSITY マイナーな生産者への配慮

Slide 34

Slide 34 text

34 KYOTO UNIVERSITY 従来の推薦システムは人気コンテンツを推薦しがち ◼ 多くの推薦システムは人気のあるコンテンツを(意識的に・無 意識のうちに)推薦することが多い 特に、消費者の情報が少ないうちはとりあえず人気のある コンテンツを推薦しておくのが安牌

Slide 35

Slide 35 text

35 KYOTO UNIVERSITY マタイ効果:人気者はさらに人気者に ◼ マタイ効果 (Matthew effect): 金持ちはより金持ちに、貧乏人はより貧乏になる The rich get richer and the poor get poorer おおよそ、持っている人は与えられて、いよいよ豊かになるが、持っていない人は、持ってい るものまでも取り上げられるであろう。 — マタイによる福音書13:12(口語訳) ◼ 推薦システムにより新規参入者が成功する確率が低くなり、 サービス内に新しい風が吹くこともなくなる。 ◼ マッチングアプリや入札などでは、入札が断られることも増えて 消費者の体験も悪くなるデメリットもある。 消費者側のセレンディピティが少なくなるというデメリットもある。

Slide 36

Slide 36 text

36 KYOTO UNIVERSITY Spotify でも人気アーティストの露出過剰問題がある ◼ の事例 人気アーティストは 大量の推薦を得る マイナーアーティストは ほとんど推薦されない より多くのコンテンツ提供者をプラットフォームに引き付け続けるために […] コンテンツ提供者の露出を最適化するという問題に直面している。 to continue to attract more suppliers to the platform, two-sided marketplaces face an interesting problem of optimizing their models for supplier exposure Towards a Fair Marketplace: Counterfactual Evaluation of the trade-off between Relevance, Fairness & Satisfaction in Recommendation Systems. CIKM 2018. Rishabh Mehrotra

Slide 37

Slide 37 text

37 KYOTO UNIVERSITY 人気度ごとに平等に推薦リストに含める ◼ 解決策: 基本方針は多様な、セレンディピティのある推薦と同じ ◼ コンテンツを人気度に応じてカテゴリに分け、すべての人気度が 同じ割合で推薦リストに登場するように調整する 多様化の場合はジャンルで分けていたがそれが人気度になる ◼ ただし、これだと同じ人気度グループの中で格差が出てしまう。 一回の推薦では全員を満足させることはできないので履歴を 持って、長期的に全員が平等になるようにすることも可能。 Equity of Attention: Amortizing Individual Fairness in Rankings. SIGIR 2018. Optimizing Long-term Social Welfare in Recommender Systems: A Constrained Matching Approach. ICML 2020.

Slide 38

Slide 38 text

38 KYOTO UNIVERSITY 生産者を考慮すると、消費者にとっても長期的な利益 貪欲に推薦すると (ニッチな生産者が辞めて) 一部の消費者が大きな不満 生産者を考慮すると ごく一部の消費者が わずかに損するが全体的 に良い方にシフト Martin Mladenov 近視眼的なポリシーは、生産者が存続し続けることができない均衡にシス テムを追い込むことによって、ユーザーへのサービスを低下させる myopic policies can serve users poorly by driving the system to an equilibrium in which many providers fail to remain viable Optimizing Long-term Social Welfare in Recommender Systems: A Constrained Matching Approach. ICML 2020.

Slide 39

Slide 39 text

39 KYOTO UNIVERSITY 消費者側も同時に考えて全体の最適性を追求する ◼ もう少し発展的な配慮: ◼ 好みが極端なユーザーと、幅広い好みを持つユーザーがいる。 全員を完全に等しく扱うのではなく、懐が広い消費者でできる だけニッチな生産者のノルマを達成し、全体で帳尻を合わせる ようにする。 Towards a Fair Marketplace: Counterfactual Evaluation of the trade-off between Relevance, Fairness & Satisfaction in Recommendation Systems. CIKM 2018. ◼ 生産者が誰にでも消費されたいとは限らない。消費者がその生 産者を消費したいと思う度合いと、生産者がその消費者に消 費されたいと思う度合いのバランスを考慮して推薦する。 特に、マッチングアプリなど消費回数が限定的な場合に有効。 Fairness in Reciprocal Recommendations: A Speed-Dating Study. UMAP 2018.

Slide 40

Slide 40 text

40 KYOTO UNIVERSITY 一斉配信するコンテンツの配慮

Slide 41

Slide 41 text

41 KYOTO UNIVERSITY トレンドやアクセスランキングなどの全体配信リストについて ◼ Twitter (X) のトレンド一覧は全ユーザーに一斉配信される ◼ 基本的な戦略:ポスト数が多いトピックを配信 多くの人が興味を持っているトピックを配信できる

Slide 42

Slide 42 text

42 KYOTO UNIVERSITY サイレントマジョリティを無視してしまっているかもしれない ◼ Twitter (X) のトレンド一覧は全ユーザーに一斉配信される ◼ 基本的な戦略:ポスト数が多いトピックを配信 多くの人が興味を持っているトピックを配信できる → 本当? ◼ そのトピックはただ声が大きい人が多いだけかもしれない。 大多数のユーザー(サイレントマジョリティ)には興味の無い トピックかもしれない。

Slide 43

Slide 43 text

43 KYOTO UNIVERSITY 全ユーザーを一旦推定してから全員のデータで投票する ◼ Equality of Voice [Chakraborty+ FAT 2019] では、 一旦全ユーザーの好みを機械学習で推定 → もし全員が同数発言していたらどのトピックが一位になるか を考えてランキングを作成 Equality of Voice: Towards Fair Representation in Crowdsourced Top-K Recommendations. FAT 2019. ◼ 加えて、単に上から順番に取るのではなく、ユーザーの好みを 「投票」とみなし単記移譲式投票(イギリス式比例代表制) で「当選」トピックを決める。 → これにより多くの人から二位指名を受けているトピックを 考慮したり、多くの人から嫌われているトピックを排除できる

Slide 44

Slide 44 text

44 KYOTO UNIVERSITY 提案法は全員の好みを反映したリストが作れる 提案法はユーザーが少なくとも 一つの好きなトピックがリストに現れる ユーザーの数を多くできる 提案法は嫌われているトピックを リストに載せることを避けることができる 提案法はユーザ満足度を最大化しながら、大多数には嫌われているが少数 のユーザによって超積極的に推進されているアイテムを大幅に削減する。 we show that our proposed approach provides maximum user satisfaction, and cuts down drastically on items disliked by most but hyper-actively promoted by a few users. Equality of Voice: Towards Fair Representation in Crowdsourced Top-K Recommendations. FAT 2019. Abhijnan Chakraborty

Slide 45

Slide 45 text

45 KYOTO UNIVERSITY 生産者の安定性

Slide 46

Slide 46 text

46 KYOTO UNIVERSITY いよいよ推薦システムを刷新 ◼ これまで学んだことに基づいて、推薦システムを刷新しよう!

Slide 47

Slide 47 text

47 KYOTO UNIVERSITY いきなり変えてしまうとコンテンツ生産者が困るかも ◼ これまで学んだことに基づいて、推薦システムを刷新しよう! ◼ ちょっと待った! 推薦システムの仕組みをいきなり大きく変えると コンテンツ生産者が困るかもかもしれない。 ◼ 推薦される回数が大幅に変わると、収入が大きく下落する コンテンツ生産者が現れてしまう。 フェイスブックのアルゴリズムの変更により、出版社はオンラインスペースの管 理方法を調整する必要に迫られる。 Facebook’s changing algorithms will force publishers to adjust how they manage their online spaces. Facebook News Feed Changes Will Challenge Publishers To Stay Relevant https://www.adexchanger.com/data-driven-thinking/facebook-news-feed-changes-will- challenge-publishers-stay-relevant/ Matt McGowan

Slide 48

Slide 48 text

48 KYOTO UNIVERSITY スコアを徐々に変化させて時間的猶予を与える ◼ 基本的な戦略: 推薦スコアを現状から変更先に時間をかけて徐々に変化 させていく。 順位が落ちる生産者に対策する時間的猶予を与える。 ◼ ただし、徐々に変化させることでユーザーが被る不利益は小さく とどめたい。 ◼ [Patro+ AAAI 2020] では、ユーザーの被る不利益が小さいこと を制約に、推薦スコアの変化のスピードを目的関数にした 最適化問題として定式化し、理想的な段階的変化を求める。 Incremental Fairness in Two-Sided Market Platforms: On Smoothly Updating Recommendations. AAAI 2020.

Slide 49

Slide 49 text

49 KYOTO UNIVERSITY 適切な変動方法によりゆっくり着実に変化 我々の提案アプローチは、生産者の露出をよりスムーズに移行させるだけで なく、中間段階における顧客の効用を最低限に保証する。 our proposed approach not only allows smoother transition of producer exposures, but also guarantees a minimum customer utility in intermediate steps. Incremental Fairness in Two-Sided Market Platforms: On Smoothly Updating Recommendations. AAAI 2020. Gourab K Patro 従来のアプローチは大きく変動する 提案法はゆっくり着実に移行する

Slide 50

Slide 50 text

50 KYOTO UNIVERSITY まとめ

Slide 51

Slide 51 text

51 KYOTO UNIVERSITY 長いスパンで社会全員の利益を考えることが重要 ◼ 長いスパンで利益を考えることを忘れてはならない ◼ クリック率を最大化するだけでは長期の利益になるとは限らない ◼ 定量化がしやすく、かつ長期的な利益に効くような指標を 用いることが重要 ◼ 多様性やセレンディピティはその一例 ◼ 消費者だけでなく、生産者のことも考えて全員が幸せになれる サービスを作ることが長期的には重要

Slide 52

Slide 52 text

52 KYOTO UNIVERSITY おまけ(時間の都合上入りきらなかったもの)

Slide 53

Slide 53 text

53 KYOTO UNIVERSITY 長期の影響についての研究をもう一つ ◼ もう一つ、Google からの研究を紹介 Surrogate for Long-Term User Experience in Recommender Systems. KDD 2022. ◼ より大規模に調査し、長期的に好影響を及ぼしかつ比較的 簡単に計測できる指標を調べた研究

Slide 54

Slide 54 text

54 KYOTO UNIVERSITY 活動量が増えたユーザーの要因を分析 ◼ ある時期ではサービスへの訪問回数が少なかったが、その数カ 月後には訪問回数が増えたユーザーを LH (Low -> High) そうならなかったユーザーを LL (Low -> Low) と呼ぶ。 ◼ LH ユーザーは長期の体験が良いとみなす。 ◼ LH ユーザーと LL ユーザーを比較することで長期的な体験 を向上させるためのシグナルを見つけることを目指す。 数十億人規模の実サービスで 20 週間のログデータを収集 one of the largest industrial recommendation platforms serving billions of users, and analyze the user visiting logs over a 20-week period 詳細は隠されているが YouTube のデータ?

Slide 55

Slide 55 text

55 KYOTO UNIVERSITY そのようなユーザーはトピックの裾野が広くなりつつ偏る ◼ 得られた行動傾向についての知見: LH ユーザーは時間経過と共に多くのトピックに触れていた。 アイテムの細かなトピック(トピック数 1 万)をアイテム埋め込みから決定し、ユーザーがこれまでに 触れたトピックの数を分析すると、LL はほぼ一定だったが、LH は時間と共に大きく増加していた。 先ほどの研究の知見とも一致 ◼ LH ユーザーのトピックは裾野が広くなりつつもその中では 特定のトピックに偏っていく。 ユーザーが触れたトピック分布と一様分布の KL ダイバージェンスを測ると、時間と共に増加する。 また、ユーザーが触れたアイテムの数のうち、ユーザーが触れたユニークなトピックの数の割合は時間 と共に減少していた。

Slide 56

Slide 56 text

56 KYOTO UNIVERSITY 反復・高品質・短スパンの消費傾向が強かった ◼ LH ユーザーは同じアイテムを反復して消費する。 消費回数のうち、同じアイテムを消費した回数の割合は時間と共に増加していた。 ◼ LH ユーザーは繰り返し消費するトピックの割合が多い。 ユーザーが触れたトピックのうち、一定回数以上消費したトピックの割合は時間と共に時間と共に 増加していた。 ◼ LH ユーザーは動画を最後まで見終えるなど高品質な消費が 時間と共に増加していた。 ◼ LH ユーザーはサービスにアクセスする間隔が短くなっていく。 トップページにアクセスする間隔は初期の時点でも LL ユーザー よりも短かった。

Slide 57

Slide 57 text

57 KYOTO UNIVERSITY これらの傾向を用いて報酬を設計する ◼ これらの知見を基に、強化学習の報酬を設計する。 ⚫ 推薦することでトピック割合のエントロピーが増加するならば報 酬を増やす(LH ユーザーはトピックの裾野が広いため) ⚫ 推薦してトップページへのアクセス間隔が短くなると報酬を増 やす(LH ユーザーはトップページによくアクセスするため) ◼ 提案法はログデータを用いてオフライン強化学習で訓練。 ◼ 注:「LH ユーザーになるかどうか」を指標にしたいが疎なので 報酬にしづらい。簡単にたくさん計測できる信号を使うのがミソ

Slide 58

Slide 58 text

58 KYOTO UNIVERSITY 提案法はより根源的な指標の改善に成功 ユーザーの満足度 長期の訪問数 消費したトピック数 ベースラインとの差 ◼ 実サービス上で A/B テストをデプロイ ◼ 提案法は「ユーザーの満足度」や「長期の訪問」など より根源的な指標を改善することに成功した。 横軸:時刻