Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Off-Policy Evaluation and Learning for Large Action Spaces via Conjunct Effect Modeling (ICML23)

Off-Policy Evaluation and Learning for Large Action Spaces via Conjunct Effect Modeling (ICML23)

文脈付きバンディットにおけるオフ方策評価は、過去のログデータのみを用いた方策のオフライン性能評価を可能にする。しかし、行動数が多くなる場合に、傾向スコアに基づく既存推定量が精度を著しく悪化してしまう問題がある。これは、推薦・検索システムや言語モデルなど、行動数が多くなりがちな応用において特に深刻な未解決問題である。この問題を解決すべく、昨年我々は、行動やアイテムに関する特徴量・埋め込みを活用した新たなMIPS推定量(ICML2022)を開発した。MIPSは特に大規模問題において既存推定量を凌駕するオフライン評価精度を発揮するが、行動特徴量が高次元の場合に、バイアスまたはバリアンスのどちらかが大きくなってしまう問題を抱える。よって、MIPSの問題点を解決し大規模問題におけるオフライン評価の精度をさらに向上させるために、報酬関数の新たな分解に基づいて定義されるOffCEMという推定量を新たに提案する。また特に行動数が多い状況や行動の特徴量が高次元の場合に、OffCEMが大きな統計的利点をもたらすことを示す。最後に、OffCEMが既存推定量よりも行動数の増加に対して非常に頑健であることを示す実験結果を紹介する。

usaito
PRO

May 02, 2023
Tweet

More Decks by usaito

Other Decks in Research

Transcript

  1. 報酬関数の新たな分解に基づいた
    ⼤規模問題でも正確なオフライン評価
    Off-Policy Evaluation for Large Action Spaces
    via Conjunct Effect Modeling (ICML23)
    齋藤優太
    [email protected] / https://usait0.com/ja/

    View Slide

  2. 齋藤優太 ( https://usait0.com/ja/ )
    経歴︓東⼯⼤学部卒 (21.3) => Cornell Univ, CS PhD (21.9-)
    研究領域︓オフ⽅策評価 / 推薦・ランキングの公平性
    研究実績︓NeurIPS, ICML, KDD, SIGIR, WSDM, RecSysなど
    その他
    - Forbes Japan 30 Under 30 2022 (with 佐々⽊朗希投⼿ら)
    - ⽇本オープンイノベーション⼤賞 内閣総理⼤⾂賞
    - 孫正義育英財団第6期⽣ / 船井情報科学振興財団奨学⽣
    - 施策デザインのための機械学習⼊⾨の執筆・出版
    - RecSysやKDDでチュートリアル・ワークショップの開催
    - ⽇本国内5-6社と共同研究・CFML関連の技術相談
    usaito

    View Slide

  3. あらすじ
    前半
    ● オフ⽅策評価 (Off-Policy Evaluation)
    の基礎と⼤規模問題における課題
    ● ⾏動特徴量を利⽤した既存の解決策
    (MIPS推定量, ICMLʼ22)
    後半
    ● MIPS推定量に残された課題
    ● MIPS推定量の課題を解決する新たな枠組み
    ”Conjunct Effect Model”とOffCEM推定量の提案 (ICML23採択)

    View Slide

  4. 機械学習による意思決定
    機械学習を予測のためではなく、意思決定のために活⽤する例が多数
    ユーザー
    アイテム推薦(⾏動)の意思決定
    クリック
    ⽅策
    報酬の予測ではなく
    報酬の最⼤化がゴール

    View Slide

  5. 機械学習による意思決定のインダストリー応⽤
    新たに開発したアルゴリズム(⽅策)の性能を
    ログデータのみを⽤いて安全かつ正確に評価したい
    オフ⽅策評価 (OPE)
    ● YouTubeによる動画推薦
    ● Spotifyによるプレイリスト推薦
    ● Netflixによるサムネイル最適化
    ● 共同研究先: Sony/CyberAgent/Yahoo/リクルート

    View Slide

  6. 機械学習による意思決定のインダストリー応⽤
    新たに開発したアルゴリズム(⽅策)の性能を
    ログデータのみを⽤いて安全かつ正確に評価したい
    ⼤規模問題
    数千から数百万という⼤量の
    ⾏動(アイテム)に対応する必要
    オフ⽅策評価 (OPE)
    最新の推定量でも
    対応が⾮常に困難
    ● YouTubeによる動画推薦
    ● Spotifyによるプレイリスト推薦
    ● Netflixによるサムネイル最適化
    ● 共同研究先: Sony/CyberAgent/Yahoo/リクルート

    View Slide

  7. 現在運⽤中の⽅策による蓄積データ
    特徴量 (ユーザー情報) を観測する
    現在の⽅策 が⾏動 (アイテム) を選択する
    報酬 (クリック有無 / 売上) を観測する
    データ蓄積の
    基本プロセス
    オフ⽅策評価では、現在の⽅策が⾃然に蓄積したログデータをフル活⽤

    View Slide

  8. オフ⽅策評価: Off-Policy Evaluation
    データ収集⽅策 (logging policy) によって蓄積されるログデータ
    なお
    未知 未知
    既知

    View Slide

  9. オフ⽅策評価: Off-Policy Evaluation
    OPEのモチベーション: 未だ導⼊したことのない新たな⽅策の性能推定
    ⽅策の性能 = 仮にその⽅策を実装したとしたときに得られる期待報酬
    (CTR, CVR, 売上, etc.)
    評価⽅策 (eval policy)
    評価⽅策の性能
    (policy value)
    ⽅策の性能の定義は他にもあり得る: https://arxiv.org/abs/2104.08977

    View Slide

  10. オフ⽅策評価: Off-Policy Evaluation
    具体的には、できる限り正確な性能推定を可能にする推定量が欲しい
    なお
    真の性能 (未知, 推定対象) 推定量 (estimator)
    新たな⽅策とは異なる
    古い⽅策が収集した
    ログデータのみを活⽤

    View Slide

  11. オフ⽅策評価: Off-Policy Evaluation
    推定量の正確さは以下の Mean-Squared-Error; MSE により定量化
    なお
    良い推定量を作るには
    バイアスとバリアンスを
    共に抑えてあげる必要がある

    View Slide

  12. オフ⽅策評価: Off-Policy Evaluation
    古い⽅策を運⽤する中でログデータ
    が⾃然と蓄積
    新たな⽅策
    を開発
    新たな⽅策を
    A/Bテストor 運⽤
    新たな⽅策の
    性能が良好
    新たな⽅策の
    性能が微妙
    ログデータのみを⽤いたオフ⽅策評価

    View Slide

  13. 基本推定量: Inverse Propensity Score (IPS)
    重要度重み
    (importance weight)
    IPS推定量: 重要度により観測報酬を重み付け平均
    ● いくつかの仮定の元で不偏性と⼀致性を持ち、真の性能に収束

    View Slide

  14. IPS推定量の不偏性
    IPS推定量は、真の性能に対する不偏かつ⼀致推定を達成
    なお、データ収集⽅策が評価⽅策に対して共通サポートを持つ必要がある
    不偏性
    ⼀致性

    View Slide

  15. データ数の増加に対するIPSの挙動 DM推定量: 不偏ではないベースライン
    IPSはデータが少ないとき不安定だが
    データが増えるにつれ真の値に収束
    ⾏動数=250
    データ数を徐々に増やしていく
    この性質によりIPSはその他
    多くの推定量の基礎となっている
    ⼩規模 ⼤規模
    where

    View Slide

  16. ⾏動数の増加に対するIPSの挙動
    データ数=3000
    ⾏動数を徐々に増やしていく
    ⼀⽅で、⾏動数が増えるにつれ
    分散が増加し、精度が急激に悪化
    ⼩規模 ⼤規模
    ⾏動数の増加により
    重要度重みが爆発
    IPS推定量

    View Slide

  17. より最近の発展的な推定量を使えば良いのでは︖
    より最近の発展的な推定量
    ● Doubly Robust (DR) [Dudik+11,14]
    ● Switch DR [Wang+17]
    ● DR with Optimistic Shrinkage [Su+20]
    ● DR with Lambda-Smoothing [Metelli+21]
    これら全ての推定量が
    IPSと同様の重みを使⽤
    結局のところ⼤規模問題では
    分散かバイアスの問題を抱える
    Doubly Robust(DR)推定量
    IPSと全く同じ重要度重み
    報酬の予測モデルを組み込み
    バリアンスを多少減少

    View Slide

  18. より最近の発展的な推定量を使えば良いのでは︖
    https://youtu.be/HMo9fQMVB4w
    詳細はRecSysʼ21で
    ⾏ったチュートリアル
    の動画を参照
    RecSysチャンネルの全動画の中で6番⽬に多く再⽣されている
    より最近の発展的な推定量
    ● Doubly Robust (DR) [Dudik+11,14]
    ● Switch DR [Wang+17]
    ● DR with Optimistic Shrinkage [Su+20]
    ● DR with Lambda-Smoothing [Metelli+21]
    これら全ての推定量が
    IPSと同様の重みを使⽤
    結局のところ⼤規模問題では
    分散かバイアスの問題を抱える

    View Slide

  19. 発展的な推定量を持ってしてもほぼ同様の問題が発⽣
    単に発展推定量を使うだけでは⼤規模⾏動空間に対応不可
    DRはIPSと同様の⾮常に
    不安定な挙動を⾒せる
    その他の推定量は重要度重み
    に変更を加えるため
    ⼤きなバイアスが発⽣
    ⾏動数を徐々に増やしていく

    View Slide

  20. MIPS推定量を開発したモチベーション
    IPS推定量の利点 (不偏性など) をできる限り保持しつつ
    ⼤規模⾏動空間における課題を解決する新たな推定量を作りたい
    (どうやらIPS推定量が使っている重要度重みの使⽤を回避する必要がありそう)
    Yuta Saito, Thorsten Joachims. Off-Policy Evaluation for
    Large Action Spaces via Embeddings. ICML2022.
    我々の⼀連の研究のモチベーション
    より最近の発展的な推定量
    ● Doubly Robust (DR) [Dudik+11,14]
    ● Switch DR [Wang+17]
    ● DR with Optimistic Shrinkage [Su+20]
    ● DR with Lambda-Smoothing [Metelli+21]
    これら全ての推定量が
    IPSと同様の重みを使⽤
    結局のところ⼤規模問題では
    分散かバイアスの問題を抱える

    View Slide

  21. オフ⽅策評価の典型的なログデータ
    特徴量 ⾏動 ??? ??? 購⼊有無
    ユーザ 1 商品 A ??? ??? 1
    ユーザ 2 商品 B ??? ??? 0
    … … … … …
    商品推薦問題におけるログデータの例

    View Slide

  22. (ICMLʼ22) 通常⾏動の特徴量(⾏動特徴量)が存在しているはず
    特徴量 ⾏動 カテゴリー 値段 購⼊有無
    ユーザ 1 商品 A 書籍 2000円 1
    ユーザ 2 商品 B コンピュータ 10万円 0
    … … … … …
    商品推薦問題におけるログデータの例

    View Slide

  23. 鍵となるアイデア: ⾏動について通常観測されるはずの追加情報を活⽤
    ほとんどの場合、追加的に
    ⾏動特徴量を観測するはず
    既存論⽂で
    ⼀般的なログデータ
    ⾏動特徴量を含む
    ログデータ
    (ICMLʼ22) ⾏動特徴量をオフ⽅策評価に活⽤しない理由はない
    むしろなぜこれまで活⽤されてこなかったのか不思議

    View Slide

  24. オフ⽅策評価における新たなデータ⽣成仮定
    典型的なデータ⽣成過程を以下のように⼀般化する
    未知 未知
    既知 未知 or 既知
    ⾏動特徴量の分布を新たに導⼊
    あらゆるタイプの⾏動特徴量を考慮可能
    (離散/連続, 決定的/確率的, etc..)

    View Slide

  25. 多種多様な⾏動特徴量の例
    特徴量 ⾏動 カテゴリー 値段 購⼊有無
    ユーザ 1 商品 A 書籍 2000円 1
    ユーザ 2 商品 B コンピュータ 10万円 0
    … … … … …
    ● 離散
    ● context⾮依存
    ● 決定的
    ● 連続
    ● context依存
    ● 確率的
    もし値段が確率的かつ個別
    価格最適化アルゴリズムに
    より⽣成されていた場合

    View Slide

  26. オフ⽅策評価における新たなデータ⽣成仮定
    ⾏動特徴量をどのように活⽤すると⾏動数の増加に対応できるか︖
    未知 未知
    既知
    ⾏動特徴量の分布を新たに導⼊
    *本研究の主⽬的は、とある⾏動特徴量が与えられたときにそれがOPEにどのような利益をもたらすか分析
    することであり、⾏動特徴量⾃体を表現学習等によりOPE向けに最適化することなどはfuture workとする
    未知 or 既知

    View Slide

  27. 提案推定量: Marginalized Inverse Propensity Score (MIPS)
    ⾏動特徴量を活⽤した次のMIPS推定量を昨年提案 (ICMLʼ22)
    Marginalized IPS (MIPS)
    周辺重要度重み
    なお
    ある⽅策が与えられたときの
    ⾏動特徴量の周辺分布
    (marginal distribution)

    View Slide

  28. ⾏動特徴量の周辺分布に基づく重要度重み
    映画 (“a”) ⽅策: カテゴリ (“e”) 周辺分布:
    テネット 0.2 SF 0.4
    ロッキー 0.1 スポーツ 0.6
    スターウォーズ 0.2 SF 0.4
    マネーボール 0.5 スポーツ 0.6
    ⾏動特徴量
    ⽅策と⾏動特徴量が与えられたら、周辺分布を即座に計算可能

    View Slide

  29. ⾏動特徴量の周辺分布に基づく重要度重み
    *実践ではこの簡易具体例のように⾏動特徴量が1次元・離散である必要はない
    **⾏動 -> ⾏動特徴量の変換は確率的であっても良い
    映画 (“a”) ⽅策: カテゴリ (“e”) 周辺分布:
    テネット 0.2 SF 0.4
    ロッキー 0.1 スポーツ 0.6
    スターウォーズ 0.2 SF 0.4
    マネーボール 0.5 スポーツ 0.6
    ⾏動特徴量

    View Slide

  30. 提案推定量: Marginalized Inverse Propensity Score (MIPS)
    ⾏動特徴量を活⽤した次のMIPS推定量を提案 (ICMLʼ22)
    IPSで使っていた重要度
    周辺重要度重み
    諸悪の根源であるIPSの重要度の存在を消去
    => 分散の⼤幅な改善が期待

    View Slide

  31. ● ⾏動数が多ければ多いほど、IPS推定量と⽐較して分散を⼤きく減少
    MIPS推定量が持つ望ましい性質
    ● IPS推定量とは異なる仮定のもとで不偏

    View Slide

  32. ● ⾏動数が多ければ多いほど、IPS推定量と⽐較して分散を⼤きく減少
    MIPS推定量が持つ望ましい性質
    ● IPS推定量とは異なる仮定のもとで不偏

    View Slide

  33. MIPSはIPSとは異なる仮定のもとで不偏
    No Direct Effectと共通embedサポートのもとでMIPSは不偏
    共通embedサポート: ⾏動特徴量空間のみ⼗分にカバーしていれば良い

    View Slide

  34. MIPSはIPSとは異なる仮定のもとで不偏
    ● IPS推定量の利点 (不偏性 + ⼀致性) を基本的には保持
    ● No Direct Effectの仮定とは︖
    No Direct Effectと共通embedサポートのもとでMIPSは不偏

    View Slide

  35. ⾏動特徴量の質に関するNo Direct Effectの仮定
    ⾏動の因果効果を説明できるだけの
    ⼗分な情報量が⾏動特徴量に含まれているべき
    ⾏動aから報酬“r” への
    因果効果はすべて“e”を媒介
    報酬への影響を完全に説明できる
    ⾏動特徴量を観測している
    ⾏動 ⾏動
    特徴量
    報酬

    View Slide

  36. ⾏動特徴量の質に関するNo Direct Effectの仮定
    ⾏動aから報酬“r” への
    因果効果はすべて“e”を媒介
    報酬への影響を完全に説明できる
    ⾏動特徴量を観測している
    ⾏動 ⾏動
    特徴量
    報酬
    ● “r”: CV
    ● “a”: 商品
    ● “e”: 値段

    View Slide

  37. No Direct Effect Assumption: 具体例
    ⾏動特徴量だけで視聴確率の違いを説明しきれていないので仮定は満たされない
    (=> 仮定を満たすためにはより⾼次元の⾏動特徴量が必要)
    映画 (“a”) カテゴリ (“e”) 視聴確率 (“r”)
    テネット SF 10%
    ロッキー スポーツ 5%
    スターウォーズ SF 20%
    マネーボール スポーツ 30%

    View Slide

  38. No Direct Effect Assumption: 具体例
    ⾏動特徴量が同じであれば視聴確率も同じなので仮定が満たされている
    (カテゴリに⼗分な情報が含まれている)
    映画 (“a”) カテゴリ (“e”) 視聴確率 (“r”)
    テネット SF 20%
    ロッキー スポーツ 10%
    スターウォーズ SF 20%
    マネーボール スポーツ 10%

    View Slide

  39. MIPSはIPSとは異なる仮定のもとで不偏
    ● IPS推定量の利点 (不偏性 + ⼀致性) を基本的には保持
    ● No Direct Effectの仮定が満たされない場合でも、⾏動特徴量に
    多くの情報量を詰め込むことでバイアスを⼩さく抑制できる
    (詳しいバイアスの分析は論⽂のTheorem 3.5を参照)
    No Direct Effectの仮定もとでMIPSは不偏

    View Slide

  40. ● ⾏動数が多ければ多いほど、IPS推定量と⽐較して分散を⼤きく減少
    MIPS推定量が持つ望ましい性質
    ● No Direct Effectと共通embedサポートのもとで不偏

    View Slide

  41. MIPS推定量による分散の⼤幅な減少 (Thm 3.6)
    (前提として)MIPSのバリアンスが
    IPSのそれよりも⼤きくなることはない
    IPS推定量とMIPS推定量の分散の差を計算

    View Slide

  42. MIPSによる分散の減少の詳細
    MIPSによる分散減少は次の場合に特に⼤きくなる
    ● IPSが使っていた重要度の分散が⼤きい (= ⾏動の数が多い)
    ● ⾏動特徴量が有する情報量が多くない ( がstochastic)
    ⾏動特徴量で条件付けた⾏動分布

    View Slide

  43. ⾏動特徴量が有する情報量によりバイアス-バリアンスが決定
    ● バイアスを減らす or 不偏になるためには
    できる限りの情報を⾏動特徴量に詰め込むべき
    ● バリアンスを減らすためには⾏動特徴量の情報量を制限すべき
    戦略的/意図的に⾏動特徴量の情報量を制限して
    No Direct Effectを積極的に破ることでMSEをさらに改善可能
    (⾏動特徴量をいくらか意図的に”捨てる”)
    MIPSのBias-Varianceトレードオフは
    ⾏動特徴量の表現⼒によって制御される

    View Slide

  44. 仮定が満たされない時の⽅がMSEの意味では良い
    ● 20次元ある⾏動特徴量を全て
    使った場合、no direct effect
    の仮定が満たされる
    ● ⾏動特徴量の次元をあえて
    徐々に捨てていく
    “あえて”使わない⾏動特徴量の次元を徐々に増やしていく
    no direct effectを意図的に
    破ることでMSEを改善可能

    View Slide

  45. 仮定が満たされない時の⽅がMSEの意味では良い
    観測されない特徴量次元が
    増えるにつれバイアスは増⼤
    ⼀⽅、⾏動特徴量が
    粗くなることでバリアンスは減少
    バイアス バリアンス

    View Slide

  46. MIPS推定量の利点まとめ
    ● MIPSは⾏動特徴量を活⽤したかなり汎⽤・強⼒な枠組み
    ● no direct effectのもとで不偏で、⼤規模問題において⼤きな分散減少
    ● ⾏動特徴量の情報量によりbias-variance trade-offを制御可能
    (no direct effectをあえて破ることによりMSEを改善できることがある)
    誰にでもすぐに思い付く拡張の例: Marginalized Doubly Robust (MDR)
    Yuta Saito, Thorsten Joachims. Off-Policy Evaluation for
    Large Action Spaces via Embeddings. ICML2022.

    View Slide

  47. MIPSの弱点: No Direct Effectに関するBias-Variance Dilemma
    批判的に⾒るとMIPSは未だ困難なbias-varianceのジレンマを抱えている
    ● ⾼次元 (でかつdeterministic)な⾏動特徴量が与えられたとき
    にIPS推定量とほぼ同等の⼤きなバリアンスが発⽣
    (バリアンス減少の式を参照)
    ● 分散の問題を避けるために意図的に⾏動特徴量の次元削減を
    ⾏うこともできるが、そうするとno direct effectが
    満たされなくなり、⼤きなバイアスが発⽣する可能性

    View Slide

  48. MIPSの弱点: No Direct Effectに関するBias-Variance Dilemma
    ⾏動と⾏動特徴量がほぼ1対1対応になる設定でMIPSを再検証
    IPS/MIPS/DRの
    全てが⾏動数の
    増加に脆弱
    IPS/MIPS/DRの
    全てがデータ数
    の減少に脆弱
    ログデータサイズ ⾏動の数
    結局どの既存推定量もデータ数の減少や⾏動数の増加に対応できない
    グラフの縦軸
    = 推定量のMSE

    View Slide

  49. MIPS推定量をさらに改善する研究へのモチベーション
    どうすればこのno direct effectに関連した
    MIPS推定量のBias-Variance Dilemmaを解決できるか︖
    新たな研究へのモチベーション
    批判的に⾒るとMIPSは未だ困難なbias-varianceのジレンマを抱えている
    ● ⾼次元 (でかつdeterministic) な⾏動特徴量が与えられたときにIPS推定量
    とほぼ同等の⼤きなバリアンスが発⽣ (バリアンス減少の式を参照)
    ● 分散の問題を避けるために意図的に⾏動特徴量の次元削減を⾏うことも
    できるが、そうすると今度は⼤きなバイアスが発⽣する可能性

    View Slide

  50. 新たな定式化
    “Conjunct Effect Model”

    View Slide

  51. ジレンマの解決へ向けたアイデア: Conjunct Effect Model
    鍵となるアイデア:
    諸悪の根源であるno direct effectの仮定を取り払い、
    その代わりに期待報酬関数を2つの効果の和として考える
    期待報酬関数 特徴量効果
    (embedding effect)
    残差効果
    (residual effect)
    Conjunct Effect Model (CEM): 報酬関数を2つの効果に分解する
    = +

    View Slide

  52. ジレンマの解決へ向けたアイデア: Conjunct Effect Model
    期待報酬関数 特徴量効果 残差効果
    Conjunct Effect Model (CEM): 報酬関数を2つの効果に分解する
    =
    ● は⽣の⾏動特徴量 or 次元圧縮等の処理が施された低次元⾏動特徴表現
    ● CEMは仮定というより単なる報酬関数の1つの便利な表現に過ぎない
    ● 残差効果は⾏動と⾏動特徴量の交互作⽤効果 (interaction effect) と
    ⾏動による直接効果 (direct effect) の和と考えられるが、ここでは
    特徴量効果に興味があるため残差効果としてひとつにまとめている
    +

    View Slide

  53. ジレンマの解決へ向けたアイデア: Conjunct Effect Model
    期待報酬関数 特徴量効果 残差効果
    = +
    ● は⽣の⾏動特徴量 or 次元圧縮等の処理が施された低次元⾏動特徴表現
    ● なおMIPS推定量が頼っていたno direct effectの仮定は、
    CEMにおける残差効果を完全に無視する仮定として再解釈できる
    Conjunct Effect Model (CEM): 報酬関数を2つの効果に分解する

    View Slide

  54. ジレンマの解決へ向けたアイデア: Conjunct Effect Model
    期待報酬関数 特徴量効果 残差効果
    =
    特徴量効果
    残差効果 (MIPSでは完全無視)
    Conjunct Effect Model (CEM): 報酬関数を2つの効果に分解する
    +

    View Slide

  55. ここからはCEMの簡易バージョンを⽤いて話を進める
    期待報酬関数 特徴量効果 残差効果
    General Conjunct Effect Model: ⾏動特徴量 は連続かつで多次元であって良い
    特に便利な特殊ケースとして、⾏動特徴量がクラスターの場合を扱う
    なお は⾏動のクラスタリング関数 (may be learned from data)
    期待報酬関数 クラスター効果 残差効果
    = +
    = +

    View Slide

  56. CEMを眺めると全く新たな推定量が頭に浮かんでくる
    ● 例えば映画のカテゴリ情報 ( ) により期待報酬のうちおよそ70%が
    説明され、残りのおよそ30%が個別の映画の情報により決まっているとする
    期待報酬関数 クラスター効果 (70%) 残差効果 (30%)
    = +

    View Slide

  57. CEMを眺めると全く新たな推定量が頭に浮かんでくる
    映画 (“a”) カテゴリ カテゴリ効果 (g) 残差効果 (h) 期待報酬 (q)
    テネット SF 0.15 0.10 0.25
    ロッキー スポーツ 0.30 -0.10 0.20
    スターウォーズ SF 0.15 -0.05 0.10
    マネーボール スポーツ 0.30 0.05 0.35
    ● 例えば映画のカテゴリ情報 ( ) により期待報酬のうちおよそ70%が
    説明され、残りのおよそ30%が個別の映画の情報により決まっているとする

    View Slide

  58. CEMを眺めると全く新たな推定量が頭に浮かんでくる
    ● 例えば映画のカテゴリ情報 ( ) により期待報酬のうち70%が説明され、
    残りの30%が個別の映画のその他多数の情報により決まっているとする
    ● このとき、IPS/MIPS(model-free)により少なくとも期待報酬の70%を占め
    るクラスター効果については⾮常に⼩さい分散で不偏推定が可能なはず
    ● また残りの残差効果についてもDMのようにmodel-basedに推定することで
    分散を抑えつつ、MIPSのような完全無視よりはバイアスを抑えられるはず
    期待報酬関数 クラスター効果 (70%) 残差効果 (30%)
    = +

    View Slide

  59. Conjunct Effect Modelに基づく新たなOPE推定量
    model-freeなアプローチでクラスター効果を推定
    model-basedなアプローチで
    残差効果にも低分散に対応
    OffCEM推定量: クラスター効果と残差効果を別々のアプローチで推定
    なお は⽅策 による
    クラスター選択確率

    View Slide

  60. Conjunct Effect Modelに基づく新たなOPE推定量
    ● ⾏動のクラスター空間についてのみimportance weightingを適⽤して
    いるため IPS/MIPS/DRの全てに対して⼤きな分散減少が期待できる
    ● 残差効果にもある程度対応するためMIPS推定量のように
    無駄に⼤きなバイアスの発⽣を抑えられる
    回帰モデル
    OffCEM推定量: クラスター効果と残差効果を別々のアプローチで推定

    View Slide

  61. Conjunct Effect Modelに基づく新たなOPE推定量
    ● なお、回帰モデルとして最も⾃然なのは残差効果をどうにか
    直接推定したもの に思われるが、それよりも多くの場合
    良い推定性能を導く回帰モデルの2段階最適化法を後ほど紹介する
    回帰モデル
    OffCEM推定量: クラスター効果と残差効果を別々のアプローチで推定

    View Slide

  62. OffCEM推定量の統計性能を分析
    ● 局所正確性という全く新たな仮定のもとでの不偏性
    ● バイアスの⼤きさは、回帰モデルによる各⾏動クラスター内での
    relative(pairwise) value differenceの推定精度によって決まる
    ● バリアンスの⼤きさは、回帰モデルによる各⾏動の
    absolute valueの推定精度によって決まる
    ● 上記のBias-Variance分析に基づくと、回帰モデルの
    理想的な最適化⽅法として2段階(2-step)最適化法が導かれる

    View Slide

  63. OffCEM推定量の統計性能を分析
    ● 局所正確性という全く新たな仮定のもとでの不偏性
    ● バイアスの⼤きさは、回帰モデルによる各⾏動クラスター内での
    relative(pairwise) value differenceの推定精度によって決まる
    ● バリアンスの⼤きさは、回帰モデルによる各⾏動の
    absolute valueの推定精度によって決まる
    ● 上記のBias-Variance分析に基づくと、回帰モデルの
    理想的な最適化⽅法として2段階(2-step)最適化法が導かれる

    View Slide

  64. OffCEMは局所正確性という新たな仮定のもとで不偏
    局所正確性と共通clusterサポートのもとでOffCEMは不偏
    共通clusterサポート: ⾏動クラスター空間のみ⼗分にカバーしていれば良い

    View Slide

  65. 局所正確性 (Local Correctness)とはどのような仮定か︖
    回帰モデルは各⾏動クラスター内において、⾏動のペアの
    相対的な期待報酬の違さえ正しく推定していれば良い
    以下の条件が成り⽴つとき、回帰モデル と
    クラスタリング関数 は局所的に正確と⾔う
    for all and s.t.

    View Slide

  66. 局所的に正確 (Locally Correct) な回帰モデルの例
    0 1 2 3
    0 1
    4 1 3 2
    3 0 1 0
    3 1
    ● 局所正確性の仮定は異なる⾏動クラスター間の関係性に
    ついては何も要求していないことに注意
    ● 局所正確性の仮定は報酬関数(“q”)⾃体を知っていることよりも明らかに弱い
    ● また局所的に正確な回帰モデルは無限に存在し得る

    View Slide

  67. 局所的に正確 (Locally Correct) な回帰モデルの例
    0 1 2 3
    0 1
    4 1 3 2
    50 47 - 20 - 21
    3 1
    ● 局所正確性の仮定は異なる⾏動クラスター間の関係性に
    ついては何も要求していないことに注意
    ● 局所正確性の仮定は報酬関数(“q”)⾃体を知っていることよりも明らかに弱い
    ● また局所的に正確な回帰モデルは無限に存在し得る

    View Slide

  68. 局所的に正確 (Locally Correct) な回帰モデルの例
    0 1 2 3
    0 1
    4 1 3 2
    4 1 3 2
    3 1
    ● 局所正確性の仮定は異なる⾏動クラスター間の関係性に
    ついては何も要求していないことに注意
    ● 局所正確性の仮定は報酬関数(“q”)⾃体を知っていることよりも明らかに弱い
    ● また局所的に正確な回帰モデルは無限に存在し得る

    View Slide

  69. OffCEM推定量の不偏性
    ● IPS/MIPS推定量の利点 (不偏性 + ⼀致性) を基本的には保持
    ● 局所正確性の仮定はno direct effectや真の期待報酬関数を
    知っていることよりも弱い仮定 (つまりMIPSより不偏になりやすい)
    ● 局所正確性の仮定が満たされないときOffCEM推定量のバイアスは︖
    局所正確性と共通clusterサポートのもとでOffCEMは不偏

    View Slide

  70. 仮定が満たされない場合のバイアス分析 (Thm 3.5)
    Bias of OffCEM
    (1)
    (2)
    (1) relative value difference
    の推定精度
    (2) 各⾏動クラスター内での
    ⽅策の類似性 によりOffCEM推定量のバイアスが決定
    local correctnessが正しいときゼロになる

    View Slide

  71. 提案推定量の統計性能を分析
    ● 局所正確性という全く新たな仮定のもとでの不偏性
    ● バイアスの⼤きさは、回帰モデルによる各⾏動クラスター内での
    relative(pairwise) value differenceの推定精度によって決まる
    ● バリアンスの⼤きさは、回帰モデルによる各⾏動の
    absolute valueの推定精度によって決まる
    ● 上記のBias-Variance分析に基づくと、回帰モデルの
    理想的な最適化⽅法として2段階(2-step)最適化法が導かれる

    View Slide

  72. 分散を分析するモチベーション
    ● OffCEM推定量は局所正確性 (local correctness) のもとで不偏
    ● しかし、局所的に正確な回帰モデルは無限個存在する
    OffCEMによる推定時には結局
    どの(局所的に正確な)回帰モデルを使うのが最適︖
    OffCEM推定量

    View Slide

  73. OffCEM推定量のバリアンス
    OffCEM推定量のバリアンスは以下の通りに与えられる
    : absolute valueに対する推定誤差

    View Slide

  74. 回帰モデルを得るための2段階最適化法
    ● OffCEM推定量のバイアスは、各⾏動クラスター内における
    relative(pairwise) value differenceの推定精度に依存して決まる
    ● OffCEM推定量のバリアンスは、各⾏動のabsolute valueの
    推定精度に依存して決まる
    これまでのBias-Variance分析の知⾒をまとめると

    View Slide

  75. 回帰モデルを得るための2段階最適化法
    これまでのBias-Variance分析の知⾒をまとめると
    この事実は、以下の回帰モデルの理想的な最適化法を導く
    1段階⽬: ペアワイズ回帰を⾏うことによりバイアスを最⼩化
    2段階⽬: ベースライン関数を最適化することでバリアンスを最⼩化
    ● OffCEM推定量のバイアスは、各⾏動クラスター内における
    relative(pairwise) value differenceの推定精度に依存して決まる
    ● OffCEM推定量のバリアンスは、各⾏動のabsolute valueの
    推定精度に依存して決まる

    View Slide

  76. 1. バイアス最⼩化ステップ
    relative value differenceを推定するための以下のペアワイズ回帰を⾏う
    2. 分散最⼩化ステップ
    各クラスターについてのベースライン関数を最適化することでabsolute valueを近似
    回帰モデルを得るための2段階最適化法
    ペアワイズ回帰モデルとベースライン関数を⾜し合わせることで回帰モデルを定義

    View Slide

  77. バイアスを最⼩化するためのペアワイズ回帰 (1段階⽬)
    事前に学習されたクラスタリング関数のもとでペアワイズ回帰を実⾏
    ここでは、ペアワイズ回帰を⾏うための前処理を施したデータを利⽤
    有限な特徴空間を仮定

    View Slide

  78. バイアスを最⼩化するためのペアワイズ回帰 (1段階⽬)
    ペアワイズ回帰を⾏うためには、推薦システム形式のデータを利⽤
    “a” a1 a2 a3 … a999 a1000
    “c” c1 … c100
    x1 0.1 missing 1 … missing 2
    x2 0.5 0.3 missing … 0.0 0.7
    … …
    finitely
    many
    users

    View Slide

  79. ベースライン関数の最適化による分散最⼩化 (2段階⽬)
    その後、各クラスターごとにベースラインを最適化することで分散を最⼩化
    ペアワイズ回帰モデルの推定誤差
    OffCEM推定量 w/ 2段階回帰

    View Slide

  80. ここまでのまとめ
    ● MIPS推定量は汎⽤的で有効な分散減少法だが、no direct effect
    の仮定に関して重⼤なbias-variance dilemmaを抱える
    ● no direct effectの仮定を排除すべく、MIPSの定式化をさらに
    ⼀般化したConjunct Effect Model (CEM) を採⽤
    ● CEMに基づき、クラスター効果をmodel-freeに
    残差効果をmodel-basedに推定するOffCEMを提案
    ● OffCEMは、局所正確性という新たな仮定のもとで不偏性を
    保ちつつIPS/MIPS/DRに対しバリアンスを⼤幅に改善
    ● さらに統計分析に基づき、1段階⽬でバイアスを、2段階⽬で分散を
    それぞれ最⼩化する回帰モデルの2段階最適化法を提案

    View Slide

  81. 実験結果

    View Slide

  82. ⼈⼯データ実験
    ● ベースライン
    ○ DM, IPS, DR, MIPS (w/ true marginal importance weight)
    ○ OffCEM (w/ 真の⾏動クラスター + 2段階回帰)
    ● デフォルト実験設定
    ○ データ数: 3,000、⾏動数: 1,000, ⾏動クラスター数: 50
    ○ 5次元の離散⾏動特徴量
    ○ 各次元の要素数は10、すなわち⾏動特徴量の総要素数は10^5=100,000

    View Slide

  83. 推定精度の⽐較
    OffCEM推定量は特に困難な状況で既存推定量を凌駕
    (データが少なく⾏動数が多い設定で70-90%の精度改善)
    データが少なくても正確 ⾏動数の増加に対して頑健
    unsupported actions
    の増加に対して頑健

    View Slide

  84. バイアス-バリアンス分解
    OffCEMはIPS/MIPSと似た⼩さなバイアス
    およびDMと似た⼩さな分散を達成
    平均⼆乗誤差 (MSE) バイアス バリアンス

    View Slide

  85. w f
    MIPS 0
    + clustering 0
    + regression
    + clustering & one-step reg
    + clustering & two-step reg
    Ablation
    Study
    我々の
    提案
    提案推定量の
    構成要素を
    徐々に加える
    基本形

    View Slide

  86. Ablation Study (OffCEMの構成要素の貢献度を分解)
    クラスター重要度重みと回帰モデルを組み合わせること、
    および2段階回帰を⾏うことが重要

    View Slide

  87. Ablation Studyにおけるバイアス-バリアンス分解
    ● 単なるクラスタリングは分散を下げるが⼤きなバイアスを発⽣
    ● 単なる回帰モデルの追加はMIPSを改善するものの、分散の意味で改善余地あり
    ● クラスタリングと回帰モデルを組み合わせることがMIPSの改善のために重要
    ● また、2段階回帰を⾏うことで主にバイアスの減少による更なる改善が⾒込める
    平均⼆乗誤差 (MSE) バイアス バリアンス

    View Slide

  88. Extreme Classification Dataを⽤いた実データ実験
    ● ⼈⼯データに加えて、数千-数万の⾏動数を誇る分類データを⽤いた
    実データ実験において、ごく簡易なヒューリスティッククラスタリングに
    基づいた場合でも、OffCEMがベースラインよりも正確であることを実証
    ● より洗練された⾏動クラスタリング⼿法の開発によるさらなる改善余地あり

    View Slide

  89. まとめと今後
    ● オフ⽅策評価の新たな定式化として、期待報酬関数を特徴量/クラスター効果と
    残差効果に分解するConjunct Effect Model; CEMを導⼊
    ● CEMに基づいたOffCEM推定量は、回帰モデルの局所正確性のもとで不偏であり、
    またIPS, DR, MIPSなどのベンチマークよりも優れた統計性能を発揮
    ● さらに統計分析に基づき、1段階⽬でバイアスを、2段階⽬で分散を
    それぞれ最⼩化する回帰モデルの2段階最適化法を提案
    ● ⼈⼯・実データ実験において、特に困難な問題において提案推定量がMSEに
    ⼤きな改善をもたらすことや2段階回帰によるバイアス減少効果を観測
    ● Future workとして、⾏動の表現学習やoff-policy learningへの拡張を進⾏中

    View Slide

  90. Thank you!
    contact:[email protected]

    View Slide