Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Off-Policy Evaluation for Large Action Spaces via Embeddings (ICML'22)

usaito
PRO
July 04, 2022

Off-Policy Evaluation for Large Action Spaces via Embeddings (ICML'22)

文脈付きバンディットにおけるオフ方策評価は、過去のログデータのみを用いた新しい方策の性能評価を可能にするため、多くの実応用で急速に採用されている。しかし、行動数が多くなる場合に、既存の推定量(多くは傾向スコア重み付けに基づく)の精度が著しく悪化してしまう問題がある。これは、推薦システムや言語モデルなど、行動数が多くなりがちな応用において特に深刻な未解決問題である。本講演では、この問題を解決するために、行動の埋め込み情報を活用した新たな推定量MIPSを提案する。またMIPSの重要な統計的性質を分析し、特に行動数が多い状況において、従来の推定量に対して統計的な利点をもたらすことを示す。最後に、MIPSが既存の推定量よりも行動数の増加に対して頑健であることを示す実験結果を紹介する。

usaito
PRO

July 04, 2022
Tweet

More Decks by usaito

Other Decks in Research

Transcript

  1. ⼤規模問題における
    オフ⽅策評価の課題と解決策
    Off-Policy Evaluation for Large Action Spaces via Embeddings (ICMLʼ22)
    齋藤 優太 (Yuta Saito)

    View Slide

  2. 簡単に⾃⼰紹介
    名前︓齋藤 優太
    経歴︓東⼯⼤学部卒 (21.3) => Cornell Univ, CS PhD (21.9-)
    研究領域︓オフ⽅策評価 / 推薦・ランキングの公平性
    研究実績︓NeurIPS, ICML, KDD, SIGIR, WSDM, RecSysなど
    その他
    - Forbes Japan 30 Under 30 2022 (with 佐々⽊朗希⼤投⼿ら)
    - ⽇本オープンイノベーション⼤賞 内閣総理⼤⾂賞
    - 孫正義育英財団第6期⽣ / 船井情報科学振興財団奨学⽣
    - 施策デザインのための機械学習⼊⾨の執筆・出版
    usaito

    View Slide

  3. あらすじ
    前半
    ● オフ⽅策評価 (Off-Policy Evaluation; OPE) の基礎
    ● 重要推定量 (IPS推定量) の⼤規模問題における課題
    後半 (ICMLʼ22論⽂)
    ● ⼤規模問題におけるIPS推定量(やそれに基づく全ての推定量)
    の課題を解決し、正確なオフ⽅策評価を可能にする新たな
    枠組みと推定量を提案

    View Slide

  4. 参考論⽂
    ● ⼤規模問題における
    オフ⽅策評価
    ● 重要推定量であるIPSの
    ⽋陥を⼤幅改善
    ● ICML2022にて発表
    (w/ Thorsten Joachims)
    https://arxiv.org/abs/2202.06317

    View Slide

  5. 機械学習による意思決定
    機械学習を予測のためではなく、意思決定のために活⽤する例が多数
    ユーザー
    アイテム推薦(⾏動)の意思決定
    クリック
    ⽅策
    報酬の予測ではなく
    報酬の最⼤化がゴール

    View Slide

  6. 機械学習による意思決定のインダストリー応⽤
    新たに開発したアルゴリズム(⽅策)の性能を
    ログデータのみを⽤いて安全かつ正確に評価したい
    オフ⽅策評価 (OPE)
    ● YouTubeによる動画推薦
    ● Spotifyによるプレイリスト推薦
    ● Netflixによるサムネイル最適化
    ● 共同研究先: Sony/CyberAgent/Yahoo/リクルート

    View Slide

  7. ⼤規模⾏動空間に対応できる推定量が現状存在しない..
    新たに開発したアルゴリズム(⽅策)の性能を
    ログデータのみを⽤いて安全かつ正確に評価したい
    ⼤規模問題
    数千から数百万という⼤量の
    ⾏動(アイテム)に対応する必要
    オフ⽅策評価 (OPE)
    最新の推定量でも
    対応が⾮常に困難
    ● YouTubeによる動画推薦
    ● Spotifyによるプレイリスト推薦
    ● Netflixによるサムネイル最適化
    ● 共同研究先: Sony/CyberAgent/Yahoo/リクルート

    View Slide

  8. 現在運⽤中の⽅策による蓄積データ
    特徴量 (ユーザー情報) を観測する
    現在の⽅策 が⾏動 (アイテム) を選択する
    報酬 (クリック有無, 売上, etc) を観測する
    オフ⽅策評価では、現在の⽅策が⾃然に蓄積したログデータをフル活⽤
    データ蓄積の
    基本プロセス

    View Slide

  9. オフ⽅策評価: Off-Policy Evaluation
    データ収集⽅策 (logging policy) によって蓄積されるログデータ
    where
    未知 未知
    既知

    View Slide

  10. オフ⽅策評価: Off-Policy Evaluation
    OPEのモチベーション: 未だ導⼊したことのない新たな⽅策の性能推定
    ⽅策の性能 = 仮にその⽅策を実装したとしたときに得られる期待報酬
    (CTR, CVR, 売上, etc.)
    評価⽅策 (eval policy)
    評価⽅策の性能
    (policy value)

    View Slide

  11. オフ⽅策評価: Off-Policy Evaluation
    具体的には、できる限り正確な性能推定を可能にする推定量が欲しい
    where
    真の性能 (未知, 推定対象) 推定量 (estimator)
    新たな⽅策とは異なる
    古い⽅策が収集した
    ログデータのみを活⽤

    View Slide

  12. オフ⽅策評価: Off-Policy Evaluation
    推定量の正確さは以下の Mean-Squared-Error; MSE により定量化
    where
    良い推定量を作るためには
    バイアスとバリアンスを
    共に抑えてあげる必要がある

    View Slide

  13. オフ⽅策評価: Off-Policy Evaluation
    古い⽅策を運⽤する中でログデータ
    が⾃然と蓄積
    ログデータのみを⽤いてオフ⽅策評価
    新たな⽅策
    を開発
    新たな⽅策を
    A/Bテストor 運⽤
    新たな⽅策の
    性能が良好
    新たな⽅策の
    性能が微妙

    View Slide

  14. 基本推定量: Inverse Propensity Score (IPS)
    重要度重み
    (importance weight)
    IPS推定量: 重要度により観測報酬を重み付け平均
    ● いくつかの仮定のもとで不偏性と⼀致性を持ち、真の性能に収束

    View Slide

  15. IPS推定量の不偏性
    IPS推定量は、真の性能に対する不偏かつ⼀致推定を達成
    なお、データ収集⽅策が評価⽅策に対して共通サポートを持つ必要がある

    View Slide

  16. データ数の増加に対するIPSの挙動 DM推定量: 不偏ではないベースライン
    IPSはデータが少ないとき不安定だが
    データが増えるにつれ真の値に収束
    ⾏動数=250
    データ数を徐々に増やしていく
    この性質によりIPSがその他
    多くの推定量の基礎となっている
    ⼩規模 ⼤規模
    where

    View Slide

  17. ⾏動数の増加に対するIPSの挙動
    データ数=3000
    ⾏動数を徐々に増やしていく
    ⼀⽅で、⾏動数が増えるにつれ
    分散が増加し、精度が急激に悪化
    ⼩規模 ⼤規模
    ⾏動数の増加により
    重要度重みが爆発
    IPS推定量

    View Slide

  18. より最近の発展的な推定量を使えば良いのでは︖
    より最近の発展的な推定量
    ● Doubly Robust (DR) [Dudik+11,14]
    ● Switch DR [Wang+17]
    ● DR with Optimistic Shrinkage [Su+20]
    ● DR with lambda-smoothing [Metelli+21]
    これら全ての推定量が
    IPSと同様の重みを使⽤
    結局のところ⼤規模問題では
    分散かバイアスの問題を抱える
    Doubly Robust (DR) 推定量
    IPSと同じ重要度重みに依存

    View Slide

  19. より最近の発展的な推定量を使えば良いのでは︖
    より最近の発展的な推定量
    ● Doubly Robust (DR) [Dudik+11,14]
    ● Switch DR [Wang+17]
    ● DR with Optimistic Shrinkage [Su+20]
    ● DR with lambda-smoothing [Metelli+21]
    これら全ての推定量が
    IPSと同様の重みを使⽤
    結局のところ⼤規模問題では
    分散かバイアスの問題を抱える
    https://youtu.be/HMo9fQMVB4w
    この辺の詳細は
    我々のRecSysʼ21
    チュートリアルを参照

    View Slide

  20. 発展的な推定量を⽤いたところで同様の問題が発⽣
    単に発展推定量を使うだけでは⼤規模⾏動空間に対応不可
    DRはIPSと同様の⾮常に
    不安定な挙動を⾒せる
    その他の推定量は重要度重み
    に変更を加えるため
    ⼤きなバイアスが発⽣
    ⾏動数を徐々に増やしていく

    View Slide

  21. 本研究の主たるモチベーション
    より最近の発展的な推定量
    ● Doubly Robust (DR) [Dudik+11,14]
    ● Switch DR [Wang+17]
    ● DR with Optimistic Shrinkage [Su+20]
    ● DR with lambda-smoothing [Metelli+21]
    これら全ての推定量が
    IPSと同様の重みを使⽤
    結局のところ⼤規模問題では
    分散かバイアスの問題を抱える
    IPS推定量の利点 (不偏性など) をできる限り保持しつつ
    ⼤規模⾏動空間における課題を解決する新たな推定量を作りたい
    (IPS推定量が使っている重要度重みの使⽤をどうにか回避する必要がありそう)
    Yuta Saito, Thorsten Joachims. Off-Policy Evaluation
    for Large Action Spaces via Embeddings. ICML2022.
    本研究のモチベーション

    View Slide

  22. オフ⽅策評価の典型的なログデータ
    特徴量 ⾏動 ??? ??? 購⼊有無
    ユーザ 1 商品 A ??? ??? 1
    ユーザ 2 商品 B ??? ??? 0
    … … … … …
    アマゾン商品推薦におけるログデータの例

    View Slide

  23. ⾏動についての特徴量 (⾏動特徴量) が存在しているはず
    特徴量 ⾏動 カテゴリー 値段 購⼊有無
    ユーザ 1 商品 A 書籍 2000円 1
    ユーザ 2 商品 B コンピュータ 10万円 0
    … … … … …
    アマゾン商品推薦におけるログデータの例

    View Slide

  24. 鍵となるアイデア: ⾏動について通常観測されるはずの追加情報を活⽤
    ほとんどの場合、追加的に
    ⾏動特徴量を観測するはず
    既存論⽂で
    ⼀般的なログデータ
    ⾏動特徴量を含む
    ログデータ
    ⾏動特徴量をオフ⽅策評価に活⽤しない理由はない

    View Slide

  25. オフ⽅策評価における新たなデータ⽣成仮定
    典型的なデータ⽣成過程を以下のように⼀般化する
    未知 未知
    既知 未知
    ⾏動特徴量の分布を新たに導⼊
    あらゆる⾏動特徴量を考慮可能
    (離散/連続, 決定的/確率的, etc..)

    View Slide

  26. 多種多様な⾏動特徴量の例
    特徴量 ⾏動 カテゴリー 値段 購⼊有無
    ユーザ 1 商品 A 書籍 2000円 1
    ユーザ 2 商品 B コンピュータ 10万円 0
    … … … … …
    ● 離散
    ● context⾮依存
    ● 決定的
    ● 連続
    ● context依存
    ● 確率的
    例えば、値段が確率的個別
    価格最適化アルゴリズムに
    より⽣成されていた場合

    View Slide

  27. オフ⽅策評価における新たなデータ⽣成仮定
    ⾏動特徴量をどのように活⽤すると⾏動数の増加に対応できるか︖
    未知 未知
    既知 未知
    ⾏動特徴量の分布を新たに導⼊
    *本研究の主⽬的は、ある⾏動特徴量が与えられたときにそれがOPEにどのような利益をもたらすかを
    分析/理解することであり、⾏動特徴量⾃体を表現学習等により最適化することなどはfuture work

    View Slide

  28. 提案推定量: Marginalized Inverse Propensity Score (MIPS)
    ⾏動特徴量を活⽤した次のMIPS推定量を提案
    Marginalized IPS (MIPS)
    周辺重要度重み
    なお
    ある⽅策が与えられたときの
    ⾏動特徴量の周辺分布
    (marginal distribution)

    View Slide

  29. ⾏動特徴量の周辺分布に基づく重要度重み
    映画 (“a”) ⽅策: カテゴリ (“e”) 周辺分布:
    テネット 0.2 SF 0.4
    ロッキー 0.1 スポーツ 0.6
    スターウォーズ 0.2 SF 0.4
    マネーボール 0.5 スポーツ 0.6
    ⾏動特徴量
    ⽅策と⾏動特徴量が与えられたら、周辺分布を即座に計算可能

    View Slide

  30. ⾏動特徴量の周辺分布に基づく重要度重み
    映画 (“a”) ⽅策: カテゴリ (“e”) 周辺分布:
    テネット 0.2 SF 0.4
    ロッキー 0.1 スポーツ 0.6
    スターウォーズ 0.2 SF 0.4
    マネーボール 0.5 スポーツ 0.6
    * 実践ではこの簡易具体例のように⾏動特徴量が1次元・離散である必要はない
    ** ⾏動 -> ⾏動特徴量の変換は確率的であっても良い
    ⾏動特徴量

    View Slide

  31. 提案推定量: Marginalized Inverse Propensity Score (MIPS)
    ⾏動特徴量を活⽤した次のMIPS推定量を提案
    IPSで使っていた重要度
    Marginalized IPS (MIPS)
    周辺重要度重み
    諸悪の根源であるIPSの重要度の存在を消去
    => 分散の⼤幅な改善が期待

    View Slide

  32. ● ⾏動数が多ければ多いほど、IPS推定量と⽐較して分散を⼤きく減少
    MIPS推定量が持つ望ましい性質
    ● IPS推定量とは異なる仮定のもとで不偏

    View Slide

  33. ● ⾏動数が多ければ多いほど、IPS推定量と⽐較して分散を⼤きく減少
    MIPS推定量が持つ望ましい性質
    ● IPS推定量とは異なる仮定のもとで不偏

    View Slide

  34. MIPSはIPSとは異なる仮定のもとで不偏
    No Direct Effectと共通embedサポートのもとでMIPSは不偏
    共通embedサポート: ⾏動特徴量空間のみ⼗分にカバーしていれば良い

    View Slide

  35. MIPSはIPSとは異なる仮定のもとで不偏
    No Direct Effectと共通embedサポートのもとでMIPSは不偏
    ● IPS推定量の利点 (不偏性+⼀致性) を基本的には保持
    ● No Direct Effectの仮定とは︖

    View Slide

  36. ⾏動特徴量の質に関するNo Direct Effectの仮定
    ⾏動の因果効果を説明できるだけの
    ⼗分な情報量が⾏動特徴量に含まれているべき
    ⾏動”a”から報酬“r” への
    因果効果はすべて“e”を媒介
    報酬への影響を完全に説明できる
    ⾏動特徴量を観測している
    ⾏動 ⾏動
    特徴量
    報酬

    View Slide

  37. ⾏動特徴量の質に関するNo Direct Effectの仮定
    MIPS推定量の不偏性に必要なNo Direct Effectの仮定
    すなわち

    View Slide

  38. No Direct Effect Assumption: 具体例
    ⾏動特徴量だけで視聴確率の違いを説明しきれていないので仮定は満たされない
    (=> 仮定を満たすためにはより⾼次元の⾏動特徴量が必要)
    映画 (“a”) カテゴリ (“e”) 視聴確率 (“r”)
    テネット SF 10%
    ロッキー スポーツ 5%
    スターウォーズ SF 20%
    マネーボール スポーツ 30%

    View Slide

  39. No Direct Effect Assumption: 具体例
    ⾏動特徴量が同じであれば視聴確率も同じなので仮定が満たされている
    (カテゴリに⼗分な情報が含まれている)
    映画 (“a”) カテゴリ (“e”) 視聴確率 (“r”)
    テネット SF 10%
    ロッキー スポーツ 5%
    スターウォーズ SF 20%
    マネーボール スポーツ 30%

    View Slide

  40. MIPSはIPSとは異なる仮定のもとで不偏
    ● IPS推定量の利点 (不偏性+⼀致性)を基本的には保持
    ● No Direct Effectの仮定が満たされない場合でも、⾏動特徴量に
    多くの情報量を詰め込むことでバイアスを⼩さく抑制できる
    (詳しいバイアスの分析は論⽂のTheorem 3.5を参照)
    No Direct Effectと共通embedサポートのもとでMIPSは不偏

    View Slide

  41. 仮定が満たされない場合のバイアス分析 (Thm 3.5)
    Bias of MIPS (1)
    (2)
    No Direct Effectの仮定がもしも満たされなかった場合...

    View Slide

  42. 仮定が満たされない場合のバイアス分析 (Thm 3.5)
    (1) ⾏動特徴量が与えられた
    時の⾏動の判別可能性
    バイアス減少のためには⾏動特徴量に多くの情報を詰め込むべき
    Bias of MIPS
    (1)
    (2)
    No Direct Effectの仮定がもしも満たされなかった場合...

    View Slide

  43. 仮定が満たされない場合のバイアス分析 (Thm 3.5)
    (2) ⾏動“a”から報酬“r”への
    直接効果 (direct effect)の⼤きさ
    バイアス減少のためには⾏動特徴量に多くの情報を詰め込むべき
    Bias of MIPS
    (1)
    (2)
    No Direct Effectの仮定がもしも満たされなかった場合...

    View Slide

  44. ● ⾏動数が多ければ多いほど、IPS推定量と⽐較して分散を⼤きく減少
    MIPS推定量が持つ望ましい性質
    ● No Direct Effectと共通embedサポートのもとで不偏

    View Slide

  45. MIPS推定量による分散の⼤幅な減少 (Thm 3.6)
    (前提として)MIPSの分散がIPSのそれよりも
    ⼤きくなることはない
    IPS推定量とMIPS推定量の分散の差を計算

    View Slide

  46. MIPSによる分散の減少
    MIPSによる分散減少は次の場合に⼤きくなる
    ● IPSが使っていた重要度の分散が⼤きい (⾏動数が多いほど分散改善)
    ● ⾏動特徴量が有する情報量が多くない ( がstochastic)
    ⾏動特徴量で条件付けた⾏動分布

    View Slide

  47. ⾏動特徴量が有する情報量によりバイアスと分散が決定
    ● バイアスを減らす or 不偏になるためには
    できる限りの情報を⾏動特徴量に詰め込むべき
    ● 分散を減らすためには⾏動特徴量に詰め込む情報を制限すべき
    戦略的/意図的に⾏動特徴量の情報量を制限して
    No Direct Effectを積極的に破ることでMSEをさらに改善可能
    (⾏動特徴量をいくらか意図的に”捨てる”)
    MIPSのBias-Varianceトレードオフは
    ⾏動特徴量の表現⼒によって制御されることが判明

    View Slide

  48. ⼈⼯データ実験
    ● ⽐較推定量
    ○ DM, IPS, DR (=DMとIPSの組み合わせ)
    ○ MIPS (estimated weight) and MIPS (true weight)
    ● デフォルト設定
    ○ データ数: 10,000 & ⾏動数: 1,000 (これまで検証されてない⼤規模設定)
    ○ 3次元の離散⾏動特徴量
    ○ 各次元の要素数は10, すなわち⾏動特徴量空間の総要素数は10^3=1,000
    真の重みを⽤いたMIPS
    (MIPSにより達成可能な精度の上限)

    View Slide

  49. MIPSは⼤規模問題におけるジレンマを解決
    ⾏動数を徐々に増やしていく
    ⼩規模 ⼤規模
    ⾏動数が多いときにMIPSは
    IPSやDRより10倍以上正確
    特に⾏動数が増えるにつれて
    MIPS推定量の優位性が強調

    View Slide

  50. MIPSは⼤規模問題におけるジレンマを解決
    データ数を徐々に増やしていく
    ⼩規模 ⼤規模
    データ数を増やした時には
    MIPS推定量はIPS推定量のような
    振る舞いを⾒せる
    (IPS推定量の利点を保持)
    またデータが多いとき
    DM推定量より10倍以上正確

    View Slide

  51. MIPSは⼤規模問題におけるジレンマを解決
    MIPS推定量はデータ数と⾏動数の両⽅についてDM+IPS+DRを凌駕
    データ数の増加をフル活⽤
    ⾏動数の増加に対して頑健
    IPS&DR IPS&DR
    MIPS
    MIPS

    View Slide

  52. 仮定が満たされないときの⽅がMSEの意味では良い
    ● 20次元ある⾏動特徴量を全て
    使った場合、no direct effect
    の仮定が満たされる
    ● ⾏動特徴量の次元をあえて
    徐々に捨てていく
    “あえて”使わない⾏動特徴量の次元を徐々に増やしていく
    no direct effectを意図的に
    破ることでMSEを改善可能

    View Slide

  53. 仮定が満たされないときの⽅がMSEの意味では良い
    観測されない特徴量次元が
    増えるにつれバイアスは増⼤
    ⼀⽅、⾏動特徴量が
    粗くなることで分散が減少
    バイアス 分散

    View Slide

  54. ⾏動特徴量の次元選択を⾏うことでMSEをさらに改善可能
    “SLOPE” [Su et al.2020]
    に基づいた⾏動特徴量選択
    によりMSEの⾃動/データ
    駆動最適化が可能
    (詳細は論⽂へ)
    Yi Su, Pavithra Srinath, Akshay
    Krishnamurthy. Adaptive Estimator
    Selection for Off-Policy Evaluation.
    ICML2020.

    View Slide

  55. MIPS推定量のその他の利点
    評価⽅策が決定的に近い 報酬へのノイズが⼤きい
    ⾏動数の増加に加え、MIPSは下記の実践的な設定で⾮常に頑健
    deterministic uniform

    View Slide

  56. 全体のまとめ
    ● OPEの根幹を成すIPS推定量には、⼤規模問題において重⼤な⽋陥
    ● IPSに根本的な改善をもたらすため、⾏動特徴量を導⼊することで
    これまで全ての論⽂が⽤いてきたログデータ/データ⽣成過程を⼀般化
    ● ⾏動特徴量の周辺分布を活⽤した新たな推定量MIPSを提案
    ● これまで試されてこなかった⼤規模データを⽤いてMIPS推定量が
    データ数及び⾏動数の増加に対し、DM/IPS/DRを凌駕する性能を発揮

    View Slide

  57. 全体のまとめ
    ● OPEの根幹を成すIPS推定量には、⼤規模問題において重⼤な⽋陥
    ● IPSに根本的な改善をもたらすため、⾏動特徴量を導⼊することで
    これまで全ての論⽂が⽤いてきたログデータ/データ⽣成過程を⼀般化
    ● ⾏動特徴量の周辺分布を活⽤した新たな推定量MIPSを提案
    ● これまで試されてこなかった⼤規模データを⽤いてMIPS推定量が
    データ数及び⾏動数の増加に対し、DM/IPS/DRを凌駕する性能を発揮
    重みの定義を変えるだけでDRなどIPS推定量の派⽣として定義される
    あらゆる推定量を秒で⼤幅に改善可能 (シンプルな⼿法を追求する利点)

    View Slide

  58. Thank you!
    email: [email protected]
    論⽂: https://arxiv.org/abs/2202.06317
    実験実装: https://github.com/usaito/icml2022-mips
    OBPにも実装: https://github.com/st-tech/zr-obp

    View Slide

  59. Appendix

    View Slide

  60. ⽅策の性能の新たな表現
    no direct effectの仮定が正しいとき
    ⾏動aに依存しない⽅策性能の新たな表現
    評価⽅策の真の性能

    View Slide

  61. ⽅策の性能の新たな表現
    なお
    ある⽅策が与えられたときの
    ⾏動特徴量の周辺分布
    (marginal distribution)
    no direct effectの仮定が正しいとき

    View Slide

  62. ⽅策の性能の新たな表現
    no direct effectの仮定が正しいとき
    ⾏動aに依存しない⽅策性能の新たな表現
    ⾏動特徴量の分布のみで⽅策の性能を⼗分表現可能
    元々のIPS推定量

    View Slide

  63. データドリブンな⾏動特徴量選択
    MIPSのMSEを最⼩化する⾏動特徴量の次元を知りたい
    ここで は、⾏動特徴量の各次元
    が多くの情報を含むとき⼩さい があまり情報を含まないとき⼩さい

    View Slide

  64. データドリブンな⾏動特徴量選択
    ● MIPSのMSEを最⼩化する⾏動特徴量の次元を知りたい
    ● しかしMSEを最⼩化するためにはバイアスを推定する必要があり、
    バイアスは評価対象の⽅策の真の性能に依存するため推定が困難
    評価⽅策の真の性能に依存

    View Slide

  65. データドリブンな⾏動特徴量選択
    ● MIPSのMSEを最⼩化する⾏動特徴量の次元を知りたい
    ● しかしMSEを最⼩化するためにはバイアスを推定する必要があり、
    バイアスは評価対象の⽅策の真の性能に依存するため推定が困難
    ● そこで “SLOPE” [Su+20] [Tucker+21] を活⽤した次元選択を採⽤
    ● SLOPE はOPEにおける推定量のハイパラチューニングのために提案され
    バイアスを推定することなく、MSEを最⼩化することが (ある程度) 可能
    詳細は論⽂をぜひ

    View Slide

  66. Marginalized Importance Weightの推定
    ● logging policyが既知だったとしても⾏動特徴量の分布 が
    未知や扱いにくい場合は の推定が必要になる
    ● このmarginal importance weightの推定には次の変形を活⽤すると良い
    を推定してから
    と計算
    つまり、

    View Slide