Off-Policy Evaluation and Learning for Large Action Spaces via Conjunct Effect Modeling (ICML23)

報酬関数の新たな分解に基づいた⼤規模問題でも正確なオフライン評価 Off-Policy Evaluation for Large Action Spaces via Conjunct
Effect Modeling (ICML23) 齋藤優太 [email protected] / https://usait0.com/ja/

齋藤優太 ( https://usait0.com/ja/ ) 経歴︓東⼯⼤学部卒 (21.3) => Cornell Univ, CS
PhD (21.9-) 研究領域︓オフ⽅策評価 / 推薦・ランキングの公平性研究実績︓NeurIPS, ICML, KDD, SIGIR, WSDM, RecSysなどその他 - Forbes Japan 30 Under 30 2022 (with 佐々⽊朗希投⼿ら) - ⽇本オープンイノベーション⼤賞内閣総理⼤⾂賞 - 孫正義育英財団第6期⽣ / 船井情報科学振興財団奨学⽣ - 施策デザインのための機械学習⼊⾨の執筆・出版 - RecSysやKDDでチュートリアル・ワークショップの開催 - ⽇本国内5-6社と共同研究・CFML関連の技術相談 usaito

あらすじ前半 • オフ⽅策評価 (Off-Policy Evaluation) の基礎と⼤規模問題における課題 • ⾏動特徴量を利⽤した既存の解決策 (MIPS推定量,
ICMLʼ22) 後半 • MIPS推定量に残された課題 • MIPS推定量の課題を解決する新たな枠組み ”Conjunct Effect Model”とOffCEM推定量の提案 (ICML23採択)

機械学習による意思決定機械学習を予測のためではなく、意思決定のために活⽤する例が多数ユーザーアイテム推薦(⾏動)の意思決定クリック⽅策報酬の予測ではなく報酬の最⼤化がゴール

機械学習による意思決定のインダストリー応⽤新たに開発したアルゴリズム(⽅策)の性能をログデータのみを⽤いて安全かつ正確に評価したいオフ⽅策評価 (OPE) • YouTubeによる動画推薦 • Spotifyによるプレイリスト推薦 •
Netflixによるサムネイル最適化 • 共同研究先: Sony/CyberAgent/Yahoo/リクルート

機械学習による意思決定のインダストリー応⽤新たに開発したアルゴリズム(⽅策)の性能をログデータのみを⽤いて安全かつ正確に評価したい⼤規模問題数千から数百万という⼤量の⾏動(アイテム)に対応する必要オフ⽅策評価 (OPE) 最新の推定量でも対応が⾮常に困難
• YouTubeによる動画推薦 • Spotifyによるプレイリスト推薦 • Netflixによるサムネイル最適化 • 共同研究先: Sony/CyberAgent/Yahoo/リクルート

現在運⽤中の⽅策による蓄積データ特徴量 (ユーザー情報) を観測する現在の⽅策が⾏動 (アイテム) を選択する報酬 (クリック有無
/ 売上) を観測するデータ蓄積の基本プロセスオフ⽅策評価では、現在の⽅策が⾃然に蓄積したログデータをフル活⽤

オフ⽅策評価: Off-Policy Evaluation データ収集⽅策 (logging policy) によって蓄積されるログデータなお未知未知
既知

オフ⽅策評価: Off-Policy Evaluation OPEのモチベーション: 未だ導⼊したことのない新たな⽅策の性能推定⽅策の性能 = 仮にその⽅策を実装したとしたときに得られる期待報酬 (CTR, CVR,
売上, etc.) 評価⽅策 (eval policy) 評価⽅策の性能 (policy value) ⽅策の性能の定義は他にもあり得る: https://arxiv.org/abs/2104.08977

オフ⽅策評価: Off-Policy Evaluation 具体的には、できる限り正確な性能推定を可能にする推定量が欲しいなお真の性能 (未知, 推定対象) 推定量 (estimator)
新たな⽅策とは異なる古い⽅策が収集したログデータのみを活⽤

オフ⽅策評価: Off-Policy Evaluation 推定量の正確さは以下の Mean-Squared-Error; MSE により定量化なお良い推定量を作るにはバイアスとバリアンスを
共に抑えてあげる必要がある

オフ⽅策評価: Off-Policy Evaluation 古い⽅策を運⽤する中でログデータが⾃然と蓄積新たな⽅策を開発新たな⽅策を A/Bテストor 運⽤
新たな⽅策の性能が良好新たな⽅策の性能が微妙ログデータのみを⽤いたオフ⽅策評価

基本推定量: Inverse Propensity Score (IPS) 重要度重み (importance weight) IPS推定量: 重要度により観測報酬を重み付け平均
• いくつかの仮定の元で不偏性と⼀致性を持ち、真の性能に収束

IPS推定量の不偏性 IPS推定量は、真の性能に対する不偏かつ⼀致推定を達成なお、データ収集⽅策が評価⽅策に対して共通サポートを持つ必要がある不偏性⼀致性

データ数の増加に対するIPSの挙動 DM推定量: 不偏ではないベースライン IPSはデータが少ないとき不安定だがデータが増えるにつれ真の値に収束⾏動数=250 データ数を徐々に増やしていくこの性質によりIPSはその他多くの推定量の基礎となっている⼩規模
⼤規模 where

⾏動数の増加に対するIPSの挙動データ数=3000 ⾏動数を徐々に増やしていく⼀⽅で、⾏動数が増えるにつれ分散が増加し、精度が急激に悪化⼩規模⼤規模⾏動数の増加により重要度重みが爆発 IPS推定量

より最近の発展的な推定量を使えば良いのでは︖ より最近の発展的な推定量 • Doubly Robust (DR) [Dudik+11,14] • Switch DR
[Wang+17] • DR with Optimistic Shrinkage [Su+20] • DR with Lambda-Smoothing [Metelli+21] これら全ての推定量が IPSと同様の重みを使⽤結局のところ⼤規模問題では分散かバイアスの問題を抱える Doubly Robust(DR)推定量 IPSと全く同じ重要度重み報酬の予測モデルを組み込みバリアンスを多少減少

より最近の発展的な推定量を使えば良いのでは︖ https://youtu.be/HMo9fQMVB4w 詳細はRecSysʼ21で⾏ったチュートリアルの動画を参照 RecSysチャンネルの全動画の中で6番⽬に多く再⽣されているより最近の発展的な推定量 • Doubly Robust
(DR) [Dudik+11,14] • Switch DR [Wang+17] • DR with Optimistic Shrinkage [Su+20] • DR with Lambda-Smoothing [Metelli+21] これら全ての推定量が IPSと同様の重みを使⽤結局のところ⼤規模問題では分散かバイアスの問題を抱える

発展的な推定量を持ってしてもほぼ同様の問題が発⽣単に発展推定量を使うだけでは⼤規模⾏動空間に対応不可 DRはIPSと同様の⾮常に不安定な挙動を⾒せるその他の推定量は重要度重みに変更を加えるため⼤きなバイアスが発⽣⾏動数を徐々に増やしていく

MIPS推定量を開発したモチベーション IPS推定量の利点 (不偏性など) をできる限り保持しつつ⼤規模⾏動空間における課題を解決する新たな推定量を作りたい (どうやらIPS推定量が使っている重要度重みの使⽤を回避する必要がありそう) Yuta Saito, Thorsten Joachims.
Off-Policy Evaluation for Large Action Spaces via Embeddings. ICML2022. 我々の⼀連の研究のモチベーションより最近の発展的な推定量 • Doubly Robust (DR) [Dudik+11,14] • Switch DR [Wang+17] • DR with Optimistic Shrinkage [Su+20] • DR with Lambda-Smoothing [Metelli+21] これら全ての推定量が IPSと同様の重みを使⽤結局のところ⼤規模問題では分散かバイアスの問題を抱える

オフ⽅策評価の典型的なログデータ特徴量⾏動 ??? ??? 購⼊有無ユーザ 1 商品 A
??? ??? 1 ユーザ 2 商品 B ??? ??? 0 … … … … … 商品推薦問題におけるログデータの例

(ICMLʼ22) 通常⾏動の特徴量(⾏動特徴量)が存在しているはず特徴量⾏動カテゴリー値段購⼊有無ユーザ 1 商品
A 書籍 2000円 1 ユーザ 2 商品 B コンピュータ 10万円 0 … … … … … 商品推薦問題におけるログデータの例

鍵となるアイデア: ⾏動について通常観測されるはずの追加情報を活⽤ほとんどの場合、追加的に⾏動特徴量を観測するはず既存論⽂で⼀般的なログデータ⾏動特徴量を含むログデータ (ICMLʼ22) ⾏動特徴量をオフ⽅策評価に活⽤しない理由はない
むしろなぜこれまで活⽤されてこなかったのか不思議

オフ⽅策評価における新たなデータ⽣成仮定典型的なデータ⽣成過程を以下のように⼀般化する未知未知既知未知 or 既知⾏動特徴量の分布を新たに導⼊あらゆるタイプの⾏動特徴量を考慮可能
(離散/連続, 決定的/確率的, etc..)

多種多様な⾏動特徴量の例特徴量⾏動カテゴリー値段購⼊有無ユーザ 1 商品 A
書籍 2000円 1 ユーザ 2 商品 B コンピュータ 10万円 0 … … … … … • 離散 • context⾮依存 • 決定的 • 連続 • context依存 • 確率的もし値段が確率的かつ個別価格最適化アルゴリズムにより⽣成されていた場合

オフ⽅策評価における新たなデータ⽣成仮定⾏動特徴量をどのように活⽤すると⾏動数の増加に対応できるか︖ 未知未知既知⾏動特徴量の分布を新たに導⼊ *本研究の主⽬的は、とある⾏動特徴量が与えられたときにそれがOPEにどのような利益をもたらすか分析することであり、⾏動特徴量⾃体を表現学習等によりOPE向けに最適化することなどはfuture workとする未知
or 既知

提案推定量: Marginalized Inverse Propensity Score (MIPS) ⾏動特徴量を活⽤した次のMIPS推定量を昨年提案 (ICMLʼ22) Marginalized IPS
(MIPS) 周辺重要度重みなおある⽅策が与えられたときの⾏動特徴量の周辺分布 (marginal distribution)

⾏動特徴量の周辺分布に基づく重要度重み映画 (“a”) ⽅策: カテゴリ (“e”) 周辺分布: テネット 0.2 SF
0.4 ロッキー 0.1 スポーツ 0.6 スターウォーズ 0.2 SF 0.4 マネーボール 0.5 スポーツ 0.6 ⾏動特徴量⽅策と⾏動特徴量が与えられたら、周辺分布を即座に計算可能

⾏動特徴量の周辺分布に基づく重要度重み *実践ではこの簡易具体例のように⾏動特徴量が1次元・離散である必要はない **⾏動 -> ⾏動特徴量の変換は確率的であっても良い映画 (“a”) ⽅策: カテゴリ (“e”)
周辺分布: テネット 0.2 SF 0.4 ロッキー 0.1 スポーツ 0.6 スターウォーズ 0.2 SF 0.4 マネーボール 0.5 スポーツ 0.6 ⾏動特徴量

提案推定量: Marginalized Inverse Propensity Score (MIPS) ⾏動特徴量を活⽤した次のMIPS推定量を提案 (ICMLʼ22) IPSで使っていた重要度周辺重要度重み
諸悪の根源であるIPSの重要度の存在を消去 => 分散の⼤幅な改善が期待

• ⾏動数が多ければ多いほど、IPS推定量と⽐較して分散を⼤きく減少 MIPS推定量が持つ望ましい性質 • IPS推定量とは異なる仮定のもとで不偏

MIPSはIPSとは異なる仮定のもとで不偏 No Direct Effectと共通embedサポートのもとでMIPSは不偏共通embedサポート: ⾏動特徴量空間のみ⼗分にカバーしていれば良い

MIPSはIPSとは異なる仮定のもとで不偏 • IPS推定量の利点 (不偏性 + ⼀致性) を基本的には保持 • No Direct
Effectの仮定とは︖ No Direct Effectと共通embedサポートのもとでMIPSは不偏

⾏動特徴量の質に関するNo Direct Effectの仮定⾏動の因果効果を説明できるだけの⼗分な情報量が⾏動特徴量に含まれているべき⾏動aから報酬“r” への因果効果はすべて“e”を媒介報酬への影響を完全に説明できる⾏動特徴量を観測している
⾏動⾏動特徴量報酬

⾏動特徴量の質に関するNo Direct Effectの仮定⾏動aから報酬“r” への因果効果はすべて“e”を媒介報酬への影響を完全に説明できる⾏動特徴量を観測している⾏動⾏動
特徴量報酬 • “r”: CV • “a”: 商品 • “e”: 値段

No Direct Effect Assumption: 具体例⾏動特徴量だけで視聴確率の違いを説明しきれていないので仮定は満たされない（=> 仮定を満たすためにはより⾼次元の⾏動特徴量が必要）映画 (“a”)
カテゴリ (“e”) 視聴確率 (“r”) テネット SF 10% ロッキースポーツ 5% スターウォーズ SF 20% マネーボールスポーツ 30%

No Direct Effect Assumption: 具体例⾏動特徴量が同じであれば視聴確率も同じなので仮定が満たされている (カテゴリに⼗分な情報が含まれている) 映画 (“a”) カテゴリ
(“e”) 視聴確率 (“r”) テネット SF 20% ロッキースポーツ 10% スターウォーズ SF 20% マネーボールスポーツ 10%

MIPSはIPSとは異なる仮定のもとで不偏 • IPS推定量の利点 (不偏性 + ⼀致性) を基本的には保持 • No Direct
Effectの仮定が満たされない場合でも、⾏動特徴量に多くの情報量を詰め込むことでバイアスを⼩さく抑制できる (詳しいバイアスの分析は論⽂のTheorem 3.5を参照) No Direct Effectの仮定もとでMIPSは不偏

• ⾏動数が多ければ多いほど、IPS推定量と⽐較して分散を⼤きく減少 MIPS推定量が持つ望ましい性質 • No Direct Effectと共通embedサポートのもとで不偏

MIPS推定量による分散の⼤幅な減少 (Thm 3.6) （前提として）MIPSのバリアンスが IPSのそれよりも⼤きくなることはない IPS推定量とMIPS推定量の分散の差を計算

MIPSによる分散の減少の詳細 MIPSによる分散減少は次の場合に特に⼤きくなる • IPSが使っていた重要度の分散が⼤きい (= ⾏動の数が多い) • ⾏動特徴量が有する情報量が多くない ( がstochastic)
⾏動特徴量で条件付けた⾏動分布

⾏動特徴量が有する情報量によりバイアス-バリアンスが決定 • バイアスを減らす or 不偏になるためにはできる限りの情報を⾏動特徴量に詰め込むべき • バリアンスを減らすためには⾏動特徴量の情報量を制限すべき戦略的/意図的に⾏動特徴量の情報量を制限して No
Direct Effectを積極的に破ることでMSEをさらに改善可能 (⾏動特徴量をいくらか意図的に”捨てる”) MIPSのBias-Varianceトレードオフは⾏動特徴量の表現⼒によって制御される

仮定が満たされない時の⽅がMSEの意味では良い • 20次元ある⾏動特徴量を全て使った場合、no direct effect の仮定が満たされる • ⾏動特徴量の次元をあえて徐々に捨てていく
“あえて”使わない⾏動特徴量の次元を徐々に増やしていく no direct effectを意図的に破ることでMSEを改善可能

仮定が満たされない時の⽅がMSEの意味では良い観測されない特徴量次元が増えるにつれバイアスは増⼤⼀⽅、⾏動特徴量が粗くなることでバリアンスは減少バイアスバリアンス

MIPS推定量の利点まとめ • MIPSは⾏動特徴量を活⽤したかなり汎⽤・強⼒な枠組み • no direct effectのもとで不偏で、⼤規模問題において⼤きな分散減少 • ⾏動特徴量の情報量によりbias-variance trade-offを制御可能
(no direct effectをあえて破ることによりMSEを改善できることがある) 誰にでもすぐに思い付く拡張の例: Marginalized Doubly Robust (MDR) Yuta Saito, Thorsten Joachims. Off-Policy Evaluation for Large Action Spaces via Embeddings. ICML2022.

MIPSの弱点: No Direct Effectに関するBias-Variance Dilemma 批判的に⾒るとMIPSは未だ困難なbias-varianceのジレンマを抱えている • ⾼次元 (でかつdeterministic)な⾏動特徴量が与えられたときにIPS推定量とほぼ同等の⼤きなバリアンスが発⽣
(バリアンス減少の式を参照) • 分散の問題を避けるために意図的に⾏動特徴量の次元削減を⾏うこともできるが、そうするとno direct effectが満たされなくなり、⼤きなバイアスが発⽣する可能性

MIPSの弱点: No Direct Effectに関するBias-Variance Dilemma ⾏動と⾏動特徴量がほぼ1対1対応になる設定でMIPSを再検証 IPS/MIPS/DRの全てが⾏動数の増加に脆弱 IPS/MIPS/DRの
全てがデータ数の減少に脆弱ログデータサイズ⾏動の数結局どの既存推定量もデータ数の減少や⾏動数の増加に対応できないグラフの縦軸 = 推定量のMSE

MIPS推定量をさらに改善する研究へのモチベーションどうすればこのno direct effectに関連した MIPS推定量のBias-Variance Dilemmaを解決できるか︖ 新たな研究へのモチベーション批判的に⾒るとMIPSは未だ困難なbias-varianceのジレンマを抱えている • ⾼次元
(でかつdeterministic) な⾏動特徴量が与えられたときにIPS推定量とほぼ同等の⼤きなバリアンスが発⽣ (バリアンス減少の式を参照) • 分散の問題を避けるために意図的に⾏動特徴量の次元削減を⾏うこともできるが、そうすると今度は⼤きなバイアスが発⽣する可能性

新たな定式化 “Conjunct Effect Model”

ジレンマの解決へ向けたアイデア: Conjunct Effect Model 鍵となるアイデア: 諸悪の根源であるno direct effectの仮定を取り払い、その代わりに期待報酬関数を2つの効果の和として考える期待報酬関数
特徴量効果 (embedding effect) 残差効果 (residual effect) Conjunct Effect Model (CEM): 報酬関数を2つの効果に分解する = +

ジレンマの解決へ向けたアイデア: Conjunct Effect Model 期待報酬関数特徴量効果残差効果 Conjunct Effect Model
(CEM): 報酬関数を2つの効果に分解する = • は⽣の⾏動特徴量 or 次元圧縮等の処理が施された低次元⾏動特徴表現 • CEMは仮定というより単なる報酬関数の1つの便利な表現に過ぎない • 残差効果は⾏動と⾏動特徴量の交互作⽤効果 (interaction effect) と⾏動による直接効果 (direct effect) の和と考えられるが、ここでは特徴量効果に興味があるため残差効果としてひとつにまとめている +

ジレンマの解決へ向けたアイデア: Conjunct Effect Model 期待報酬関数特徴量効果残差効果 = + •
は⽣の⾏動特徴量 or 次元圧縮等の処理が施された低次元⾏動特徴表現 • なおMIPS推定量が頼っていたno direct effectの仮定は、 CEMにおける残差効果を完全に無視する仮定として再解釈できる Conjunct Effect Model (CEM): 報酬関数を2つの効果に分解する

ジレンマの解決へ向けたアイデア: Conjunct Effect Model 期待報酬関数特徴量効果残差効果 = 特徴量効果残差効果
(MIPSでは完全無視) Conjunct Effect Model (CEM): 報酬関数を2つの効果に分解する +

ここからはCEMの簡易バージョンを⽤いて話を進める期待報酬関数特徴量効果残差効果 General Conjunct Effect Model: ⾏動特徴量は連続かつで多次元であって良い
特に便利な特殊ケースとして、⾏動特徴量がクラスターの場合を扱うなおは⾏動のクラスタリング関数 (may be learned from data) 期待報酬関数クラスター効果残差効果 = + = +

CEMを眺めると全く新たな推定量が頭に浮かんでくる • 例えば映画のカテゴリ情報 ( ) により期待報酬のうちおよそ70%が説明され、残りのおよそ30%が個別の映画の情報により決まっているとする期待報酬関数クラスター効果 (70%)
残差効果 (30%) = +

CEMを眺めると全く新たな推定量が頭に浮かんでくる映画 (“a”) カテゴリカテゴリ効果 (g) 残差効果 (h) 期待報酬 (q)
テネット SF 0.15 0.10 0.25 ロッキースポーツ 0.30 -0.10 0.20 スターウォーズ SF 0.15 -0.05 0.10 マネーボールスポーツ 0.30 0.05 0.35 • 例えば映画のカテゴリ情報 ( ) により期待報酬のうちおよそ70%が説明され、残りのおよそ30%が個別の映画の情報により決まっているとする

CEMを眺めると全く新たな推定量が頭に浮かんでくる • 例えば映画のカテゴリ情報 ( ) により期待報酬のうち70%が説明され、残りの30%が個別の映画のその他多数の情報により決まっているとする • このとき、IPS/MIPS(model-free)により少なくとも期待報酬の70%を占めるクラスター効果については⾮常に⼩さい分散で不偏推定が可能なはず
• また残りの残差効果についてもDMのようにmodel-basedに推定することで分散を抑えつつ、MIPSのような完全無視よりはバイアスを抑えられるはず期待報酬関数クラスター効果 (70%) 残差効果 (30%) = +

Conjunct Effect Modelに基づく新たなOPE推定量 model-freeなアプローチでクラスター効果を推定 model-basedなアプローチで残差効果にも低分散に対応 OffCEM推定量: クラスター効果と残差効果を別々のアプローチで推定なおは⽅策
によるクラスター選択確率

Conjunct Effect Modelに基づく新たなOPE推定量 • ⾏動のクラスター空間についてのみimportance weightingを適⽤しているため IPS/MIPS/DRの全てに対して⼤きな分散減少が期待できる • 残差効果にもある程度対応するためMIPS推定量のように
無駄に⼤きなバイアスの発⽣を抑えられる回帰モデル OffCEM推定量: クラスター効果と残差効果を別々のアプローチで推定

Conjunct Effect Modelに基づく新たなOPE推定量 • なお、回帰モデルとして最も⾃然なのは残差効果をどうにか直接推定したものに思われるが、それよりも多くの場合良い推定性能を導く回帰モデルの2段階最適化法を後ほど紹介する回帰モデル OffCEM推定量:
クラスター効果と残差効果を別々のアプローチで推定

OffCEM推定量の統計性能を分析 • 局所正確性という全く新たな仮定のもとでの不偏性 • バイアスの⼤きさは、回帰モデルによる各⾏動クラスター内での relative(pairwise) value differenceの推定精度によって決まる • バリアンスの⼤きさは、回帰モデルによる各⾏動の
absolute valueの推定精度によって決まる • 上記のBias-Variance分析に基づくと、回帰モデルの理想的な最適化⽅法として2段階(2-step)最適化法が導かれる

OffCEMは局所正確性という新たな仮定のもとで不偏局所正確性と共通clusterサポートのもとでOffCEMは不偏共通clusterサポート: ⾏動クラスター空間のみ⼗分にカバーしていれば良い

局所正確性 (Local Correctness)とはどのような仮定か︖ 回帰モデルは各⾏動クラスター内において、⾏動のペアの相対的な期待報酬の違さえ正しく推定していれば良い以下の条件が成り⽴つとき、回帰モデルとクラスタリング関数は局所的に正確と⾔う for
all and s.t.

局所的に正確 (Locally Correct) な回帰モデルの例 0 1 2 3 0 1
4 1 3 2 3 0 1 0 3 1 • 局所正確性の仮定は異なる⾏動クラスター間の関係性については何も要求していないことに注意 • 局所正確性の仮定は報酬関数(“q”)⾃体を知っていることよりも明らかに弱い • また局所的に正確な回帰モデルは無限に存在し得る

4 1 3 2 50 47 - 20 - 21 3 1 • 局所正確性の仮定は異なる⾏動クラスター間の関係性については何も要求していないことに注意 • 局所正確性の仮定は報酬関数(“q”)⾃体を知っていることよりも明らかに弱い • また局所的に正確な回帰モデルは無限に存在し得る

4 1 3 2 4 1 3 2 3 1 • 局所正確性の仮定は異なる⾏動クラスター間の関係性については何も要求していないことに注意 • 局所正確性の仮定は報酬関数(“q”)⾃体を知っていることよりも明らかに弱い • また局所的に正確な回帰モデルは無限に存在し得る

OffCEM推定量の不偏性 • IPS/MIPS推定量の利点 (不偏性 + ⼀致性) を基本的には保持 • 局所正確性の仮定はno direct
effectや真の期待報酬関数を知っていることよりも弱い仮定 (つまりMIPSより不偏になりやすい) • 局所正確性の仮定が満たされないときOffCEM推定量のバイアスは︖ 局所正確性と共通clusterサポートのもとでOffCEMは不偏

仮定が満たされない場合のバイアス分析 (Thm 3.5) Bias of OffCEM (1) (2) (1) relative
value difference の推定精度 (2) 各⾏動クラスター内での⽅策の類似性によりOffCEM推定量のバイアスが決定 local correctnessが正しいときゼロになる

提案推定量の統計性能を分析 • 局所正確性という全く新たな仮定のもとでの不偏性 • バイアスの⼤きさは、回帰モデルによる各⾏動クラスター内での relative(pairwise) value differenceの推定精度によって決まる • バリアンスの⼤きさは、回帰モデルによる各⾏動の
absolute valueの推定精度によって決まる • 上記のBias-Variance分析に基づくと、回帰モデルの理想的な最適化⽅法として2段階(2-step)最適化法が導かれる

分散を分析するモチベーション • OffCEM推定量は局所正確性 (local correctness) のもとで不偏 • しかし、局所的に正確な回帰モデルは無限個存在する OffCEMによる推定時には結局どの(局所的に正確な)回帰モデルを使うのが最適︖
OffCEM推定量

OffCEM推定量のバリアンス OffCEM推定量のバリアンスは以下の通りに与えられる : absolute valueに対する推定誤差

回帰モデルを得るための2段階最適化法 • OffCEM推定量のバイアスは、各⾏動クラスター内における relative(pairwise) value differenceの推定精度に依存して決まる • OffCEM推定量のバリアンスは、各⾏動のabsolute valueの推定精度に依存して決まる
これまでのBias-Variance分析の知⾒をまとめると

回帰モデルを得るための2段階最適化法これまでのBias-Variance分析の知⾒をまとめるとこの事実は、以下の回帰モデルの理想的な最適化法を導く 1段階⽬: ペアワイズ回帰を⾏うことによりバイアスを最⼩化 2段階⽬: ベースライン関数を最適化することでバリアンスを最⼩化 • OffCEM推定量のバイアスは、各⾏動クラスター内における relative(pairwise)
value differenceの推定精度に依存して決まる • OffCEM推定量のバリアンスは、各⾏動のabsolute valueの推定精度に依存して決まる

1. バイアス最⼩化ステップ relative value differenceを推定するための以下のペアワイズ回帰を⾏う 2. 分散最⼩化ステップ各クラスターについてのベースライン関数を最適化することでabsolute valueを近似回帰モデルを得るための2段階最適化法
ペアワイズ回帰モデルとベースライン関数を⾜し合わせることで回帰モデルを定義

バイアスを最⼩化するためのペアワイズ回帰 (1段階⽬) 事前に学習されたクラスタリング関数のもとでペアワイズ回帰を実⾏ここでは、ペアワイズ回帰を⾏うための前処理を施したデータを利⽤有限な特徴空間を仮定

バイアスを最⼩化するためのペアワイズ回帰 (1段階⽬) ペアワイズ回帰を⾏うためには、推薦システム形式のデータを利⽤ “a” a1 a2 a3 … a999 a1000
“c” c1 … c100 x1 0.1 missing 1 … missing 2 x2 0.5 0.3 missing … 0.0 0.7 … … finitely many users

ベースライン関数の最適化による分散最⼩化 (2段階⽬) その後、各クラスターごとにベースラインを最適化することで分散を最⼩化ペアワイズ回帰モデルの推定誤差 OffCEM推定量 w/ 2段階回帰

ここまでのまとめ • MIPS推定量は汎⽤的で有効な分散減少法だが、no direct effect の仮定に関して重⼤なbias-variance dilemmaを抱える • no direct
effectの仮定を排除すべく、MIPSの定式化をさらに⼀般化したConjunct Effect Model (CEM) を採⽤ • CEMに基づき、クラスター効果をmodel-freeに残差効果をmodel-basedに推定するOffCEMを提案 • OffCEMは、局所正確性という新たな仮定のもとで不偏性を保ちつつIPS/MIPS/DRに対しバリアンスを⼤幅に改善 • さらに統計分析に基づき、1段階⽬でバイアスを、2段階⽬で分散をそれぞれ最⼩化する回帰モデルの2段階最適化法を提案

実験結果

⼈⼯データ実験 • ベースライン ◦ DM, IPS, DR, MIPS (w/ true
marginal importance weight) ◦ OffCEM (w/ 真の⾏動クラスター + 2段階回帰) • デフォルト実験設定 ◦ データ数: 3,000、⾏動数: 1,000, ⾏動クラスター数: 50 ◦ 5次元の離散⾏動特徴量 ◦ 各次元の要素数は10、すなわち⾏動特徴量の総要素数は10^5=100,000

推定精度の⽐較 OffCEM推定量は特に困難な状況で既存推定量を凌駕 (データが少なく⾏動数が多い設定で70-90%の精度改善) データが少なくても正確⾏動数の増加に対して頑健 unsupported actions の増加に対して頑健

バイアス-バリアンス分解 OffCEMはIPS/MIPSと似た⼩さなバイアスおよびDMと似た⼩さな分散を達成平均⼆乗誤差 (MSE) バイアスバリアンス

w f MIPS 0 + clustering 0 + regression +
clustering & one-step reg + clustering & two-step reg Ablation Study 我々の提案提案推定量の構成要素を徐々に加える基本形

Ablation Study (OffCEMの構成要素の貢献度を分解) クラスター重要度重みと回帰モデルを組み合わせること、および2段階回帰を⾏うことが重要

Ablation Studyにおけるバイアス-バリアンス分解 • 単なるクラスタリングは分散を下げるが⼤きなバイアスを発⽣ • 単なる回帰モデルの追加はMIPSを改善するものの、分散の意味で改善余地あり • クラスタリングと回帰モデルを組み合わせることがMIPSの改善のために重要 • また、2段階回帰を⾏うことで主にバイアスの減少による更なる改善が⾒込める
平均⼆乗誤差 (MSE) バイアスバリアンス

Extreme Classification Dataを⽤いた実データ実験 • ⼈⼯データに加えて、数千-数万の⾏動数を誇る分類データを⽤いた実データ実験において、ごく簡易なヒューリスティッククラスタリングに基づいた場合でも、OffCEMがベースラインよりも正確であることを実証 • より洗練された⾏動クラスタリング⼿法の開発によるさらなる改善余地あり

まとめと今後 • オフ⽅策評価の新たな定式化として、期待報酬関数を特徴量/クラスター効果と残差効果に分解するConjunct Effect Model; CEMを導⼊ • CEMに基づいたOffCEM推定量は、回帰モデルの局所正確性のもとで不偏であり、またIPS,
DR, MIPSなどのベンチマークよりも優れた統計性能を発揮 • さらに統計分析に基づき、1段階⽬でバイアスを、2段階⽬で分散をそれぞれ最⼩化する回帰モデルの2段階最適化法を提案 • ⼈⼯・実データ実験において、特に困難な問題において提案推定量がMSEに⼤きな改善をもたらすことや2段階回帰によるバイアス減少効果を観測 • Future workとして、⾏動の表現学習やoff-policy learningへの拡張を進⾏中

Thank you! contact:[email protected]

Off-Policy Evaluation and Learning for Large Ac...

Off-Policy Evaluation and Learning for Large Action Spaces via Conjunct Effect Modeling (ICML23)

More Decks by usaito

Other Decks in Research

Featured

Transcript