適応的実験計画と逐次検定：効率的なA/Bテストのために

by MasaKat0

Embed

Start on current slide

Slide 1

Slide 1 text

適応的実験計画と逐次検定：効率的なA/Bテストのために AI事業本部 AdEconチーム加藤真大 1

Slide 2

Slide 2 text

自己紹介加藤真大 AdEcon ● 経歴 ○ 2013.4 - 2017.3 ■ 東大経済学部 ○ 2017.4 - 2017.9 ■ 東大経済学研究科 ○ 2017.9 - 2020.3 ■ 東大情報理工コンピュータ科学専攻 ○ 2020.4 - ■ CyberAgent AI事業本部 AdEconチーム ● その他 ○ 甘いものが大好きです．お酒が飲めません． 2

Slide 3

Slide 3 text

目次 1. 因果推論と実験 2. 仮説検定と逐次検定 3. 効率的な実験の計画方法 3

Slide 4

Slide 4 text

1. 因果推論と実験 4

Slide 5

Slide 5 text

統計学と因果 n 因果効果：ある行動によって得られる結果． ○ 例：薬の効果，政策の効果，マーケティングの効果 n 因果効果の測定をどのように行うのか？ ○ ある行動を起こして，その結果を観測することで測定？ → 不可能：起こさなかった行動の結果は観測できない． = 反実仮想的性質． 5

Slide 6

Slide 6 text

Rubinによる因果効果の定義 n 因果効果の数理的枠組み：Rubin（1974）が定義． ○ ある個人に処置 ∈ {0,1} を与えた結果：()． ○ 因果（処置）効果：(1) − (0). ○ 因果（処置）効果() − ()は直接観測できない．同じ人間は二人以上存在しない → 平均処置効果 [() − ()] を推定する． 6

Slide 7

Slide 7 text

平均処置効果 n 平均処置効果 − : () − () の期待値． n この平均処置効果の推定が因果推論のゴールの一つ． → 二つのアプローチ： ○ すでに観測されたデータを用いて推定する方法． ○ 実験によってデータを集めて推定する方法． ↑ 堅実だが実験コストが大きい．倫理的問題も． 7

Slide 8

Slide 8 text

因果効果を直接観測できる事例：クローン n クローン人間を生成できれば因果効果を推定できる！？ ○ 異なる処置を同じ個人に与えて観測できる． ○ 平均処置効果を考える必要がない． ○ シュレディンガーの猫？ 8

Slide 9

Slide 9 text

量子論に基づく因果推論量子論的な因果推論． ○ 処置：電子レンジ ○ 結果：起動された場合：猫死亡 = (1) 起動されなかった場合：猫生存 = (0) 9

Slide 10

Slide 10 text

．．．ということはできません（多分）量子論の話は嘘です．理想的にはそういうことができたら嬉しいですが．（私の知っている限りでは）できません．従って，（平均）処置効果を現実的に推定する方法を考える． 10

Slide 11

Slide 11 text

実験による平均処置効果の推定 n 「平均」を計算するために処置割り当てのランダム化が必要． ○ 特定の特徴を持つ個人に特定の処置のみを与えない． ○ 例：塾に行くことによる成績への効果の推定．成績の悪い学生だけ行く→平均処置効果の計算ができず. 成績の良い学生にも行ってもらう． 11

Slide 12

Slide 12 text

処置割り当てのランダム化の種類どのように処置を割り当てればいいのか？ n ランダム化割当実験（RCT）： ○ とにかくランダムに処置（製品）を割り当て． ○ サンプル選択バイアスを除去． n 適応的実験計画： ○ 過去の情報を参考にしながら割り当て方策を最適化． → 近年，多腕バンディットアルゴリズムからのアプローチが盛んに．（最適腕識別） 12

Slide 13

Slide 13 text

適応的実験計画の良し悪し ( + ) より少ないサンプルで実験するためにはRCTに拘る必要はない． ○ 適応的実験計画で実験を効率化． ( - ) but RCTは適応的実験計画と比べて公平で倫理的かもしれない． ○ RCTがそもそも公平で倫理的でない可能性はあるが． ○ 適応的実験計画では実験者が意図的に割り当てを操作する. ( - ) 適応的実験計画ではサンプル選択バイアスが発生する場合がある. 13

Slide 14

Slide 14 text

A/Bテスト n 倫理的問題： ○ 医学などでは重要． ○ しかし，企業の実験ではあまり考えなくていい状況もある． n サンプル選択バイアス： ○ 逆確率重み付け推定量などである程度は対処可能． → とりあえず民間企業のA/Bテストに適応的実験計画は適している? * 倫理・公平性と実験の効率性のトレードオフが存在する． 14

Slide 15

Slide 15 text

2. 仮説検定と逐次検定 15

Slide 16

Slide 16 text

仮説検定 n 実験を通じて意思決定を行いたい=仮説検定． n 仮説検定では帰無仮説ℋ と対立仮説ℋ を比較． ○ ℋ# が間違っていれば帰無仮説を棄却してℋ を受け入れる． n 第一種の過誤と第二種の過誤の制御が大事． ○ 第一種の過誤： ℋ# が正しいのにℋ# を棄却する． ○ 第二種の過誤： ℋ# が正しくないのにℋ# を棄却しない． 16

Slide 17

Slide 17 text

通常の仮説検定 n 固定されたサンプルサイズに対して信頼区間を形成する． ○ 推定量の漸近正規性などを利用． n あらかじめ実験に使うサンプルサイズを決める必要がある． ○ 逐次的に被験者が来訪するような設定ではどうすればいいのか？例：広告配信，治験 17

Slide 18

Slide 18 text

逐次検定 n 逐次的に訪れるデータと仮説検定： ○ 通常の仮説検定ではサンプルサイズは固定． ○ 広告配信などの設定ではサンプルが逐次的に訪れる． - サンプルサイズが未知（少しずつ=逐次的に増えていく）． n 逐次検定： ○ サンプルが訪れるたびに仮説検定を実行． ○ 適当なところで実験を停止したい． ○ 決められたサンプルサイズが溜まるまで待ちたくない． 18

Slide 19

Slide 19 text

逐次検定と検定の多重性 n 通常の仮説検定の信頼区間を逐次検定に用いると？ → 検定の多重性：第一種の過誤の確率が大きくなる．何回も検定する間に間違っていない帰無仮説を棄却してしまう． n 逐次検定における第一種の過誤の制御方法． ○ 多重検定の手法を応用する． ○ 適応的集中不等式を用いる． 19

Slide 20

Slide 20 text

例：おみくじ n 占い好きの加藤くん ○ 彼の経済合理性は怪しく何事も占いで決める． n 今日の加藤くんの運勢は大凶． n 大凶の時はおみくじが95%で大凶，5%で大吉になる． n 加藤くんは1回目におみくじを引いた時は大凶だった． n 加藤くんは諦めずにおみくじを引き続けた． n 10回目で大吉が出た → 「やったー！今日の運勢は大吉だ〜」？？？ 20

Slide 21

Slide 21 text

多重検定に基づく逐次検定 n 多重検定：医学統計などで用いられている古典的な手法． ○ 例：Bonferroni法，Benjamini-Hochberg法 n Bonferroni法． ○ サンプルサイズが = 1,2, … の値を$ , % , … , & とする． ○ Bonferroni法では，$ /1, % /2, … , & /とする． n Bonferroni法は第一種の過誤を制御するが非常に保守的． = 間違った帰無仮説を棄却しない問題が発生する． 21

Slide 22

Slide 22 text

適応的集中不等式に基づく逐次検定 n 任意の時刻において推定量に対して成立する不等式を考える． ○ 関心のあるパラメータを# とし， = 1,2, …ごとに逐次的にデータ入手． ○ 期に得られる# の推定量を 9 ' とする（帰無仮説を# = とする）． ○ 任意ので 9 ' − ≤ ' が少なくとも確率1 − で成立する' を探す． ○ この不等式のことを適応的集中不等式と呼ぶ（Zhao et al. 2016）． n このを信頼区間とみなして仮説検定を行う． ○ 適応的集中不等式は色々知られている（Balsubramani et al. 2016）． ○ 多重検定のような過剰な保守性の問題を回避できる． 22

Slide 23

Slide 23 text

適応的信頼系列と常に有効なp値適応的集中不等式を用いた逐次検定の方法（実際にどのように行うのか） n 二つの方向性： ○ 適応的信頼系列： Balsubramani and Ramdas (2016) ○ 常に有効なp値： Johari, Pekelis, and Walsh (2015) 両者は数学的に同一の棄却域を生成する． 23

Slide 24

Slide 24 text

サンプルサイズと最適停止時刻 n 通常の仮説検定：あらかじめ実験に使うサンプルサイズを決める必要がある． n 逐次検定：あらかじめ実験に使うサンプルサイズを決める必要がない． n 通常の仮説検定におけるサンプルサイズ（被験者数）決定問題 → 逐次検定における最適な時刻で実験を停止する問題． 24

Slide 25

Slide 25 text

3. 効率的な実験計画 25 Kato, Ishihara, Honda, and Narita, Adaptive Experimental Design for Efficient Treatment Effect Estimation, on arXiv.

Slide 26

Slide 26 text

平均処置効果の推定量の分散の最小化 n 効率的な実験=推定量の分散が小さい． ○ 推定量の分散が小さければ少ないサンプルで意思決定できる. n 平均処置効果の推定量の分散を最小化することを考える． ○ 推定量の分散を「処置の割り当ての確率」の関数とみなす． ○ 古典的にはHahn et al. (2011)のアイデア． 26

Slide 27

Slide 27 text

データ生成過程 n データ生成過程を以下のように定義する． ○ ある個人に与える行動：' ∈ {0,1}. - ' = 1：効果を調べたい処置（処置群）． - ' = 0：比較のための処置（対称群）． ○ ある個人の特徴：' ． ○ ある個人に処置1を与える確率を(' = 1|')とする． ○ 行動によって個人が得られる結果：'()． 27

Slide 28

Slide 28 text

n 平均処置効果の推定量の分散の下界を考える． n 前のページのデータ生成過程に対して定義される． ○ 以下の値で与えられる． Var ' 1 ') ' = 1 ')] + Var ' 0 ') ' = 0 ') + ' 1 − ' 0 ' − ['(1) − '(0)]] 平均処置効果の推定量の分散の下界 28

Slide 29

Slide 29 text

下界を最小化する( = | ) n 推定量の分散の下界を確率 ' = 1 ')]の関数とみなす． n 推定量の分散の下界を最小化する ' = 1 ')を探す． ○ ∗ ' = 1 ' = *+, -! $ .!) *+, -! $ .!)0*+, -! # .!) . ○ Std('()|')はで条件付けた'()の標準偏差． n 確率∗(' = 1|')で処置1を割り当てる時に分散が最小． ○ Std('()|')は未知なので推定する必要あり． → Std('()|')を逐次的に推定しながら処置を割り振る． 29

Slide 30

Slide 30 text

効率的な処置効果推定のための実験方法各期 = 1,2, . .において， 1. 最適な確率∗ ' = 1 ' を推定（逐次的に更新）． 2. 特徴' と推定された確率に基づく ' = 0|' を用い処置' を割り振る． 3. 結果' = 1 ' = 1 ' 1 + 1 ' = 0 ' 0 を観測する． 4. 推定量 9 ' を構築（具体的な形は次ページで紹介）．を繰り返す． n 通常の検定：適当な時点で実験をやめて仮説検定． n 逐次検定：毎期仮説検定を行い，適当な時点で停止する． 30

Slide 31

Slide 31 text

分散の下界を達成する平均処置効果の推定量期間 = 1,2, … , において得られたサンプルの組 ', ', ' '1$ & ． n 以下の平均処置効果の推定量 9 & は平均処置効果に不偏かつ一致性． ! " = $ #$% " 1 # = 1 # − ) # 1, # (# = 1|#) + ) # 1, # − 1 # = 0 # − ) # 0, # # = 0|# − ) # (0, # ) ○ 1[ ・ ]は指示関数． ○ 9 ' , ' はt-1期までのサンプルを用いた['()|']の推定量． ○ さらにその分散はセミパラメトリック下界と一致する． ○ いわゆるdoubly robust推定量と同じような形． 31

Slide 32

Slide 32 text

マルチンゲールと適応的集中不等式 n (' = 1|')が過去の観測値によって更新． → (' = 1|')は少しずつ∗ ' = 1 ' に近づく． ○ ', ', ' '1$ & はi.i.d.ではない． But 推定量の構成要素がマルチンゲール階差数列の性質を満たす．漸近正規性の証明が可能に． n 前のページで提示された推定量 9 & は漸近正規性を持つ． n 適応的集中不等式も簡単に得ることができる（Balsubramani 2014）． ○ 集中不等式に基づいて逐次検定を行うことができる． 32

Slide 33

Slide 33 text

33 実験の設定 n 500期間の逐次アルゴリズムを1000回試行して平均を計算． n 150期と300期にそれぞれ平均二乗誤差の計算と検定の実行． ○ 検定の結果には棄却した回数の%を計算． n 加えて，任意の時間で停止する逐次検定を500期まで実行． ○ 多重検定と集中不等式の二つの方式で実施． ○ 多重検定ではBonferroni法を用い， = 150,250,350,450で評価． ○ 棄却するまでに必要とした期の平均を計算． ○ 帰無仮説を棄却しなければ500．

Slide 34

Slide 34 text

34 擬似データの設定 n ['(1)]= 0.8 n ['(0)]= 0.3 n '(1)の標準偏差= 0.8 n '(0)の標準偏差= 0.3 となるような適当な5次元の共変量からなる線形モデルを仮定．帰無仮説は棄却されるべき．帰無仮説は「効果なし」，つまり， [' (1) − ' (0)] = 0．

Slide 35

Slide 35 text

35 擬似データでの実験結果1 n = 150での平均二乗誤差（推定量-真値の二乗の平均） ○ ランダム化比較実験： 0.145 ○ 効率的な実験計画： 0.062 n = 300での平均二乗誤差 ○ ランダム化比較実験： 0.073 ○ 効率的な実験計画： 0.023 最小二乗誤差の減少．

Slide 36

Slide 36 text

36 擬似データでの実験結果2 n = 150で仮説検定を行った場合 ○ ランダム化比較実験：総試行の25%の帰無仮説を棄却． ○ 効率的な実験計画：総試行の53%の帰無仮説を棄却． n = 300での仮説検定を行った場合 ○ ランダム化比較実験：総試行の45%の帰無仮説を棄却． ○ 効率的な実験計画：総試行の90%の帰無仮説を棄却．正しく棄却できている割合が⼤幅に増⼤．

Slide 37

Slide 37 text

37 擬似データでの実験結果3 n 多重検定に基づく逐次検定の平均停止時刻 ○ ランダム化比較実験： 370 ○ 効率的な実験計画： 236 n 集中不等式に基づく逐次検定の平均停止時刻 ○ ランダム化比較実験： 455 ○ 効率的な実験計画： 303 実験に必要なサンプルサイズを35%削減！！

Slide 38

Slide 38 text

38 擬似データでの実験結果4 n 以上の結果だけでは必ずしも提案手法が優れているかは分からない． ○ 第一種の過誤が増大している可能性がある． n 帰無仮説が正しい場合には棄却をあまりしないことも実験で検証済み． ○ 第一種の過誤を制御できている．

Slide 39

Slide 39 text

参考文献 • Hahn, J., Hirano, K., and Karlan, D. (2011). Adaptive experimental design using the propensity score. Journal of Business and Economic Statistics, 29(1):96–108. • Imbens and Rubin. Causal Inference for Statistics, Social, and Biomedical Sciences, 2015. • Rubin, D. B. (1974). Estimating causal effects of treatments in randomized and nonrandomized studies. Journal of Educational Psychology, 66(5):688. • Neyman, J. (1923). Sur les applications de la theorie des probabilites aux experiences agricoles: Essai des principes. Statistical Science, 5:463–472. • Hamilton, J. (1994). Time series analysis. Princeton Univ. Press, Princeton, NJ. • Chow, S.-C. and Chang, M. (2011). Adaptive Design Methods in Clinical Trials. Chapman and Hall/CRC, 2 edition. • Yang, Y. and Zhu, D. (2002). Randomized allocation with nonparametric estimation for a multi-armed bandit problem with covariates. Ann. Statist., 30(1):100–121. 39

Slide 40

Slide 40 text

参考文献 • Hadad, Hirshberg, Zhan, Wager, and Athey (2019). Confidence Intervals for Policy Evaluation in Adaptive Experiments, arXiv. • Kato, Ishihara, Honda, and Narita (2020). Adaptive Experimental Design for Efficient Treatment Effect Estimation: Randomized Allocation via Contextual Bandit Algorithm, arXiv. • Delyon and Portier (2018). Asymptotic optimality of adaptive importance sampling, NeuIPS. • Johari, R., Pekelis, L., and Walsh, D. J. Always valid inference: Bringing sequential analysis to a/b testing, arXiv. • Zhao, S., Zhou, E., Sabharwal, A., and Ermon, S. Adaptive concentration inequalities for sequential decision problems, NeurIPS. • Balsubramani, A. and Ramdas, A. Sequential nonparametric testing with the law of the iterated logarithm, UAI. • Balsubramani, A. Sharp finite-time iterated-logarithm martingale concentration. arXiv 40