A/BテストにおけるVariance reduction

A/Bテストにおける Variance reduction @yaginuuun, 2021/05/28

今日の話の元論文 • Improving the Sensitivity of Online Controlled Experiments: Case
Studies at Netﬂix • NetﬂixによるKDD’16の論文 • カバ本でも参照されている ◦ Trustworthy Online Controlled Experiments - A Practical Guide to A/B Testing

A/Bテストにおける Sensitivity とは何か • 評価指標に向けて使われる言葉 • ある決められたサンプルサイズにおいて、どのくらい小さな差分まで統計的有意に検出可能か（Minimum Detectable Effect:
MDEとも呼ぶ） ◦ MDEが小さいほどSensitivityは高いことになる。

Sensitivity が低いことによって起こる問題 • 一人当たりの売り上げが20%上がった！でも統計的有意差はなかった。。 • 改善を行った機能単体で見ると購入が増えた！でも全体では統計的有意差はなかった。。 • → 基本的にできる限り上げたい

Sensitivityを上げたい MDEは以下の式で求まる。* * 平均値の差の検定かつ有意水準 5%, 検出力80%, 均等割り付けの両側検定の場合 • 指標の分散が小さいほどSensitivityは高くなる •
サンプル数が多いほどSensitivityは高くなる

Sensitivityを上げたい大きく3つの方策がある ① A/Bテストに割り当てるサンプルサイズを増やす ② Boldな変更を行う ③ Variance reductionを行うそれ以外にも：分散の小さい指標を用いる
, cappingする, ...

, cappingする, ... 常に可能なわけではない • サンプルサイズはサービス規模やダウンサイドリスクの制約を受ける。 • A/Bテストされるもの全てをBoldにはできない

, cappingする, ... 適用可能なケースが圧倒的に多い

補足：Variance reductionの解像度を少し上げる平均値の差の検定で用いられている統計量: ここを小さくすることを目指す

補足：Variance reductionの解像度を少し上げる平均値の差の検定で用いられている統計量: Variance reductionを行わない場合よりも大きくなる = 有意差が検出されやすくなる

Variance reductionの手法 • Stratiﬁed sampling • Post stratiﬁcation • CUPED
どれも共変量を使って行う。

Stratiﬁed sampling • 日本語だと層化抽出法と呼ばれる。 • 各層（Strata）から母集団と同じ比率でサンプルを抽出する • 母平均の推定は単純無作為抽出の場合と同様に行う
Stratified sampling in Machine Learning. より引用

Post stratiﬁcation • サンプリング自体は単純無作為抽出を想定 • 母平均の推定を以下の式で行う母集団のおける各Strataの比率測定された各Strataにおける平均値

CUPED • Controlled experiments Utilizing Pre-Experiment Data • 母平均の推定を新しく以下の値を定義して行う（共変量が一次元の場合）

各手法を適用した場合の分散* • 単純無作為抽出： • Stratiﬁed sampling： • Post stratiﬁcation： •
CUPED：

CUPED：どれも単純無作為抽出の場合よりも小さくなっている

CUPED： Stratiﬁed samplingの方がPost stratiﬁcationよりも分散削減効果が大きい。一方で、サンプルサイズが大きい時はほとんど差がなくなる。

CUPED： CUPEDによる分散低減効果は共変量の選択に依存する

実験条件 • 単純無作為抽出を基準として、各手法による分散低減量を比較する。 • 対象とする指標は以下の2種類 ◦ Retention rate: 契約継続率 ◦
Streaming thresholds: ある一定の閾値よりも動画を視聴したかどうかを示す 2値変数。7個thresholdを変えたものを使う。 • 新規 / 既存の2種類のセグメントで比較を行う。 • A/Aテストを想定し、ランダムな分割を各手法において100k回行い分散低減量の点推定値を得た。

共変量 • 新規 / 既存で異なる ◦ 新規の場合、割り当てが登録時に行われるのでサービス上での行動を用いた指標を共変量とすることができない。 • 手法間でも異なる
◦ 新規の場合、手法間では同じ ◦ 既存の場合、 ▪ Stratified samplingとPost stratificationは同じ ▪ CUPEDは異なる（実際にNetflixで用いているものを用いた）

実験結果新規(Figure 3) 既存(Figure 4)

実験結果新規(Figure 3) 既存(Figure 4) 既存よりも新規の方が分散低減量が少ない。 → 新規では使うことのできる共変量が限られているから

実験結果新規(Figure 3) 既存(Figure 4) Post stratiﬁcationとStratiﬁed samplingはほとんど同じくらいの分散低減量となっている。（事前の期待通り）

実験結果新規(Figure 3) 既存(Figure 4) CUPEDではStreaming thresholdが高くなっても分散低減量が減少しない。 → 違う共変量を用いており、手法による差ではないらしい。

実験結果 CUPEDで使っている共変量と同じ共変量を用いてPost Stratiﬁcationを行うと、同程度の分散低減量を達成できる。 Figure 5

まとめ • Variance reductionは適用可能なケースも多く、Sensitivityを高めることができる方策。 • サンプルサイズが大きい状況ではどの手法を用いても同じくらいの分散低減が期待できるので、実装が容易で柔軟性のあるPost stratiﬁcationやCUPEDが推奨される。

所感 • 各手法でどのようにStrataを切ったのか？または何個くらい共変量を用いたとかが気になる。（あまり詳しく書かれていない） • 共変量の選択が肝 • pre-period analysisを行うよりも良いかもしれない。

References • Improving the Sensitivity of Online Controlled Experiments: Case
Studies at Netﬂix • Improving the Sensitivity of Online Controlled Experiments by Utilizing Pre-Experiment Data: CUPEDの元論文 • Power, minimal detectable effect, and bucket size estimation in A/B tests by twitter engineering blog

A/BテストにおけるVariance reduction

A/BテストにおけるVariance reduction

yaginuuun

More Decks by yaginuuun

Other Decks in Technology

Featured

Transcript