Slide 1

Slide 1 text

Non-stationary A/B Tests KDD22 関連有志読み会 株式会社ビズリーチ 中江 俊博 2022-11-24

Slide 2

Slide 2 text

自己紹介 中江 俊博 (なかえ としひろ) 株式会社ビズリーチ リクルーティングプロダクト本部 プラットフォーム開発部 AI1グループ Mgr 経歴 NTTデータ数理システム(-2018) データ分析コンサルタント TripleW(2018-2019) 排尿予測モデル実装 ビズリーチ (2019-現職) 推薦モデルなどの機械学習関連の 実装の統括担当 KDD22 関連有志読み会 / Non-stationary A/B Tests 2

Slide 3

Slide 3 text

今回対象となる論文 Non-stationary A/B Tests (KDD 2022) Yuhang Wu, Zeyu Zheng+ University of California, Berkeley と Amazon の混成チーム 要旨 A/Bテストの対象となるmetricsが、定常性を満たさない場合に、 A/Bテストの推定値の分散が大きくなるケースがある。 非定常であるmetricsに対して、A/Bテストの推定値の分散を 低減させる方法を提案 KDD22 関連有志読み会 / Non-stationary A/B Tests 3

Slide 4

Slide 4 text

問題意識 A/Bテスト対象のメトリクスの時系列変動が非定常である場合 A/Bごとにメトリクスの平均の差を出すと分散が著しく大きくなる。 図(論文Figure1)のように日内変動、曜日変動をするようなケース 変動要素が曜日などに依存することが既知であれば層別化/回帰すればよい では、単純な周期性に還元できない非定常の場合どうしたらよい? 時系列を等間隔に分割して層別化すればよい!(今回の提案) KDD22 関連有志読み会 / Non-stationary A/B Tests 4

Slide 5

Slide 5 text

前提(1) 対象となるサンプルは 平均 の Poisson で到着 Treatment/Control の割り当ては、確率 の Bernoulli で決める。 このようにして集められたサンプルが手元にあると考える。 KDD22 関連有志読み会 / Non-stationary A/B Tests 5

Slide 6

Slide 6 text

前提(2) Treatment/Control の時刻 でのメトリクス は、 時刻 に依存して平均/分散が変動しているとする。 A/Bテストにおける推定値 KDD22 関連有志読み会 / Non-stationary A/B Tests 6

Slide 7

Slide 7 text

サンプル事後層別化 Treatmentへの割り当て確率 が、時刻に依存せず固定である前提で、 サンプルを 個集めた後で、均等に 個の区間に分割 そのあとで、層別平均の差の重み付き和をとる (Sample-based Post Stratification ; SPS) KDD22 関連有志読み会 / Non-stationary A/B Tests 7

Slide 8

Slide 8 text

サンプル事後層別化の分散 Theorem 3.1 もし でかつ なら ここで、分散 については ちなみに、naiveなA/B比較(サンプル平均の差)の分散と比較する SPSは の差の分散、naiveは分散の重み付き和になっている KDD22 関連有志読み会 / Non-stationary A/B Tests 8

Slide 9

Slide 9 text

何を言っているのか? naiveの分散は、それぞれの時系列の分散の和 + の分散 SPSの分散は、その時点における平均の差の分散 + の分散 KDD22 関連有志読み会 / Non-stationary A/B Tests 9

Slide 10

Slide 10 text

具体例 線形に変化するような場合 ( も同様に線形を仮定) 推定値の分散 に起因する分散 に起因する分散 が大きく、かつ値が非常に近い場合は、 sps は naive に対する改善が非常に大きい KDD22 関連有志読み会 / Non-stationary A/B Tests 10

Slide 11

Slide 11 text

もっと一般的な状況 Treatment への割り当て確率 が時刻によって異なる場合 もし、各時点における到着密度 が正確にわかるのであれば は、サンプル数増加で真の推定値 に(確率)収束する。 dps = De-biased Post Stratification dpsでは、各時点でA/Bテストに含める確率もバラバラでもよいらしい。 ただし、 が正確にわかるという前提を一般の状況で 仮定するのは難しいと思われる このdpsについては、論文での記載はややあいまい。 もう少しちゃんと書いてほしい (掘り下げる余地ありとみるべきか) KDD22 関連有志読み会 / Non-stationary A/B Tests 11

Slide 12

Slide 12 text

別の発想 : 到着順に割り当てる工夫 で割り当てるのであれば、到着順にA/B/A/B/.. と 割り当てるのもよさそう! ほぼ同一時刻で対になるサンプルを生成しているのと 同じとみることができるから。 この発想で、Treatmentへの割り当て確率が有理数 で、 出現する 個ごとに Treatment を 個割り当てた場合の A/Bテストの平均の差 についても sps と同程度の分散になる! tr : Time-grouped Randomization KDD22 関連有志読み会 / Non-stationary A/B Tests 12

Slide 13

Slide 13 text

実験結果 7日間で時刻/曜日変動があるようなダミーデータを Eコマースの実績データをもとに生成 A/B比率 とする。 手法 naive : A/B群の平均の差 psf : 曜日ごと平均の差の平均 sps, tr : 提案法 結果 KDD22 関連有志読み会 / Non-stationary A/B Tests 13

Slide 14

Slide 14 text

まとめ 一般的な非定常の時系列となるA/Bテストで分散が小さくなる サンプル事後層別化 sps = Sample-based Post Stratification を考案 単なる層別化と比較しても分散が小さくなる A/B群への割り当てを到着順に割り当てるような方法 (tr = Time-grouped randomization)でも sps と同等の分散となる KDD22 関連有志読み会 / Non-stationary A/B Tests 14