31 Confidential Debugging metrics 何か予想外のバイアスが混入していないか? 主には Sample Ratio Mismatch (SRM) の確認 ● 各指標の分母となる数値が variant 間で割り当て比率からズレていないかの確認 ● 適合度のカイ二乗検定などでチェックする Kohavi, R., Tang, D., & Xu, Y. (2020). Sample Ratio Mismatch and Other Trust-Related Guardrail Metrics. In Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing (pp. 219-225). Cambridge: Cambridge University Press.
32 Confidential Sample Ratio Mismatch (SRM) Skypeにおける実例 ● 通話音質向上を狙ったA/Bテスト ○ control: ネットワーク状況によらず固定のバッファリングパラメータ ○ treatment: 使用者のネットワーク状況に応じてバッファリングパラメータを自動調節 ● しかし、音質の悪化、再生遅延の増加というネガティブな結果に ● 通話単位でランダマイズ。結果集計で treatment では control と比較して30%もサン プルサイズが少ないことがわかった。→ SRMの発生 Aleksander Fabijan, Jayant Gupchup, Somit Gupta, Jeff Omhover, Wen Qin, Lukas Vermeer, and Pavel Dmitriev. 2019. Diagnosing Sample Ratio Mismatch in Online Controlled Experiments: A Taxonomy and Rules of Thumb for Practitioners.
33 Confidential Sample Ratio Mismatch (SRM) 何が起こっていたのか? 通話途中に variant の id が実際にアサインされたものから変わってしまうというバグが混入し ており、結果として、本当は treatment に割り当てられているはずの群がそのように記録され て いなかった。 Aleksander Fabijan, Jayant Gupchup, Somit Gupta, Jeff Omhover, Wen Qin, Lukas Vermeer, and Pavel Dmitriev. 2019. Diagnosing Sample Ratio Mismatch in Online Controlled Experiments: A Taxonomy and Rules of Thumb for Practitioners. SRM check を行うことで、このような効果検証をする上で致命的な問題に気づける可能性を格 段に上げることができる。
35 Confidential Experiment design doc - Action plan 指標の動き方による基本的な Next Action をあらかじめ合意しておく ● Good scenario: 基本的に Treatment を開放 ○ Goal metrics: Up ○ Guardrail metrics: Up or Flat ● Bad scenario: 基本的に Close ( = Control を開放) ○ Guardrail metrics: Down ● ... 終了した後になって試行錯誤してしまったり、 cherry picking してしまうことを防ぐ