A Dirty Dozen: Twelve Common Metric Interpretation Pitfalls in Online Controlled Experiments Kenta Murata Speee Inc. 2017.10.25 オンライン対照実験における尺度解釈の12の落とし穴 論文紹介
A と B の差異 • 実験が正しく設計され、正しく実施されれば、 A と B の違いは新機能の存在のみである • 外部要因 (季節性、最近増えた他の新機能の影 響、ライバル製品の動向など) ‣ A と B の観測が同時に実施されれば、両方にほと んど同じだけ影響を与えるので、実験結果に意味 のある影響はないだろう
12の落とし穴 1. Metric Sample Ratio Mismatch 2. Misinterpretation of Ratio Metrics 3. Telemetry Loss Bias 4. Assuming Underpowered Metrics had no Change 5. Claiming Success with a Borderline P-value 6. Continuous Monitoring and Early Stopping 7. Assuming the Metric Movement is Homogeneous 8. Segment Interpretation 9. Impact of Outliers 10.Novelty and Primacy Effects 11.Incomplete Funnel Metrics 12.Failure to Apply Twyman's Law
MSN における MSRM の例 • 新機能: リンク先を新規タブで開く • 実験結果: 治療群のページ読み込み時間 (Page Load Time: PLT) が 8.32% 増えた • なぜ? PLT = Sum of each page load time Total number of page loads
MSN の例の PLT を分解してみる • Homepage PLT 1. Average homepage PLT per user a. Average homepage PLT per user with 1 homepage visit b. Average homepage PLT per user with 2+ homepage visits 2. Number of homepage loads per user a. Number of back-button loads b. Number of non-back-button loads i. PLT for non-back-button loads
分子と分母を分けて見る • CTR(u) の分子と分母を分けて調査 ‣ 分子と分母の両方が対照群より改善されていた ‣ しかし、分母の変化が分子より大きかった ‣ だから、比率で見たときに減ってしまった CTR( u ) = #click on the module by the user u #impressions of the module