Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介: オンライン対照実験における尺度解釈の12の落とし穴

論文紹介: オンライン対照実験における尺度解釈の12の落とし穴

社内 LT の資料

Kenta Murata

October 25, 2017
Tweet

More Decks by Kenta Murata

Other Decks in Technology

Transcript

  1. A Dirty Dozen: Twelve Common Metric Interpretation Pitfalls in Online

    Controlled Experiments Kenta Murata Speee Inc. 2017.10.25 オンライン対照実験における尺度解釈の12の落とし穴 論文紹介
  2. 対照実験 • 試験対象の新しい治療方法について2つの群 A, B を用意する • A: 対照群 (control

    group) ‣ 新しい治療を受けない群 • B: 治療群 (treatment group) ‣ 新しい治療を受ける群
  3. A と B の差異 • 実験が正しく設計され、正しく実施されれば、 A と B の違いは新機能の存在のみである

    • 外部要因 (季節性、最近増えた他の新機能の影 響、ライバル製品の動向など) ‣ A と B の観測が同時に実施されれば、両方にほと んど同じだけ影響を与えるので、実験結果に意味 のある影響はないだろう
  4. A と B の尺度の差 • A と B の間に生じる尺度の差は、純粋 に新機能の存在に起因するはず

    • 製品に加えられた変更と、ユーザの行 動の変化の間の因果関係を確立する ⬇
  5. 4種類に分けて考える • Data Quality Metrics • Overall Evaluation Criteria (OEC)

    Metrics • Guardrail Metrics • Local Feature and Diagnostic Metrics
  6. Data Quality Metrics • 実験結果を信用して良いかどうか判断 するための尺度 • 新機能の実装バグなどの問題に対する 警報として機能する •

    網羅的な Data Quality Metrics の集合 を持っていれば、後述する尺度解釈の 落とし穴を特定しやすくなる
  7. Data Quality Metrics の例 • 対照群と治療群のユーザ数の比率 ‣ Sample Ratio Mismatch

    (SRM) を検出 する ‣ ほとんどの SRM は深刻な選択バイアス の存在を意味していて、その場合の実験 結果は無効である
  8. OEC 尺度の性質 • 短期間の実験で計測できる • 同時に、長期のビジネス価値とユーザの満足度を 暗示する • 1製品に1つの OEC

    尺度を持つのが理想 ‣ 他の2-3の尺度による複合尺度でも良い • 良い OEC の設計は難しい
  9. Local Feature and
 Diagnostic Metrics • Local Feature Metrics ‣

    特定の機能の使われ方や機能性を計測する尺度 - 例: 要素ごとの CTR、ファネルのステージを通過したユーザの割 合、など ‣ 治療群において、この尺度の予期せぬ向上は、治療群の変更に よる副作用が原因かもしれないので、解釈に注意を要する • OEC のための Diagnostic Metrics ‣ OEC の変化 (または不変) の原因の理解を助ける尺度
  10. 12の落とし穴 1. Metric Sample Ratio Mismatch 2. Misinterpretation of Ratio

    Metrics 3. Telemetry Loss Bias 4. Assuming Underpowered Metrics had no Change 5. Claiming Success with a Borderline P-value 6. Continuous Monitoring and Early Stopping 7. Assuming the Metric Movement is Homogeneous 8. Segment Interpretation 9. Impact of Outliers 10.Novelty and Primacy Effects 11.Incomplete Funnel Metrics 12.Failure to Apply Twyman's Law
  11. MSN における MSRM の例 • 新機能: リンク先を新規タブで開く • 実験結果: 治療群のページ読み込み時間

    (Page Load Time: PLT) が 8.32% 増えた • なぜ? PLT = Sum of each page load time Total number of page loads
  12. PLT 増加の原因 • 治療群のページ読み込み総数は対照群よりも 7.8% 少なかった • 「新規タブ」と「戻るボタン」の影響 ‣ 対照群では、戻るボタンで前のページに戻るとページ読み込みが

    発生し、ブラウザのキャッシュを使うので小さい読み込み時間が 発生する ‣ 治療群では、戻るボタンを押さず前のページのタブを開くので、 前のページに戻るためのページ読み込みが発生しない ‣ 治療群では、戻るボタンによる小さなページ読み込みが存在しな いため、対照群よりも PLT が大きくなる
  13. MSRM と SRM の違い • Sample Ratio Mismatch の発生は実 験全体を無効にする

    • Metric Sample Ratio Mismatch の発 生は通常は尺度のみ無効にする
  14. MSRM の要因になるもの • ユーザの行動の変化 • An different loss ratio of

    telemetry between control and treatment • 新機能の間違った instrumentation • 以降で紹介する他の落とし穴
  15. MSN の例の PLT を分解してみる • Homepage PLT 1. Average homepage

    PLT per user a. Average homepage PLT per user with 1 homepage visit b. Average homepage PLT per user with 2+ homepage visits 2. Number of homepage loads per user a. Number of back-button loads b. Number of non-back-button loads i. PLT for non-back-button loads
  16. 尺度の定義 Avg CTR/user = P u2users CTR(u) #users CTR( u

    ) = #click on the module by the user u #impressions of the module
  17. 比率尺度の2種類の計算式 • 比率の平均 ‣ 例: 今見たやつ (ユーザ CTR の平均値) •

    平均の比率 ‣ 例: #clicks from all users #page view from all users
  18. (A) 比率の平均 の方が有利 • 変化に敏感である • 外れ値に強い ‣ 各ユーザの行動の重みが均等化されている •

    MSRM に悩まされにくい ‣ 分母のユーザ数が実験の制御量だから • 分散を計算できる
  19. Telemetry loss bias の影響 • Telemetry loss が変化したイベント に依存する尺度が無効になる •

    Telemetry loss を見過ごすと、間違っ たリリース判断を招く可能性がある
  20. MSN での実験の例 • 治療群におけるユーザ毎の総 PV が対照群よりも 0.5% 増えた • MSN

    のように成熟したサイトでは、総 PV の 0.5% の変化は十分意味のある影響だと考えられる • しかし p 値を見ると統計的に有意ではなかった • より詳しく調べると、実験は十分な検定力を持つ設 定になっていなかった
  21. 検定力 • 検定力 (statistical power): 帰無仮説を棄 却し、対立仮説が真であると言える確率 • 検定力が 80%

    より小さい場合、第2種の 過誤 (偽陰性) を犯す可能性が高くなる • 事前に検定力分析をして、十分なサンプル サイズを推定しておく必要がある
  22. Claiming Success with a Borderline P-value • きわどい p 値で実験の成功を主張してしまうこと

    • 対照実験では、統計的に有意な結果が偶然得られるこ とがある ‣ A/A テストでも統計的に有意な変化が起きる場合がある ‣ 必ず再現性を確認すること • また、p 値は頻繁に御用、誤解釈されているので気を つけるべし
  23. Continuous Monitoring and Early Stopping • 継続監視と早期停止 • 継続監視: 予定期間、予定のサンプル

    数を超えても実験を継続すること • 早期停止: 予定期間、予定のサンプル 数を満たす前に実験を中断すること
  24. 例2 • Xbox における、マルチユーザゲームで悪い行いを してサスペンドされたユーザへの tips 教示の、2 週間に渡る評価実験 • 目的:

    カスタマーサポートの電話呼び出しを減らす こと • 2週間後、電話での呼び出し回数は変化しなかった • その後も実験を継続して良いだろうか?
  25. Assuming the Metric Movement is Homogeneous • 尺度の変化が均質的であると仮定して しまうこと •

    実際には、同じページの尺度が、ペー ジが表示されるコンテキストに依存し て異なる振る舞いを見せることがある
  26. Being での例 • 尺度: 広告の表示数 • ページ内の広告表示数が 0.6% 悪化していた が、調べてみると・・・

    ‣ ページが最初に表示された場合の広告表示数は 0.3% 向上していた ‣ ページ内のリンクをクリックし、その後「戻る ボタン」によって元のページに戻った場合の広 告表示数は 2.3% も悪化していた
  27. Being での例 • 検索結果順位づけの新しいアルゴリズムの試験におい て、対照群と治療群のそれぞれでユーザを2群に分けた ‣ U1: 検索結果にディープリンクを表示 ‣ U2:

    ディープリンクを表示しない • 治療群において、U1 と U2 の両方で sessions per user が向上したが、全ユーザ (U1 + U2) で見ると統 計的に有意な変化はなかった
  28. 多重比較問題 • これは多重比較問題の一種であり、偽陽性の可能性を増やす • 有意水準 (偽陽性率) を α = 0.05

    (=1/20) とし、ユーザを 20セグメントに分けて、各セグメントが独立であるとする • 純粋な確率論として、1つのセグメントが統計的に有意な変 化を見せる可能性がある • Bonferroni 補正で有意水準を補正する ‣ セグメントが20個ある場合は、有意水準を20で割るか、p 値 を20倍する
  29. Impact of Outliers • 外れ値の影響 ‣ 尺度を歪める ‣ 分散を増加させる ‣

    結果として、統計的に有意な結果が得ら れなくなる
  30. 外れ値の取り除き方 • Trimming ‣ 外れ値を取り除く • Capping ‣ 固定値で置き換える •

    Winsorizing ‣ 特定のパーセンタイルの値で置き換える ‣ (Charles P. Winsor さんの名前から命名された)
  31. 外れ値に影響されにくい統計量 • 平均値 → 中央値 • 分散 / 標準偏差 →

    四分位間隔 (IQR) • 最小値 → 5パーセンタイル • 最大値 → 95パーセンタイル
  32. Novelty and Primacy Effects • 新規性による効果と本質的な効果の区別 • 人は新しいものが好きなので、新機能はリリース当初 はよく試してもらいやすい •

    リリース初期に見られた効果がずっと継続するかどう かは、実験を継続しないとわからない • 逆に、リリース初期には全く影響は見えないが、時間 が経ってから少しずつ効果が現れてくるものもある
  33. Failure to Apply Twyman's Law • Twyman’s Law の応用、つまり予期せ ぬ尺度の変化から問題を特定すること

    に失敗する • 致命的な問題を含んだバージョンをリ リースしてしまう危険性がある
  34. 参考文献 • 原論文 ‣ http://www.kdd.org/kdd2017/papers/view/a-dirty-dozen-twelve-common-metric- interpretation-pitfalls-in-online-contro • 論文の解説ブログ記事 ‣ https://blog.acolyer.org/2017/09/25/a-dirty-dozen-twelve-common-metric-

    interpretation-pitfalls-in-online-controlled-experiments/ ‣ http://sucrose.hatenablog.com/entry/2017/10/15/234947 • Twyman’s Law ‣ http://www.exp-platform.com/Documents/TwymansLaw.pdf • オンライン対照実験について • https://hbr.org/2017/09/the-surprising-power-of-online-experiments