Upgrade to Pro — share decks privately, control downloads, hide ads and more …

メルカリにおけるA/Bテスト標準化への取り組み

 メルカリにおけるA/Bテスト標準化への取り組み

2021/7/28, Retty ✕ Mercari Analyst Talk Night!
https://mercari.connpass.com/event/218848/

yaginuuun

July 28, 2021
Tweet

More Decks by yaginuuun

Other Decks in Technology

Transcript

  1. 1
    Confidential
    メルカリにおけるA/Bテスト標準化への取り組み
    柳沼 慎哉(@yaginuuun)
    2021/7/28, Retty ✕ Mercari Analyst Talk Night!

    View Slide

  2. 2
    Confidential
    自己紹介
    ● 前職ではe-learning serviceのData Scientist
    ● メルカリではData Analystとして主にA/Bテスト周り、
    推薦システムの改善を担当
    ● 個人でPodcastをやっていたり
    ● よろしくお願いします!
    柳沼 慎哉
    Twitter: @yaginuuun

    View Slide

  3. 3
    Confidential
    メルカリの分析チーム(JP Analytics)
    ※ テーマによってはチーム横断で取り組む場合も あり
    Growth
    Analytics
    Product
    Analytics
    Analytics
    Infra
    Product の改善施策の意思決定を主導する
    (施策の成功指標設計、実験の設計・評価、カスタマーインサイトの導出)
    事業戦略の意思決定を主導する
    (マーケティング予算等グループ全体の成長戦略への提言、グロース施策への提言 )
    分析環境・ノウハウの整備によりデータの民主化を進める
    (KPIの標準化、分析基盤の整備、実験設計の標準化)
    大きく3つのサブチームに分かれている

    View Slide

  4. 4
    Confidential
    メルカリの分析チーム(JP Analytics)
    ※ テーマによってはチーム横断で取り組む場合も あり
    Growth
    Analytics
    Product
    Analytics
    Analytics
    Infra
    Product の改善施策の意思決定を主導する
    (施策の成功指標設計、実験の設計・評価、カスタマーインサイトの導出)
    事業戦略の意思決定を主導する
    (マーケティング予算等グループ全体の成長戦略への提言、グロース施策への提言 )
    分析環境・ノウハウの整備によりデータの民主化を進める
    (KPIの標準化、分析基盤の整備、実験設計の標準化)
    今日は Analytics Infra team における取り組みの話

    View Slide

  5. 5
    Confidential
    今日のテーマ:A/Bテストの標準化
    Not 自動化
    いわゆる Tech giant における Experimentation Platform の
    ようにA/Bテスト自動分析基盤作った、という話ではない
    But 標準化
    施策評価者が統計的な検討事項やPitfallを考慮しつつ、一定以上
    の品質でA/Bテストから信頼に足る結果を得、それを元に意思決定
    できるようにする。

    View Slide

  6. 6
    Confidential
    A/Bテスト(Randomized Controlled Trial)
    ● 世界中で使われている効果検証のゴールドスタンダード
    ● メルカリでもほとんどの変更がA/Bテストによって評価されている。
    Control group
    Treatment group

    View Slide

  7. 7
    Confidential
    Why 標準化?
    Experimentation Maturity Models(成熟モデル)
    Fly
    04 ● 1000~ tests / year
    ● テスト集計が自動化されている
    ● ほぼ全ての変更時に A/Bテストが行われている
    Run
    03 ● ~250 tests / year
    ● 評価基準が合意され、システマチックに意思決
    定することができている
    Walk
    02 ● ~50 tests / year
    ● 標準的な指標の定義ができている
    ● A/Bテスト結果の信頼性が確立されている
    Crawl
    01 ● ~10 tests / year
    ● 統計値を計算できる基盤が整っている。
    Kohavi, R., Tang, D., & Xu, Y. (2020). Experimentation Platform and Culture. In Trustworthy Online Controlled Experiments: A Practical
    Guide to A/B Testing (pp. 58-78). Cambridge: Cambridge University Press.

    View Slide

  8. 8
    Confidential
    Why 標準化?
    完全な自動化は最終ステップ
    Fly
    04 ● 1000~ tests / year
    ● テスト集計が自動化されている
    ● ほぼ全ての変更時に A/Bテストが行われている
    Run
    03 ● ~250 tests / year
    ● 評価基準が合意され、システマチックに意思決
    定することができている
    Walk
    02 ● ~50 tests / year
    ● 標準的な指標の定義ができている
    ● A/Bテスト結果の信頼性が確立されている
    Crawl
    01 ● ~10 tests / year
    ● 統計値を計算できる基盤が整っている。
    Kohavi, R., Tang, D., & Xu, Y. (2020). Experimentation Platform and Culture. In Trustworthy Online Controlled Experiments: A Practical
    Guide to A/B Testing (pp. 58-78). Cambridge: Cambridge University Press.

    View Slide

  9. 9
    Confidential
    Why 標準化?
    自動化よりも前にやることがある 

    Fly
    04 ● 1000~ tests / year
    ● テスト集計が自動化されている
    ● ほぼ全ての変更時に A/Bテストが行われている
    Run
    03 ● ~250 tests / year
    ● 評価基準が合意され、システマチックに意思決
    定することができている
    Walk
    02 ● ~50 tests / year
    ● 標準的な指標の定義ができている
    ● A/Bテスト結果の信頼性が確立されている
    Crawl
    01 ● ~10 tests / year
    ● 統計値を計算できる基盤が整っている。
    Kohavi, R., Tang, D., & Xu, Y. (2020). Experimentation Platform and Culture. In Trustworthy Online Controlled Experiments: A Practical
    Guide to A/B Testing (pp. 58-78). Cambridge: Cambridge University Press.

    View Slide

  10. 10
    Confidential
    A/Bテスト結果の信頼性
    ● Sample Ratio Mismatch
    ● 多重比較
    ● Power Analysis(サンプルサイズ設計)
    ● 評価指標選定
    ● Cherry picking
    ● …
    A/Bテストはシンプルに見えて、その設計や評価において Pitfall がたくさんある。 

    メルカリにおいても、必ずしも適切に行われていたわけではなかった。 


    View Slide

  11. 11
    Confidential
    ではどのように標準化を行う?
    Experiment design doc を中心としたA/Bテスト検証フローの整備
    私たちが行ったこと


    View Slide

  12. 12
    Confidential
    Experiment design doc を中心としたA/Bテスト検証フローの整備
    ● A/Bテストの設計項目をテンプレート化
    ● 同時にReviewプロセスも整備することで効果検証の質を担保する
    具体的に


    View Slide

  13. 13
    Confidential
    Experiment design doc を中心としたA/Bテスト検証フローの整備
    ● A/Bテストの設計項目をテンプレート化
    ● 同時にReviewプロセスも整備することで効果検証の質を担保する
    今日は実際に運用しているテンプレートの各項目にフォーカスして紹介 


    View Slide

  14. 14
    Confidential
    Contents:
    ● Background
    ● Test settings
    ● Metrics details
    ● How to evaluate metrics
    ● Action plan

    Experiment design doc
    A/Bテスト開始前に決めるべきことをテンプレート化

    View Slide

  15. 15
    Confidential
    Contents:
    ● Background
    ● Test settings
    ● Metrics details
    ● How to evaluate metrics
    ● Action plan

    Experiment design doc
    主要な部分について解説

    View Slide

  16. 16
    Confidential
    Contents:
    ● Background
    ● Test settings
    ● Metrics details
    ● How to evaluate metrics
    ● Action plan

    Experiment design doc
    主要な部分について解説

    View Slide

  17. 17
    Confidential
    Experiment design doc - Background
    A/Bテストの背景となっている情報を記入する
    Objective
    テストを行う目的
    Issue
    解決したい問題
    How to improve
    Issueを解決するために行う変更内容
    Hypothesis
    その変更によってどのようにUX、ビジネスが
    改善するのか

    View Slide

  18. 18
    Confidential
    Contents:
    ● Background
    ● Test settings
    ● Metrics details
    ● How to evaluate metrics
    ● Action plan

    Experiment design doc
    主要な部分について解説

    View Slide

  19. 19
    Confidential
    Experiment design doc - Metrics Details
    3種類の評価指標
    Goal metrics
    改善を期待する指標
    1
    2
    3
    Guardrail metrics
    UX, ビジネス上重要な棄損したくない指標
    Debugging metrics
    意図通りテストが進んでいるかを確認する指標

    View Slide

  20. 20
    Confidential
    Experiment design doc - Metrics Details
    まずは Goal metrics についてもう少し詳しく
    Goal metrics
    改善を期待する指標
    1
    2
    3
    Guardrail metrics
    UX, ビジネス上重要な棄損したくない指標
    Debugging metrics
    意図通りテストが進んでいるかを確認する指標

    View Slide

  21. 21
    Confidential
    Goal metrics
    典型的なECサイト上での購買を例に
    1
    訪問 検索
    2
    商品閲覧
    3
    購入完了
    N
    例えば検索バーを少しだけ目立たせる変更
    Search execute rate item view rate
    Purchase rate

    View Slide

  22. 22
    Confidential
    Goal metrics
    変更から遠い指標:変更による効果が途中のステップの中で希釈されてしまう。
    1
    訪問 検索
    2
    商品閲覧
    3
    購入完了
    N
    例えば検索バーを少しだけ目立たせる変更
    Search execute rate item view rate
    Purchase rate
    これは基本的に Goal metrics に設定しない

    View Slide

  23. 23
    Confidential
    Goal metrics
    なるべく変更に近い位置を Goal metrics に置く
    1
    訪問 検索
    2
    商品閲覧
    3
    購入完了
    N
    例えば検索バーを少しだけ目立たせる変更
    Search execute rate item view rate
    Purchase rate

    View Slide

  24. 24
    Confidential
    Experiment design doc - Metrics Details
    Guardrail metrics
    Goal metrics
    改善を期待する指標
    1
    2
    3
    Guardrail metrics
    UX, ビジネス上重要な棄損したくない指標
    Debugging metrics
    意図通りテストが進んでいるかを確認する指標

    View Slide

  25. 25
    Confidential
    Guardrail metrics
    再び典型的なECサイト上での購買を例に
    1
    訪問 検索
    2
    商品閲覧
    3
    購入完了
    N
    Search execute rate item view rate
    Purchase rate
    例えばカート画面で執拗に購買を迫る変更

    View Slide

  26. 26
    Confidential
    Guardrail metrics
    Pros
    カート画面で購買を迷っている人のうち何割かを購買転換できる可能性が高い
    Cons
    必要以上に購買を迫られる不信感から離反が増加してしまう可能性がある

    View Slide

  27. 27
    Confidential
    Guardrail metrics
    Pros
    カート画面で購買を迷っている人のうち何割かを購買転換できる可能性が高い
    Cons
    必要以上に購買を迫られる不信感から離反が増加してしまう可能性がある
    リテンションなどを Guardrail metrics に設定して監視

    View Slide

  28. 28
    Confidential
    Experiment design doc - Metrics Details
    最後に Debugging metrics
    Goal metrics
    改善を期待する指標
    1
    2
    3
    Guardrail metrics
    UX, ビジネス上重要な棄損したくない指標
    Debugging metrics
    意図通りテストが進んでいるかを確認する指標

    View Slide

  29. 29
    Confidential
    Debugging metrics
    意図通り とは
    ● 施した変更は十分に認知されているか?
    ● 何か予想外のバイアスが混入していないか?

    View Slide

  30. 30
    Confidential
    Debugging metrics
    施した変更は十分に認知されているか?
    例:Goal metricsにもGuardrail metricsにも変化がなかった。
    → そもそも認知が足りていなかっただけなのか、それとも本当に変更に効果がなかったのか判別
    がつかない。
    変更箇所の使用率を確認しておくことで切り分けが可能になる

    View Slide

  31. 31
    Confidential
    Debugging metrics
    何か予想外のバイアスが混入していないか?
    主には Sample Ratio Mismatch (SRM) の確認
    ● 各指標の分母となる数値が variant 間で割り当て比率からズレていないかの確認
    ● 適合度のカイ二乗検定などでチェックする
    Kohavi, R., Tang, D., & Xu, Y. (2020). Sample Ratio Mismatch and Other Trust-Related Guardrail Metrics. In Trustworthy Online
    Controlled Experiments: A Practical Guide to A/B Testing (pp. 219-225). Cambridge: Cambridge University Press.

    View Slide

  32. 32
    Confidential
    Sample Ratio Mismatch (SRM)
    Skypeにおける実例
    ● 通話音質向上を狙ったA/Bテスト
    ○ control: ネットワーク状況によらず固定のバッファリングパラメータ
    ○ treatment: 使用者のネットワーク状況に応じてバッファリングパラメータを自動調節
    ● しかし、音質の悪化、再生遅延の増加というネガティブな結果に
    ● 通話単位でランダマイズ。結果集計で treatment では control と比較して30%もサン
    プルサイズが少ないことがわかった。→ SRMの発生
    Aleksander Fabijan, Jayant Gupchup, Somit Gupta, Jeff Omhover, Wen Qin, Lukas Vermeer, and Pavel Dmitriev. 2019.
    Diagnosing Sample Ratio Mismatch in Online Controlled Experiments: A Taxonomy and Rules of Thumb for Practitioners.

    View Slide

  33. 33
    Confidential
    Sample Ratio Mismatch (SRM)
    何が起こっていたのか?
    通話途中に variant の id が実際にアサインされたものから変わってしまうというバグが混入し
    ており、結果として、本当は treatment に割り当てられているはずの群がそのように記録され

    いなかった。
    Aleksander Fabijan, Jayant Gupchup, Somit Gupta, Jeff Omhover, Wen Qin, Lukas Vermeer, and Pavel Dmitriev. 2019.
    Diagnosing Sample Ratio Mismatch in Online Controlled Experiments: A Taxonomy and Rules of Thumb for Practitioners.
    SRM check を行うことで、このような効果検証をする上で致命的な問題に気づける可能性を格
    段に上げることができる。

    View Slide

  34. 34
    Confidential
    Contents:
    ● Background
    ● Test settings
    ● Metrics details
    ● How to evaluate metrics
    ● Action plan

    Experiment design doc
    主要な部分について解説

    View Slide

  35. 35
    Confidential
    Experiment design doc - Action plan
    指標の動き方による基本的な Next Action をあらかじめ合意しておく
    ● Good scenario: 基本的に Treatment を開放
    ○ Goal metrics: Up
    ○ Guardrail metrics: Up or Flat
    ● Bad scenario: 基本的に Close ( = Control を開放)
    ○ Guardrail metrics: Down
    ● ...
    終了した後になって試行錯誤してしまったり、
    cherry picking してしまうことを防ぐ

    View Slide

  36. 36
    Confidential
    まとめ
    A/Bテストの標準化を目指して Experiment design doc を中心としたワークフローを整備し
    た。
    良かったこと
    ● Template のメリット
    ○ 書体が揃う → 過去のDocumentを読み解くコストが下がる
    ○ 検討項目の抜け漏れがなくなる
    ○ 話し合いをする板としての役割を果たしてくれる
    ● Review のメリット
    ○ A/Bテストの検証に慣れていないメンバーでも Pitfalls を避けつつ一定基準の質を保
    ちつつ検証を行うことができる。

    View Slide

  37. 37
    Confidential
    References
    ● Trustworthy Online Controlled Experiments - A Practical Guide to
    A/B Testing:A/Bテストについてはこの本を読めばOK
    ● A/Bテスト実践ガイド 真のデータドリブンへ至る信用できる実験とは:上記の日
    本語版
    ● Top Challenges from the first Practical Online Controlled
    Experiments Summit:A/Bテスト関連の海外Tech企業の事例が豊富。特
    に7章が今回の話題に近い
    ● 効果検証入門

    View Slide

  38. 38
    Confidential
    We’re hiring !!
    ● シニアデータアナリスト
    ● データアナリスト (アーキテクト)
    ● データアナリスト (マーケット・リサーチャー)
    詳細は mercari careers から Data Analytics で絞り込み!

    View Slide

  39. 39
    Confidential
    おしまい
    ありがとうございました!
    この辺りの話、気になる方いらっしゃいましたらぜひ後ほどお話しましょう!

    View Slide