Pro Yearly is on sale from $80 to $50! »

GunosyにおけるABテストの全容

24a9590ddc0cd89f41a902f87c024eaf?s=47 ij_spitz
October 23, 2019

 GunosyにおけるABテストの全容

24a9590ddc0cd89f41a902f87c024eaf?s=128

ij_spitz

October 23, 2019
Tweet

Transcript

  1. 株式会社 Gunosy GunosyTechLab BIチーム 石塚 淳 2019年10月23日 GunosyにおけるA/Bテストの全容

  2. (C) Gunosy Inc. All Rights Reserved. PAGE | 2 ▪

    石塚 淳 ▪ 前職ではデータ分析基盤を開発 ▪ 2016年2月に株式会社Gunosyに入社 – グノシー事業のデータ分析、プロダクト 改善を担当 – 新規プロダクトのPM – GunosyTechLab BIチームにて社内を 横断した分析 自己紹介
  3. (C) Gunosy Inc. All Rights Reserved. PAGE | 3 株式会社Gunosy

    ▪ 事業内容 – 情報キュレーションサービスその他メディアの開発 及び運営 ▪ 提供サービス – グノシー – ニュースパス – LUCRA – グノスポ – オトクル 企業理念「情報を世界中の人に最適に届ける」
  4. (C) Gunosy Inc. All Rights Reserved. PAGE | 4 ▪

    なぜA/Bテストが必要なのか ▪ 仮説立案 – 仮説の枠組み – 仮説を出すためのヒント ▪ テスト計画 – 拡大について – 事前計画 – サンプルサイズの計算 ▪ 割り当てロジック ▪ 効果測定 – Slack通知 – グラフによる可視化 目次
  5. (C) Gunosy Inc. All Rights Reserved. PAGE | 5 ▪

    答えはユーザーが知っている – 我々は何が優れたアイデアかを判 断できない ▪ 仮説→検証→計測のループを回すことに よって、誰でも運用できる再現性のあるノ ウハウを蓄積できる なぜA/Bテストが必要なのか
  6. (C) Gunosy Inc. All Rights Reserved. PAGE | 6 ▪

    時事性や季節の変動によらず効果計 測ができる – ニュースアプリは特に時期性や季 節の影響を受ける ▪ 意図しない数値の低下、ユーザビリ ティの低下を防げる – インフラの変更 – アプリのリリースには段階的リ リースを実施 なぜA/Bテストが必要なのか
  7. (C) Gunosy Inc. All Rights Reserved. PAGE | 7 ▪

    価値仮説シートを利用 – LEAN UXの仮説ステートメントのようなもの – 仮説の考慮すべきポイントの担保、メンバー全員が仮説を提案できる – コンフルやGithubのIssueでテンプレートを用意 ▪ 特定の大きな課題に紐づく場合もあれば、他アプリや他社の施策をヒント にしたジャストアイデアの場合もある 仮説立案 仮説の枠組み
  8. (C) Gunosy Inc. All Rights Reserved. PAGE | 8 ▪

    施策を行うためのヒントを事前の分析から得る – 現状の把握だけではなく、仮説・検証・意思決定も含んだ分析が大切 ▪ 失敗から学ぶ – 前回のA/Bテストの知見を活かす – 重要な数値をモニタリングし、下がった原因を探る ▪ 他プロダクト事例 – 他プロダクトのA/Bテストが100%適用になった、撤退した – 他プロダクトのアップデート内容 – ニュースパス、ルクラ、オトクル からの輸入 ▪ 大切な数値と相関の大きな数値 – ある行動の回数が高いと、重要な数値も高くなる傾向がある 仮説立案 仮説を出すためのヒント
  9. (C) Gunosy Inc. All Rights Reserved. PAGE | 9 ▪

    A/Bテストは1%から開始して、100%まで段階的に引き上げていく – いきなり50%などの大きな割合で開始してしまうと、数値が大きく毀損 してしまう可能性があるため ▪ 割合ごとに見るべき数値と期間は異なる – 1%: 1 ~ 3日 • 大幅な数値低下やバグはないか – 5 ~ 10%: 7日 • クリック数などのKPI – 20 ~ 50%: 14 ~ 21日 • 継続率 – 99%: 長期間 • 長期の継続率やその他のKPI テスト計画 拡大について
  10. (C) Gunosy Inc. All Rights Reserved. PAGE | 10 ▪

    必要となるログ – 新しく追加で実装が必要なログはないか ▪ ウォッチするKPI – A/Bテストの割合に応じて適切なKPIを設計する ▪ 撤退条件、拡大条件 – 基本的に継続率を下げるような施策は撤退する – その他施策に応じて撤退条件、拡大条件を先に決めておく ▪ 期間 – ウォッチするKPIとサンプルサイズから各フェーズにおいて必要となる 日数を計算(後述) テスト計画 事前計画
  11. (C) Gunosy Inc. All Rights Reserved. PAGE | 11 ▪

    テストの成否を決定するために、既存アルゴリズムと比較し、KPIに統計 的に有意な差があるかを検出する ▪ 過去の登録ユーザ数やDAUから逆算して必要な日数を算出 – 効果量、有意水準、検出力を与える – 詳しくはブログで • https://data.gunosy.io/entry/ab-test-sample-size テスト計画 サンプルサイズの計算
  12. (C) Gunosy Inc. All Rights Reserved. PAGE | 12 ▪

    A/BテストのIDとユーザーのIDを使ってハッシュ値を生成、それを10進数 に直して100で割った余りでグルーピングしている ▪ 以前はユーザーIDを20で割った余りを使用して5%ずつにグルーピングし ていた – A/Bテスト同士の影響が重ならないようにグループを選ばないといけ ない – グループが昔のテストの影響を受けていて、A/Bを開始した時にすで に差が存在しているある場合がある 割り当てロジック
  13. (C) Gunosy Inc. All Rights Reserved. PAGE | 13 割り当てロジック

  14. (C) Gunosy Inc. All Rights Reserved. PAGE | 14 ▪

    結果は日次でSlackの部屋に通知している – テスト対象のKPI – 比較対象のKPI – テスト対象KPI / 比較対象のKPI – p値 • RR, CTRのみ 効果測定 Slack通知
  15. (C) Gunosy Inc. All Rights Reserved. PAGE | 15 ▪

    RedashというBIツールを使用 – 各テストで共通して見るKPIはダッシュボード化 – テスト固有のKPIなどは手動でクエリを書く ▪ なぜSlack通知だけではダメか – テスト前からグループ間で差が生じている場合がある – 確認するためにテスト開始前後でのKPIの差分を見ている • A/Aテスト 効果測定 グラフによる可視化
  16. (C) Gunosy Inc. All Rights Reserved. PAGE | 16 ▪

    A/Bテストによってユーザーに価値のある施策、機能開発をしよう ▪ 仮説→検証→計測のループを回して、ノウハウ・知見を学習していく – 得られたノウハウやユーザー理解が資産になる ▪ 誰もが仮説を提案し、検証できる文化を作る まとめ
  17. 情報を世界中の人に最適に届ける

  18. (C) Gunosy Inc. All Rights Reserved. PAGE | 18 ▪

    A/Bテストのベストプラクティスと落とし穴 ~KDD2019 レポート~ – https://data.gunosy.io/entry/kdd2019-online-experiment ▪ より正しい意思決定のための統計的仮説検定とサンプルサイズ計算 – https://data.gunosy.io/entry/ab-test-sample-size ▪ A/Bテストの対象をいい感じに割り振る方法 – https://data.gunosy.io/entry/ab_testing_assignment ▪ Gunosyでの仮説検証 – https://tech.gunosy.io/entry/gunosy-testing ▪ Gunosy MLチームでのA/Bテストの設計と運用 – https://data.gunosy.io/entry/ml-ab-management リンク集