Upgrade to Pro — share decks privately, control downloads, hide ads and more …

A/Bテスト実践ガイド ~真のデータドリブンへ至る信用できる実験とは~

A/Bテスト実践ガイド ~真のデータドリブンへ至る信用できる実験とは~

DS協会コンペ部勉強会で発表した資料
Qiitaにも記事公開
https://qiita.com/wakama1994/items/a137a79f50cedd2f6186

wakama1994

May 20, 2023
Tweet

More Decks by wakama1994

Other Decks in Science

Transcript

  1. はじめに • 本資料はA/Bテスト実践ガイド(Ron Kohavi et.al 2021 アスキードワンゴ)の書評である ◦ このうち基本となるⅠ部〜Ⅲ部(11章まで)をレビューした ◦

    Ⅳ部〜Ⅴ部 については発展的内容のため巻末に 章立てを列挙するのみに留める ▪ レビューしたくなった場合は version更新を行う • レビューした本は通称「カバ本」と呼ばれており 界隈でも有名な書の1つ ◦ 株) メルカリでもカバ本を用いて A/Bテストが行なわれている ▪ https://speakerdeck.com/shyaginuma/2022-01-14-pydata-dot-tokyo-merukariniokerua-btesutowakuhuronogai-sh an-korematetokorekara-1 ◦ 日本語訳者である大杉直也氏の紹介動画もあるのでそちらを参照されたい ▪ https://www.youtube.com/watch?v=NS0wjgMsih4 2
  2. 資料の構成 第Ⅰ部 すべての人向けの導入トピック p4~30 第1章 導入と動機付け 第2章 実験の実行と分析 〜一連の流れ〜 第3章 トワイマンの法則と実験の信用性 第4章 実験のプラットホームと文化 第Ⅱ部 すべての人を対象とした選択的トピック p31~46

    第5章 スピードの重要さを示すケーススタディ 第6章 組織を運用するためのメトリクス 第7章 実験のためのメトリクスと OEC 第8章 インスティチュートナルメモリとメタアナリシス 第9章 コントロール実験の倫理 第Ⅲ部 コントロール実験の補完または代替となる手法 p47~56 第10章 オンラインでのコントロール実験の補完方法 第11章 観察的因果関係研究 最後に p57~59 第Ⅳ部第Ⅴ部の章立て レビューした人の紹介 3
  3. 用語解説 〜その他重要語〜 • OEC(Overall Evaluation Ciriterition 総合評価 ) ◦ 実験の定量的な測定のことをさす(目標)検索エンジンの場合は利用率であり ,それを関連性や広

    告費用を変化させることで測定 (2部7章で詳細を記載) • パラメーター ◦ OECに影響を与える因子や変数 • 実験群 ◦ テストされるユーザーのこと コントロール群と介入群のことを一般的にさす • ランダム化単位(Randamaization Unit) ◦ 実験単位や実験群へランダムに割り当てること ランダム化は重要であり実験計画が核実験群に同 じ 6
  4. なぜ実験をするのか? • 因果関係を高い確率で確立できる最高 の科学的手法 ◦ エビデンスに基づく医療の実践 (Greenhalagh,1997) • 微細な経年変化など, 他の技術では検

    出しにくい微細な変化も検出 • 予期せぬ変化も検出可能 ◦ パフォーマンスの低下 ,クラッシュエラーの増 加, 他の機能からのクリック共食い ※下層に従い,広い調査が必要 書より 7
  5. 実験を行う上での原則 1. データに基づいた意思決定をしたいと考えており, OECを公式化する組織 ◦ 計画の達成率をを基準として達成させることが容易 2. コントロール実験を実行し, その結果を信頼性をあげるために,インフラストラクチャ とテストに投資する意思がある組織

    ◦ リーンスタートアップに代表されるアジャイル開発が特に有用 3. アイディアの価値評価が苦手であると意識している組織 ◦ チーム内で有用とされていたとしても ,大抵の場合リリースすると失敗する 9
  6. コントロール実験での興味深い例 1. UIの例..41段階的の青 ◦ 小さなデザインの変更が大きな影響を与える例( Google Microsoft) 2. 適切なタイミングでのオファー 3.

    パーソナライズされたリコメンド 4. 多くのスピード問題 ◦ HTMLを短縮して大幅なパフォーマンス改善 5. マルウェアの削除 ◦ ユーザー体験の向上 6. バックエンドのアルゴリズム変更 ◦ 「Xを買った人がYを買った&Xを見た人はYを見た」「Yを見た人がXを見た」こ の情報から「Xを検索した人がYを変更した」に改良 10
  7. 戦術, 戦略, 実験との関係性 • リーン戦略のプロセス..データ駆動型で小さく作って常に改良 ◦ シナリオ1: 事業戦略があり ユーザーも十分なプロダクトがある場合 ▪

    実験がROI(投資利益率)の改善に役立ちプロダクトデザインの試行錯誤に長けている ◦ シナリオ2: プロダクトと戦略はあるが , 結果が方針転換の材料になる場合 ▪ 実験期間(短期or長期)とテスト数の多さを検討 ▪ データを収集し反復することで不確実性を大幅に削除 11
  8. 実験のセットアップ • 商品のイーコマースを例にして..クーポンの入力ページの追加で実験 • 効果..入力ページの追加によって , 収益の増加を知りたい • 被験者の設定 ◦

    サイトを訪問した全ユーザ(適切だが ノイズが多い) ◦ 購入プロセスを完了したユーザー(不適切 購入額の影響を知りたいため) ◦ 購入プロセスを開始したユーザー (最も最適) 書より 13
  9. 実験デザインデータ収集 1. ユーザー単位は何か?..特定or一般的母集団か?(14章で詳細) 2. ターゲットとしたい母集団..1人あたりの収益や購入指標を目標 3. 標本のサイズ.. 実験の安全性や他の実験と共有すべきかも考慮 4. 期間..曜日効果,季節性,プライマシー効果,ノベルティー効果(後述)

    1. 全てのユーザーを対象に 2. 購入確認に訪れたユーザーの分析 3. 1%の変化に対して,80%の信頼区間で 4. コントロール:介入:介入 =1:1:1で最小4日間実験 ただし ,曜日効果を実践するため ,1週間の中で実験 プ ラマシー効果やノベルティー効果を検出した場合はもっと長い期間実施予定 具体例 15
  10. 結果の解釈と意思決定 • 結果をみる前に..バグチェックをガードレールメトリクス &不変メト リクスで確認 • 結果から意思決定..結果に再現性があり • 信頼できるかの確認 ◦

    異なるメトリクスでもトレードオフかローンチ前の開発コストと ローンチ後の保守運用コストも加味 • 結果の解釈...統計的有意性と実用性を理解する右図 1. 統計的にも実用性も有用でない 2. 実用性も統計的にも有用 3. 統計的に有用だが実用的ではない 4. 中立的で解釈の幅が広い →追加テストが必要 5. 実用的だが,統計的有意性なし→大きな検出力でテストを実施 6. ⑥統計的に有意で,実用性も高い→ローンチを選択は穏当な決定 書より 書より 16
  11. 検定の誤った解釈 • 統計的検出力の不足..コントロール群と介入群が統計的有意差がない >介入効果がない • p値の誤った解釈.. 1. p=0.05の時帰無仮説が真であるのが 5% 2.

    有意差がないから2つの群に違いがない 3. p=0.05は帰無仮説の下で数ある思考のうち 5%しか発生しないデータが観測 4. p=0.05は仮説を棄却した場合 ,偽陽性が5%(P<0.05かつ帰無仮説が真の場合のみ有効 ) • 多重仮説検定.. ◦ 複数検定がある場合 ,最も低いp値を選択したことに効果量の推定と推定値に偏りがある (何回 も繰り返し実験をするうちに pが小さくなることがある ) 18
  12. 内的妥当性の脅威..一般化せずに結果が正しいと判断 SUTVA(stabe unit treatment value assumption)違反..実験群同士 が互に干渉している状態 生存者バイアス..右図参照 Intention to

    treat..特定のユーザだけ分析すると選択バイアスが発 生し 介入効果が誇張 サンプル比率のミスマッチ..実験間のユーザーの比率が意図どお り近くない場合に サンプル比率にミスマッチがある 19
  13. セグメントの違い • 良いセグメントとは? 1. 市場または国 2. デバイスVSプラットフォーム 3. 時間帯や曜日 4.

    ユーザーのタイプ(新規 or既存) 5. ユーザーアカウント(単一アカウントor シェアアカウント) • セグメントごとのレビュー ◦ セグメントごとでレビューを行うと異なる結果になる ◦ ヘテロジニアスな介入効果 ...セグメント間で介入効果が一様で はない 書より 21
  14. 実験成熟モデル • 成熟段階 1. クロールフェーズ(計測装置と基礎的なデータサイエンス要約統計 ) 2. オークフェーズ(標準的なメトリクスと多くの実験) 3. ランフェーズ(メトリクスのセットの合意

    or複数メトリクスでトレードオフ) 4. フライフェーズ(A/Bテストが標準的,機能チームだけで改善可能 ) ◦ 各フェーズの判定は ,実験の回数で判定①は 1ヶ月に1回実験,②は週に1回,③は毎日,④は年に 1000回以上 24
  15. 実験成熟モデル • リーダシップ ◦ ハイレベルなメトリクスをたてガードレール /普遍メトリクスに合意 ◦ メトリクスの改善から目標の設定 ◦ 失敗することを見越したハイリスクハイリターンなプロジェクト

    ◦ データ集めやROIの値の確立のための学習用実験の実施 ◦ アジリティ向上のための短期計測の可能かメトリクス(長期変化のための) 25
  16. 実験成熟モデル • 内製品VS 外製品..Googleや Linked inなどでは2018年の成長率 600% ◦ ただしウォークフェーズの場合ではこの限りではない •

    外部プラットフォームが必要な機能を提供できるか? ◦ フロントエンドとバックエンドサーバーとクライアント ◦ Webサイトの速度 ◦ 使用可能性のあるディメンションとメトリクス ◦ 外部へのロギングが可能か ◦ 追加のデータソースが統合可能か ◦ ニアリアルタイム(NRT) ◦ 自分達のインスティチュートメモリを活用できるか 27 書より
  17. インフラストラクチャーとツール • 実験プラットフォームの構築は意思決定の信用性を確保する上でも重要 ◦ UIとアプリケーション ◦ サーバー側とクライアント側の両方での実験群の割り当て ◦ 実験の測定装置 ◦

    統計検定での定義と実験分析 • 実験の定義・管理・設定 ◦ 実験仕様の下書き編集保存 ◦ 反復経過と現在の反復 ◦ 実験の履歴や時系列をみる機能 28 書より
  18. スピードの重要性 • スピードに影響を与えるもの ◦ 収益, クリック数, 満足度(Amazon) • 主要な仮説の近似曲線 ◦

    右図のように現在のパフォーマンスに近似する形で計測 をする • Webパフォーマンスの設計..レイテンシの測定にはサー バー間を同期させる必要 ◦ ページのロード時間はユーザーは T6-T0でありT7-T1を測 定できる ◦ この2つの差分はユーザ体験と近似できる 書より 32
  19. スローダウン実験の設計とページ要素の影響 • スローダウン..どのページに挿入するか? ◦ chunk1(図5.1)は何もないのでレイテンシは困難 ◦ chunk2(URL依存のHTML)はクエリの生成に時間がかかるの で有効 ◦ 実験結果にはばらつきを考慮する必要ある

    • ページ要素の影響...ページの違いによって ◦ 最初の結果までの時間 ◦ Above the fold time(ブラウザの初期表示領域のピクセルの 塗りつぶし) ◦ スピードインデックス(上記を一般化平均かしたもの) ◦ ページフェーズインデックスとユーザー待機時間 • 極端な結果たち..スピードの重要性を誇張している論文もあっ た 書より 33
  20. メトリクスの分類 • ゴールメトリクス..組織が最終的に何を反映しているかで重要 • ドライバーメトリクス..ゴールメトリクスよりも短期的な成果の出るもの ◦ HEART(Heart,engagement,adoptation, retention,task sucess)フレーム •

    ガードレールメトリクス..ビジネスを守るvs実験の信用性評価 • アセットメトリクス・エンゲージメトリクス..ユーザーのアクションや総アクセス数 • ビジネスメトリクス・運用メトリクス.. ユーザ単位の収益 35
  21. メトリクスの定式化~評価~進化 • メトリクスの原則 ◦ 単純・安定/ゴール間に整合性がある /操作可能で関連性あり /敏感に反応/ゲームに耐性がある (行動がドライブさせゲーム化しないか ) ◦

    ユーザー体験を調査して幸福や成功を一般化 ◦ ゴールメトリクスやドライバーメトリクスは品質も考慮 • メトリクスの評価..予測誤差を小さく時間をかけて ◦ サーベイやフォーカスグループでユーザー体験調査 (UER)で ◦ 観察データの分析(11章), 他社の事例を参考, 顧客のLTVの向上など • メトリクスの進化..ビジネス/環境/自分の理解の進化 36
  22. ビジネスメトリクスから実験に適するものへ • 実験に適したメトリクス a. 測定可能 b. 紐付け可能(アプリとの連携) c. 敏感かつ即時的..分析感度を示すものは分散 ,

    効果の大きさ,ランダム性 ▪ 感度の低い例..株価がプロダクトに与える影響 ▪ 感度の高い例..外れ値のあるメトリクス , 更新に繋がるサロゲートメトリクス(利用状況) • 主要なメトリクスの合成でのOEC..それぞれのメトリクスに重みづけ a. 全てのメトリクスに有意差がなく or有意差があり1つのメトリクスに有意差あり>ローンチ b. 主要なメトリクスが全て有意差なし orネガティブで1つがマイナス>変更しない c. 主要なメトリクスが全て有意差なし>実験の検出力をあげるか , 方針転換 d. いつくかがポジティブでネガティブな時>トレードオフモデルで決定 38
  23. OECの例 • Amazonのメール..様々な条件に基づいてターゲティングされた顧客 ◦ キャンペーンでの新発売の商品が届く /購入履歴/購入履歴に対するレコメンド ▪ レコメンドに基づく顧客のクリックが短期的な収益に最適化されていることに気が付く ▪ OECに悪影響の補正をかけたもので作り替える半数以上がマイナスに

    ▪ 配信の停止が損出が甚大である • Bingの例..クエリシェア(訪問率)と収益 ◦ 両者の長期的な目標が一致しない ▪ 検索エンジンの収益目標がユーザーが答えを見つけたりタスクを素早く完了する ▪ クエリのシェア率とは相反する ◦ エンゲージメントのメトリクスに悪影響を与えず収入を増加させたい ..制約最適化の問題 39
  24. インスチューショナルメモリとは? • 実験の全ての履歴のこと(デジタルジャーナル) • 重要な理由.. a. 実験文化..目標や成長にどのように影響したか /実験の特定/実験結果の影響の集計 b. 実験のベストプラクティス

    ..十分な検出力があるか /十分な検出力があれば改善の提案が可能 c. 未来のイノベーション ..過去の失敗の教訓 ▪ ex) 実験の探索範囲を狭め ,良いユーザー体験(検索エンジンの結果) d. メトリクス..メトリクスの感度/関連するメトリクス/確率的な定理の利用 e. 実証研究.. EX)Linked Inの実験 ▪ 「もしかして知り合い?」アルゴリズムの 700の実験から, 仕事につくコネクションの強さと多様 性に因果関係を発見 42
  25. 背景 • 何をすべきか?何をすべきでないかを規定する道徳のこと • 倫理性の必要性を示す問い a. Facebookの研究.. ランダムな参加者がわずかな否定投稿 >1週間後より多くの否定投稿 ▪

    ソーシャルメディアの伝染を示す b. OKCupid..30%60%90%のマッチ度を判断した顧客のペアを識別 ▪ 1/3には20%, 1/3には60%, 1/3には90%のマッチ度を表示 • ベルモンド報告書..生物医学や行動学的人対象の研究での注意点 a. 人権を尊重 b. 有益性.. 実験者への利益を最大化 c. 正義..リスクと利益の公平な分配 44
  26. 背景 • A/Bテストへのリスクへの反論..実験者に気概や不確実性を与える ◦ 等質性..2つの介入方法で不確実な状態かどうかみなす ◦ 全ユーザーへ適応しても問題ないか? ▪ ピア効果があると仮定したが ,

    貯蓄が減った例もある • 利益..研究の利益の理解 ◦ 利益の評価が困難な状況に ,ユーザー体験型のもの ▪ ユーザー体験を遅くする (5章) ▪ 長期的な効果の理解のための大量広告 (23章) ▪ リコメンド機能を無効にしてその評価を行う ▪ 薬物毒性の実験 ◦ 欺瞞的実験との違い ▪ 欺瞞的実験は人権が尊重されない可能性 45
  27. データ収集・文化とプロセス • データの収集..オンラインのサービス規約が記載される場合が多い ◦ ユーザーが収集方法について理解があるか?(プライバシーデザイン) ▪ どのようなデータが収集されたか /目的はなんでどのような用途か? etc ◦

    データ収集によって起こる悪い事態 (社会的地位や経済的な害 ) ◦ プライバシーと機密性の期待(サッカー観戦だと低い /研究だと高い) ▪ サイドバー(p130)個人の特定..特定されたデータや匿名データなどの扱い • 文化とプロセス..企業内での文化の確立 リーダーの育成 ◦ プロダクトレビューやエンジニアリングレビュー ◦ 機関審査委員会(日本だと内部監査?)のプロセス ◦ データの安全性の確保(外部流出がないか) 46
  28. 各手法の紹介 • ログデータの分析..ログデータとユーザーの市場への調査と組み合わせる ◦ 直感を養う.. ユーザーあたりのセッション数や CTR ◦ 潜在的なメトリクスを特徴づける ◦

    A/Bテストのためのアイディアをデータから探索する CV率 ◦ 観察的因果研究(11章記載) • 人手による評価手法 ◦ 評価者と呼ばれる人がお金を払ってタスクを完了(レコメンドシステムでは一般的) ◦ 「A/Bどちらが好きか?」「これはポルノか?」「この画像にラベルをふってください」 etc ◦ 評価者が一般的なユーザーではない ◦ デバックにも役立つ なぜアルゴリズムが有用だったか?にも役立つ 49
  29. 各手法の紹介 • ユーザー体験の調査研究..数人のユーザーを対象としたラボ実験 ◦ アイトラッキングなどのデータ収集 ◦ 日記研究 ユーザーが自分の行動を長期間に渡り自己記録 • フォーカスグループ..募集したユーザーや潜在的なユーザーとのガイド付きグループディスカッション

    • サーベイ..母集団の募集から始める ◦ 設計や分析には想像以上に注意が必要 ▪ 質問は誤解されたり 意図せずに特定の回答をさせたり 扱いづらい回答の可能性 ▪ 回答は自己申告 ▪ 母集団の偏りや真のユーザーではない可能性(応答バイアス) ◦ 直接的に測定できない問題の時間の経過のトレンドの観察に有効 50
  30. 各手法の紹介 • サーベイ..母集団の募集から始める ◦ 設計や分析には想像以上に注意が必要 ▪ 質問は誤解されたり 意図せずに特定の回答をさせたり 扱いづらい回答の可能性 ▪

    回答は自己申告 ▪ 母集団の偏りや真のユーザーではない可能性(応答バイアス) ◦ しかし直接的に測定できない問題の時間の経過のトレンドの観察に有効 • 外部データ..ユーザー報告の満足度と大規模に計測できる持続時間に有用 (ある研究例) ◦ オンラインの全ての行動に有用 ◦ ログベースのデータに結合可能 ◦ アンケート会社にはカスタムサーベイの依頼可能 ◦ クラウドソーシングで検証し UIデザインのパターンになる 51
  31. まとめ • 目的に依存する.. 特定のユーザー体験特定 /メトリクス検証 etc ◦ メトリクスの収集が見当がつかない ..調査研究やフォーカスグループが有用 ◦

    サイト上のデータ収集が困難 ..アンケート調査 ◦ メトリクスの妥当性評価 ..外部データや観察データ • 各手法にはサンプル数の種類が重要..どのデータが得られるか? ◦ ログの場合だとユーザー行動の理由が得られない (ユーザー体験調査だと◎ ) ◦ プロダクトが初期の段階だとテスト項目を減らす上で定性調査が有効 • 複数の方法を活用し三角測量を行いロバストな結果の確立 ◦ 例えばユーザーがパーソナライズされた製品のレコメンドの調査 ▪ 満足度の定義をしユーザー体験調査でユーザーの観察 ▪ レコメンドの利用調査をし , そのFBで行動シグナルの確認 ▪ 大規模な観察分析からユーザー観察の結果を検証 ▪ アンケートを実施し, 気に入ったかどうかを質問 52
  32. コントロール実験ができない場合に • 反実仮想での実験効果が知りたい ◦ iPhoneからサムスン製への乗り換えでのユーザーの行動変化 ▪ ユーザーの選択の制御が難しく報酬を払うと偏りが出る ◦ 5年後に新車を買うために webページに戻るか?の検証

    ▪ 時間がかかりすぎる ◦ googleやBingの広告を表示しない場合の効果測定 /M&Aの効果測定 ▪ 悪影響が発生する/事象が1回で反実仮想が困難 • 観察的因果実験..観察研究から因果関係を推定 54
  33. 落とし穴 • 交絡因子..認識されていない共通の原因 ◦ 手のひらが小さいほど長生きする ▪ しかし手のひらと性別が関係が強い(大きい方が男性) ▪ 女性の方が長生き ◦

    Microsoft OFFICE365の製品は多くのエラーを表示しているユーザーは解約率が低い ▪ 機能が解約率を減らしているのか?ヘビーユーザーの解約率が低く多くの機能を使っている かはわからない • 偽りや欺瞞的な相関関係.. ◦ エナジードリンクを飲むことで運動能力が向上(?) • 反証された観察的因果関係研究 ◦ コントロール実験よりも誇大に効果が主張 56 書より
  34. 第IV部Ⅴ部[発展的内容]の章立て 第IV部 【発展的内容】実験のプラットフォームの開発 第12章 クライアントサイドの実験 第13章 計測装置 第14章 ランダム化単位の選択 第15章 実験対象の拡大 ~スピードと品質とリスクのトレードオフ~ 第16章 実験の分析のスケール 第V部 【発展的内容】実験の分析のより深い理解に向けて 第17章 コントロール実験を支える統計学

    第18章 分散の推定と分析感度の向上 ~その落とし穴と解決方法~ 第19章 A/Aテスト 第20章 分析感度を向上させるトリガー 第21章 サンプル比率のミスマッチと信用性に関連するガードレールメトリクス 第22章 実験群の間での情報のリークと干渉 第23章 介入効果の長期影響の測定 58
  35. レビューした人 出身..北海道 小樽市 経歴.. 2020.3 北海道大学大学院 農学院 修士修了 ❏ 計量政治学との出会いから大学院で理転

    ❏ 修論はVR画像による湿地景観アーカイブ化 2020.4 ~ Weathernews.Inc ❏ Sports Analytics(2年)/気候変動のデータ開発(1年) 趣味.. 一人旅 食べ歩き スポーツ観戦 分析(当たらない) ※誤字, 脱字, その他内容に不備があれば左ソーシャルメディアないし下記メールに お問い合わせください。 takumu19940611(あっとまーく)gmail.com wakama1994 Wakamatsu Takumu 59