A/Bテスト実践ガイド ~真のデータドリブンへ至る信用できる実験とは~

Slide 1

Slide 1 text

A/Bテスト実践ガイド ~真のデータドリブンへ至る信用できる実験とは~ Wakamatsu Takumu wakama1994 ver1.0 2023/5/20 DS協会コンペ部　勉強会

Slide 2

Slide 2 text

はじめに ● 本資料はA/Bテスト実践ガイド(Ron Kohavi et.al 2021 アスキードワンゴ)の書評である ○ このうち基本となるⅠ部〜Ⅲ部（11章まで）をレビューした ○ Ⅳ部〜Ⅴ部については発展的内容のため巻末に章立てを列挙するのみに留める ■ レビューしたくなった場合は version更新を行う ● レビューした本は通称「カバ本」と呼ばれており界隈でも有名な書の1つ ○ 株) メルカリでもカバ本を用いて A/Bテストが行なわれている ■ https://speakerdeck.com/shyaginuma/2022-01-14-pydata-dot-tokyo-merukariniokerua-btesutowakuhuronogai-sh an-korematetokorekara-1 ○ 日本語訳者である大杉直也氏の紹介動画もあるのでそちらを参照されたい ■ https://www.youtube.com/watch?v=NS0wjgMsih4 2

Slide 3

Slide 3 text

資料の構成第Ⅰ部　すべての人向けの導入トピック p4~30 第1章　導入と動機付け第2章　実験の実行と分析〜一連の流れ〜第3章　トワイマンの法則と実験の信用性第4章　実験のプラットホームと文化第Ⅱ部　すべての人を対象とした選択的トピック p31~46 第5章　スピードの重要さを示すケーススタディ第6章　組織を運用するためのメトリクス第7章　実験のためのメトリクスと OEC 第8章　インスティチュートナルメモリとメタアナリシス第9章　コントロール実験の倫理第Ⅲ部　コントロール実験の補完または代替となる手法 p47~56 第10章　オンラインでのコントロール実験の補完方法第11章　観察的因果関係研究最後に p57~59 第Ⅳ部第Ⅴ部の章立てレビューした人の紹介 3

Slide 4

Slide 4 text

第1章　導入と動機付け 4

Slide 5

Slide 5 text

用語解説　〜コントロール群と介入群〜 ● コントロール群... 何もいじってないシステム ● 介入群... コントロール群から一部変更したもの →これをテストしたい 5

Slide 6

Slide 6 text

用語解説　〜その他重要語〜 ● OEC(Overall Evaluation Ciriterition 総合評価 ) ○ 実験の定量的な測定のことをさす（目標）検索エンジンの場合は利用率であり ,それを関連性や広告費用を変化させることで測定（2部7章で詳細を記載） ● パラメーター ○ OECに影響を与える因子や変数 ● 実験群 ○ テストされるユーザーのこと　コントロール群と介入群のことを一般的にさす ● ランダム化単位（Randamaization Unit） ○ 実験単位や実験群へランダムに割り当てることランダム化は重要であり実験計画が核実験群に同じ 6

Slide 7

Slide 7 text

なぜ実験をするのか？ ● 因果関係を高い確率で確立できる最高の科学的手法 ○ エビデンスに基づく医療の実践 (Greenhalagh,1997) ● 微細な経年変化など, 他の技術では検出しにくい微細な変化も検出 ● 予期せぬ変化も検出可能 ○ パフォーマンスの低下 ,クラッシュエラーの増加, 他の機能からのクリック共食い ※下層に従い,広い調査が必要書より 7

Slide 8

Slide 8 text

実験に必要なもの 1. 実験単位（ユーザー）が存在し異なる実験群に対して干渉し合わない状態 2. 十分データセットが存在 ○ 数千が推奨, 実験間の差異が少なくて済む 3. 主要なメトリクスがあり実用的に評価可能 4. 実験対象のコンテンツの変更が容易である 8

Slide 9

Slide 9 text

実験を行う上での原則 1. データに基づいた意思決定をしたいと考えており, OECを公式化する組織 ○ 計画の達成率をを基準として達成させることが容易 2. コントロール実験を実行し, その結果を信頼性をあげるために,インフラストラクチャとテストに投資する意思がある組織 ○ リーンスタートアップに代表されるアジャイル開発が特に有用 3. アイディアの価値評価が苦手であると意識している組織 ○ チーム内で有用とされていたとしても ,大抵の場合リリースすると失敗する 9

Slide 10

Slide 10 text

コントロール実験での興味深い例 1. UIの例..41段階的の青 ○ 小さなデザインの変更が大きな影響を与える例（ Google Microsoft） 2. 適切なタイミングでのオファー 3. パーソナライズされたリコメンド 4. 多くのスピード問題 ○ HTMLを短縮して大幅なパフォーマンス改善 5. マルウェアの削除 ○ ユーザー体験の向上 6. バックエンドのアルゴリズム変更 ○ 「Xを買った人がYを買った＆Xを見た人はYを見た」「Yを見た人がXを見た」この情報から「Xを検索した人がYを変更した」に改良 10

Slide 11

Slide 11 text

戦術, 戦略, 実験との関係性 ● リーン戦略のプロセス..データ駆動型で小さく作って常に改良 ○ シナリオ1: 事業戦略がありユーザーも十分なプロダクトがある場合 ■ 実験がROI（投資利益率）の改善に役立ちプロダクトデザインの試行錯誤に長けている ○ シナリオ2: プロダクトと戦略はあるが , 結果が方針転換の材料になる場合 ■ 実験期間（短期or長期）とテスト数の多さを検討 ■ データを収集し反復することで不確実性を大幅に削除 11

Slide 12

Slide 12 text

第2章　実験の実行と分析〜一連の流れ〜 12

Slide 13

Slide 13 text

実験のセットアップ ● 商品のイーコマースを例にして..クーポンの入力ページの追加で実験 ● 効果..入力ページの追加によって , 収益の増加を知りたい ● 被験者の設定 ○ サイトを訪問した全ユーザ（適切だがノイズが多い） ○ 購入プロセスを完了したユーザー（不適切購入額の影響を知りたいため） ○ 購入プロセスを開始したユーザー（最も最適）書より 13

Slide 14

Slide 14 text

仮説検定 ● ベースライン..標準誤差と平均値の理解によって特徴づけ ● 対象..コントロール群と介入群で帰無仮説を与えペアで差があるかを検出 ● 検証の有効性..統計的な有意差に加え実用上重要かも定義する必要あり ○ 数十億ドルの収益をあげる企業では 0.2%の変更は有用だがスタートアップの場合 10%の回収で2% の変更だと小さすぎる 14

Slide 15

Slide 15 text

実験デザインデータ収集 1. ユーザー単位は何か？..特定or一般的母集団か？(14章で詳細) 2. ターゲットとしたい母集団..１人あたりの収益や購入指標を目標 3. 標本のサイズ.. 実験の安全性や他の実験と共有すべきかも考慮 4. 期間..曜日効果,季節性,プライマシー効果,ノベルティー効果(後述) 1. 全てのユーザーを対象に 2. 購入確認に訪れたユーザーの分析 3. 1%の変化に対して,80%の信頼区間で 4. コントロール:介入:介入 =1:1:1で最小４日間実験　ただし ,曜日効果を実践するため ,１週間の中で実験　プラマシー効果やノベルティー効果を検出した場合はもっと長い期間実施予定具体例 15

Slide 16

Slide 16 text

結果の解釈と意思決定 ● 結果をみる前に..バグチェックをガードレールメトリクス &不変メトリクスで確認 ● 結果から意思決定..結果に再現性があり ● 信頼できるかの確認 ○ 異なるメトリクスでもトレードオフかローンチ前の開発コストとローンチ後の保守運用コストも加味 ● 結果の解釈...統計的有意性と実用性を理解する右図 1. 統計的にも実用性も有用でない 2. 実用性も統計的にも有用 3. 統計的に有用だが実用的ではない 4. 中立的で解釈の幅が広い →追加テストが必要 5. 実用的だが,統計的有意性なし→大きな検出力でテストを実施 6. ⑥統計的に有意で,実用性も高い→ローンチを選択は穏当な決定書より書より 16

Slide 17

Slide 17 text

第3章トワイマンの法則と実験の信用性 ※William Anthony Twyman… イギリスのラジオやテレビの視聴者を測定するベテラン 17

Slide 18

Slide 18 text

検定の誤った解釈 ● 統計的検出力の不足..コントロール群と介入群が統計的有意差がない >介入効果がない ● p値の誤った解釈.. 1. p=0.05の時帰無仮説が真であるのが 5% 2. 有意差がないから2つの群に違いがない 3. p=0.05は帰無仮説の下で数ある思考のうち 5%しか発生しないデータが観測 4. p=0.05は仮説を棄却した場合 ,偽陽性が5%(P<0.05かつ帰無仮説が真の場合のみ有効 ) ● 多重仮説検定.. ○ 複数検定がある場合 ,最も低いp値を選択したことに効果量の推定と推定値に偏りがある (何回も繰り返し実験をするうちに pが小さくなることがある ) 18

Slide 19

Slide 19 text

内的妥当性の脅威..一般化せずに結果が正しいと判断 SUTVA(stabe unit treatment value assumption)違反..実験群同士が互に干渉している状態生存者バイアス..右図参照 Intention to treat..特定のユーザだけ分析すると選択バイアスが発生し介入効果が誇張サンプル比率のミスマッチ..実験間のユーザーの比率が意図どおり近くない場合にサンプル比率にミスマッチがある 19

Slide 20

Slide 20 text

外部妥当性の扱い ● コントロール実験の結果が異なる集団や期間への当てはめが可能 ○ プライマシー効果..ユーザーが古い機能に慣れているので ,採用するのに時間がかかる ○ ノベルティ効果..新機能にユーザーが気づかないか時間と共に効果が薄れてしまうこと ■ 両者の検出には..時間の経過に対する利用状況をプロットしその増減を見ること 20

Slide 21

Slide 21 text

セグメントの違い ● 良いセグメントとは？ 1. 市場または国 2. デバイスVSプラットフォーム 3. 時間帯や曜日 4. ユーザーのタイプ（新規 or既存） 5. ユーザーアカウント(単一アカウントor シェアアカウント) ● セグメントごとのレビュー ○ セグメントごとでレビューを行うと異なる結果になる ○ ヘテロジニアスな介入効果 ...セグメント間で介入効果が一様ではない書より 21

Slide 22

Slide 22 text

シンプソンのパラドックス ● 実験群に割り当てられたパーセンテージが2つ以上の異なる値を取っていて組み合わせた場合介入効果の推定が誤る可能性がある ● 発生しやすい条件 ○ ユーザーがサンプルされている場合（サンプルが一様ではなく webブラウザに偏りがある） ○ コントロール群と介入群が国によって異なる場合 ○ 最も価値ある顧客を優先しその顧客セグメントを安定させた場合（下図）書より 22

Slide 23

Slide 23 text

第4章実験のプラットフォームと文化 23

Slide 24

Slide 24 text

実験成熟モデル ● 成熟段階 1. クロールフェーズ(計測装置と基礎的なデータサイエンス要約統計 ) 2. オークフェーズ（標準的なメトリクスと多くの実験） 3. ランフェーズ（メトリクスのセットの合意 or複数メトリクスでトレードオフ） 4. フライフェーズ(A/Bテストが標準的,機能チームだけで改善可能 ) ○ 各フェーズの判定は ,実験の回数で判定①は 1ヶ月に1回実験,②は週に1回,③は毎日,④は年に 1000回以上 24

Slide 25

Slide 25 text

実験成熟モデル ● リーダシップ ○ ハイレベルなメトリクスをたてガードレール /普遍メトリクスに合意 ○ メトリクスの改善から目標の設定 ○ 失敗することを見越したハイリスクハイリターンなプロジェクト ○ データ集めやROIの値の確立のための学習用実験の実施 ○ アジリティ向上のための短期計測の可能かメトリクス（長期変化のための） 25

Slide 26

Slide 26 text

実験成熟モデル ● プロセス..確実な結果を出すためには教育プロセスと文化的規範の構築が必要 ○ 統計チームとの並走実験回数を増やすことでの自立メトリクスの理解向上 ○ 学習こそ最も重要であるという誠実な文化の例 ■ 実験方法をメール等で発信する ■ ネガティブな影響が介入を困難にする ■ 失敗したアイディアから学び取る 26

Slide 27

Slide 27 text

実験成熟モデル ● 内製品VS 外製品..Googleや Linked inなどでは2018年の成長率 600% ○ ただしウォークフェーズの場合ではこの限りではない ● 外部プラットフォームが必要な機能を提供できるか？ ○ フロントエンドとバックエンドサーバーとクライアント ○ Webサイトの速度 ○ 使用可能性のあるディメンションとメトリクス ○ 外部へのロギングが可能か ○ 追加のデータソースが統合可能か ○ ニアリアルタイム（NRT） ○ 自分達のインスティチュートメモリを活用できるか 27 書より

Slide 28

Slide 28 text

インフラストラクチャーとツール ● 実験プラットフォームの構築は意思決定の信用性を確保する上でも重要 ○ UIとアプリケーション ○ サーバー側とクライアント側の両方での実験群の割り当て ○ 実験の測定装置 ○ 統計検定での定義と実験分析 ● 実験の定義・管理・設定 ○ 実験仕様の下書き編集保存 ○ 反復経過と現在の反復 ○ 実験の履歴や時系列をみる機能 28 書より

Slide 29

Slide 29 text

実験のデプロイメント 1. 実験の定義・割当その他の情報を提供する実験インフラ 2. 実験の割り当てに応じて実験群ごとの動作を実行するプロダクションコー 3. プロダクションコードについて ○ 全てのプロダクションコードに ○ フロー群のどこに割り当てられるか？ 29 書より

Slide 30

Slide 30 text

実験の計測装置 ● ラン〜フライフェーズの場合で検出力が上がるので実施 ● シングルレイヤー法...メリット同時実験が可能 /デメリット各実験で十分な検出力 ● 同時実験法..メリットユーザーの一貫した体験の保証 /デメリット2つの異なる実験からの特定の介入が共存する悪い効果（交互作用） 30 書より

Slide 31

Slide 31 text

第5章スピードを示すケーススタディ 31

Slide 32

Slide 32 text

スピードの重要性 ● スピードに影響を与えるもの ○ 収益, クリック数, 満足度（Amazon） ● 主要な仮説の近似曲線 ○ 右図のように現在のパフォーマンスに近似する形で計測をする ● Webパフォーマンスの設計..レイテンシの測定にはサーバー間を同期させる必要 ○ ページのロード時間はユーザーは T6-T0でありT7-T1を測定できる ○ この2つの差分はユーザ体験と近似できる書より 32

Slide 33

Slide 33 text

スローダウン実験の設計とページ要素の影響 ● スローダウン..どのページに挿入するか？ ○ chunk1(図5.1)は何もないのでレイテンシは困難 ○ chunk2(URL依存のHTML)はクエリの生成に時間がかかるので有効 ○ 実験結果にはばらつきを考慮する必要ある ● ページ要素の影響...ページの違いによって ○ 最初の結果までの時間 ○ Above the fold time(ブラウザの初期表示領域のピクセルの塗りつぶし) ○ スピードインデックス（上記を一般化平均かしたもの） ○ ページフェーズインデックスとユーザー待機時間 ● 極端な結果たち..スピードの重要性を誇張している論文もあった書より 33

Slide 34

Slide 34 text

第6章組織を運用するメトリクス 34

Slide 35

Slide 35 text

メトリクスの分類 ● ゴールメトリクス..組織が最終的に何を反映しているかで重要 ● ドライバーメトリクス..ゴールメトリクスよりも短期的な成果の出るもの ○ HEART(Heart,engagement,adoptation, retention,task sucess)フレーム ● ガードレールメトリクス..ビジネスを守るvs実験の信用性評価 ● アセットメトリクス・エンゲージメトリクス..ユーザーのアクションや総アクセス数 ● ビジネスメトリクス・運用メトリクス.. ユーザ単位の収益 35

Slide 36

Slide 36 text

メトリクスの定式化~評価~進化 ● メトリクスの原則 ○ 単純・安定/ゴール間に整合性がある /操作可能で関連性あり /敏感に反応/ゲームに耐性がある（行動がドライブさせゲーム化しないか ) ○ ユーザー体験を調査して幸福や成功を一般化 ○ ゴールメトリクスやドライバーメトリクスは品質も考慮 ● メトリクスの評価..予測誤差を小さく時間をかけて ○ サーベイやフォーカスグループでユーザー体験調査 (UER)で ○ 観察データの分析(11章), 他社の事例を参考, 顧客のLTVの向上など ● メトリクスの進化..ビジネス/環境/自分の理解の進化 36

Slide 37

Slide 37 text

第7章実験のためのメトリクスとOEC 37

Slide 38

Slide 38 text

ビジネスメトリクスから実験に適するものへ ● 実験に適したメトリクス a. 測定可能 b. 紐付け可能(アプリとの連携) c. 敏感かつ即時的..分析感度を示すものは分散 , 効果の大きさ,ランダム性 ■ 感度の低い例..株価がプロダクトに与える影響 ■ 感度の高い例..外れ値のあるメトリクス , 更新に繋がるサロゲートメトリクス（利用状況） ● 主要なメトリクスの合成でのOEC..それぞれのメトリクスに重みづけ a. 全てのメトリクスに有意差がなく or有意差があり1つのメトリクスに有意差あり＞ローンチ b. 主要なメトリクスが全て有意差なし orネガティブで1つがマイナス>変更しない c. 主要なメトリクスが全て有意差なし＞実験の検出力をあげるか , 方針転換 d. いつくかがポジティブでネガティブな時＞トレードオフモデルで決定 38

Slide 39

Slide 39 text

OECの例 ● Amazonのメール..様々な条件に基づいてターゲティングされた顧客 ○ キャンペーンでの新発売の商品が届く /購入履歴/購入履歴に対するレコメンド ■ レコメンドに基づく顧客のクリックが短期的な収益に最適化されていることに気が付く ■ OECに悪影響の補正をかけたもので作り替える半数以上がマイナスに ■ 配信の停止が損出が甚大である ● Bingの例..クエリシェア（訪問率）と収益 ○ 両者の長期的な目標が一致しない ■ 検索エンジンの収益目標がユーザーが答えを見つけたりタスクを素早く完了する ■ クエリのシェア率とは相反する ○ エンゲージメントのメトリクスに悪影響を与えず収入を増加させたい ..制約最適化の問題 39

Slide 40

Slide 40 text

3つの法則 ● OECの長期的な戦略目的を推進するOEC ○ グットハートの法則..観察された統計的な規則性は調整目的の圧力がかかると崩壊 ○ キャンベルの法則..いかなる定量的な社会指標も社会的な意思決定に使用されればされるほど ,それが腐敗圧力の対象となりそれが監視することを意図して社会プロセスを歪め腐敗する ○ ルーカスの批判..歴史的データで観察された関係は構造的因果関係とは考えられない　 40

Slide 41

Slide 41 text

第8章インスティチューショナルメモリとメタアナリシス 41

Slide 42

Slide 42 text

インスチューショナルメモリとは？ ● 実験の全ての履歴のこと（デジタルジャーナル） ● 重要な理由.. a. 実験文化..目標や成長にどのように影響したか /実験の特定/実験結果の影響の集計 b. 実験のベストプラクティス ..十分な検出力があるか /十分な検出力があれば改善の提案が可能 c. 未来のイノベーション ..過去の失敗の教訓 ■ ex) 実験の探索範囲を狭め ,良いユーザー体験（検索エンジンの結果） d. メトリクス..メトリクスの感度/関連するメトリクス/確率的な定理の利用 e. 実証研究.. EX)Linked Inの実験 ■ 「もしかして知り合い？」アルゴリズムの 700の実験から, 仕事につくコネクションの強さと多様性に因果関係を発見 42

Slide 43

Slide 43 text

第9章コントロール実験の倫理 43

Slide 44

Slide 44 text

背景 ● 何をすべきか？何をすべきでないかを規定する道徳のこと ● 倫理性の必要性を示す問い a. Facebookの研究.. ランダムな参加者がわずかな否定投稿 >１週間後より多くの否定投稿 ■ ソーシャルメディアの伝染を示す b. OKCupid..30%60%90%のマッチ度を判断した顧客のペアを識別 ■ 1/3には20％, 1/3には60%, 1/3には90%のマッチ度を表示 ● ベルモンド報告書..生物医学や行動学的人対象の研究での注意点 a. 人権を尊重 b. 有益性.. 実験者への利益を最大化 c. 正義..リスクと利益の公平な分配 44

Slide 45

Slide 45 text

背景 ● A/Bテストへのリスクへの反論..実験者に気概や不確実性を与える ○ 等質性..2つの介入方法で不確実な状態かどうかみなす ○ 全ユーザーへ適応しても問題ないか？ ■ ピア効果があると仮定したが , 貯蓄が減った例もある ● 利益..研究の利益の理解 ○ 利益の評価が困難な状況に ,ユーザー体験型のもの ■ ユーザー体験を遅くする (5章) ■ 長期的な効果の理解のための大量広告 (23章) ■ リコメンド機能を無効にしてその評価を行う ■ 薬物毒性の実験 ○ 欺瞞的実験との違い ■ 欺瞞的実験は人権が尊重されない可能性 45

Slide 46

Slide 46 text

データ収集・文化とプロセス ● データの収集..オンラインのサービス規約が記載される場合が多い ○ ユーザーが収集方法について理解があるか？（プライバシーデザイン） ■ どのようなデータが収集されたか /目的はなんでどのような用途か？ etc ○ データ収集によって起こる悪い事態 (社会的地位や経済的な害 ) ○ プライバシーと機密性の期待（サッカー観戦だと低い /研究だと高い） ■ サイドバー(p130)個人の特定..特定されたデータや匿名データなどの扱い ● 文化とプロセス..企業内での文化の確立リーダーの育成 ○ プロダクトレビューやエンジニアリングレビュー ○ 機関審査委員会（日本だと内部監査？）のプロセス ○ データの安全性の確保（外部流出がないか） 46

Slide 47

Slide 47 text

第10章オンラインでのコントロール実験の補完方法 47

Slide 48

Slide 48 text

補完的手法の各手法の位置付け 48 書より

Slide 49

Slide 49 text

各手法の紹介 ● ログデータの分析..ログデータとユーザーの市場への調査と組み合わせる ○ 直感を養う.. ユーザーあたりのセッション数や CTR ○ 潜在的なメトリクスを特徴づける ○ A/Bテストのためのアイディアをデータから探索する CV率 ○ 観察的因果研究（11章記載） ● 人手による評価手法 ○ 評価者と呼ばれる人がお金を払ってタスクを完了（レコメンドシステムでは一般的） ○ 「A/Bどちらが好きか？」「これはポルノか？」「この画像にラベルをふってください」 etc ○ 評価者が一般的なユーザーではない ○ デバックにも役立つ　なぜアルゴリズムが有用だったか？にも役立つ 49

Slide 50

Slide 50 text

各手法の紹介 ● ユーザー体験の調査研究..数人のユーザーを対象としたラボ実験 ○ アイトラッキングなどのデータ収集 ○ 日記研究ユーザーが自分の行動を長期間に渡り自己記録 ● フォーカスグループ..募集したユーザーや潜在的なユーザーとのガイド付きグループディスカッション ● サーベイ..母集団の募集から始める ○ 設計や分析には想像以上に注意が必要 ■ 質問は誤解されたり意図せずに特定の回答をさせたり扱いづらい回答の可能性 ■ 回答は自己申告 ■ 母集団の偏りや真のユーザーではない可能性（応答バイアス） ○ 直接的に測定できない問題の時間の経過のトレンドの観察に有効 50

Slide 51

Slide 51 text

各手法の紹介 ● サーベイ..母集団の募集から始める ○ 設計や分析には想像以上に注意が必要 ■ 質問は誤解されたり意図せずに特定の回答をさせたり扱いづらい回答の可能性 ■ 回答は自己申告 ■ 母集団の偏りや真のユーザーではない可能性（応答バイアス） ○ しかし直接的に測定できない問題の時間の経過のトレンドの観察に有効 ● 外部データ..ユーザー報告の満足度と大規模に計測できる持続時間に有用 (ある研究例) ○ オンラインの全ての行動に有用 ○ ログベースのデータに結合可能 ○ アンケート会社にはカスタムサーベイの依頼可能 ○ クラウドソーシングで検証し UIデザインのパターンになる 51

Slide 52

Slide 52 text

まとめ ● 目的に依存する.. 特定のユーザー体験特定 /メトリクス検証 etc ○ メトリクスの収集が見当がつかない ..調査研究やフォーカスグループが有用 ○ サイト上のデータ収集が困難 ..アンケート調査 ○ メトリクスの妥当性評価 ..外部データや観察データ ● 各手法にはサンプル数の種類が重要..どのデータが得られるか？ ○ ログの場合だとユーザー行動の理由が得られない (ユーザー体験調査だと◎ ) ○ プロダクトが初期の段階だとテスト項目を減らす上で定性調査が有効 ● 複数の方法を活用し三角測量を行いロバストな結果の確立 ○ 例えばユーザーがパーソナライズされた製品のレコメンドの調査 ■ 満足度の定義をしユーザー体験調査でユーザーの観察 ■ レコメンドの利用調査をし , そのFBで行動シグナルの確認 ■ 大規模な観察分析からユーザー観察の結果を検証 ■ アンケートを実施し, 気に入ったかどうかを質問 52

Slide 53

Slide 53 text

第11章観察的因果関係研究 53

Slide 54

Slide 54 text

コントロール実験ができない場合に ● 反実仮想での実験効果が知りたい ○ iPhoneからサムスン製への乗り換えでのユーザーの行動変化 ■ ユーザーの選択の制御が難しく報酬を払うと偏りが出る ○ 5年後に新車を買うために webページに戻るか？の検証 ■ 時間がかかりすぎる ○ googleやBingの広告を表示しない場合の効果測定 /M&Aの効果測定 ■ 悪影響が発生する/事象が1回で反実仮想が困難 ● 観察的因果実験..観察研究から因果関係を推定 54

Slide 55

Slide 55 text

実験計画の設定 ● コントロール群と介入群の作成/モデル化（下記一覧）が重要 ○ 分割時系列分析（ベイズ構造時系列） ○ インターリブ実験 ○ 回帰不連続実験(RDD) ○ 操作変数と自然実験 ○ 傾向マッチング ○ 差分の差分法 55 書より: RDDの例

Slide 56

Slide 56 text

落とし穴 ● 交絡因子..認識されていない共通の原因 ○ 手のひらが小さいほど長生きする ■ しかし手のひらと性別が関係が強い（大きい方が男性） ■ 女性の方が長生き ○ Microsoft OFFICE365の製品は多くのエラーを表示しているユーザーは解約率が低い ■ 機能が解約率を減らしているのか？ヘビーユーザーの解約率が低く多くの機能を使っているかはわからない ● 偽りや欺瞞的な相関関係.. ○ エナジードリンクを飲むことで運動能力が向上（？） ● 反証された観察的因果関係研究 ○ コントロール実験よりも誇大に効果が主張 56 書より

Slide 57

Slide 57 text

最後に 57

Slide 58

Slide 58 text

第IV部Ⅴ部[発展的内容]の章立て第IV部　【発展的内容】実験のプラットフォームの開発第12章　クライアントサイドの実験第13章　計測装置第14章　ランダム化単位の選択第15章　実験対象の拡大～スピードと品質とリスクのトレードオフ～第16章　実験の分析のスケール第V部　【発展的内容】実験の分析のより深い理解に向けて第17章　コントロール実験を支える統計学第18章　分散の推定と分析感度の向上～その落とし穴と解決方法～第19章　A/Aテスト第20章　分析感度を向上させるトリガー第21章　サンプル比率のミスマッチと信用性に関連するガードレールメトリクス第22章　実験群の間での情報のリークと干渉第23章　介入効果の長期影響の測定 58

Slide 59

Slide 59 text

レビューした人出身..北海道小樽市経歴.. 2020.3 北海道大学大学院農学院修士修了 ❏ 計量政治学との出会いから大学院で理転 ❏ 修論はVR画像による湿地景観アーカイブ化 2020.4 ~ Weathernews.Inc ❏ Sports Analytics(2年)/気候変動のデータ開発(1年) 趣味.. 一人旅食べ歩きスポーツ観戦分析(当たらない) ※誤字, 脱字, その他内容に不備があれば左ソーシャルメディアないし下記メールにお問い合わせください。 takumu19940611(あっとまーく)gmail.com wakama1994 Wakamatsu Takumu 59