Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Randomized Controlled Trial

Randomized Controlled Trial

科学的検証に基づくビジネスの意思決定

Takumi Kato

September 13, 2022
Tweet

More Decks by Takumi Kato

Other Decks in Marketing & SEO

Transcript

  1. 科学的検証に基づくビジネスの意思決定 明治⼤学 商学部 加藤拓⺒ Marketing #07

  2. 位置付け 顧客管理と効果測定 戦略と実⾏ 価値づくりの考え⽅ 調査による客観的な状況把握 #01 マーケティング #02 ブランドマネジメント #04

    市場調査 #07 科学的検証 #08 感性⼯学 #05 消費者⾏動 #03 ロイヤルティとCRM #10 クチコミ #09 戦略と組織能⼒ 仮説⽴案 具現化 検証 #06 知覚品質
  3. 2. 意思決定に必要な材料は因果関係 アジェンダ 4. 実験ができない場合の調査観察研究 1. 決められない⽇本の会議 3. 実験が可能な場合のランダム化⽐較試験 5.

    まとめ
  4. 2. 意思決定に必要な材料は因果関係 アジェンダ 4. 実験ができない場合の調査観察研究 1. 決められない⽇本の会議 3. 実験が可能な場合のランダム化⽐較試験 5.

    まとめ
  5. 「強い⼯場・弱い本社」症候群1 1: 藤本隆宏. (2004). ⽇本のもの造り哲学. ⽇本経済新聞社 ⽇本のメーカーは,依然として現場のオペレーション能⼒は⾼い。 にもかかわらず,収益⼒で劣るのは,「戦略的な弱さ」が要因。 • ⼯場は安定の源泉,本社は⼤きな成⻑の源泉

    - ⽇本︓強い⼯場・弱い本社 → 安定的な利益 - 北⽶︓弱い⼯場・強い本社 → 短期間に⼤きな収益・損失 • オペレーションの強い組織は極端に下がることは少ないが, その上に戦略があれば,確実に強くなる
  6. 「会議の準備」という膨⼤な作業 1: Mankins, M. (2014). Yes, You Can Make Meetings

    More Productive. Harvard Business Review, https://hbr.org/2014/06/yes-you-can-make-meetings-more-productive. 2:パーソル総合研究所. (2018).無駄な社内会議による企業の損失額を算出従業員1万⼈規模で年間15億円,1500⼈規模で年間2億円の損失. https://rc.persol- group.co.jp/news/201809060935.html 3: Mankins, M. C. (2004). Stop wasting valuable time. Harvard Business Review, 82(9), 58-67. • 1万⼈規模の企業では,無駄な会議時間は300⼈以上の年間業務量に達する1-2 • 経営会議の65%以上は,意思決定ではなく,単なる情報交換等に使われる3 意思決定の根拠が曖昧なまま,決裁者によって求めるものが異なるため, 会議の準備・会議⾃体に膨⼤なムダが発⽣
  7. 無意識に⼊り込むノイズとバイアス ⼈間の意思決定は,無意識にあまりに多くの影響を受けるため, 科学的根拠に基づいていなければ,無駄が発⽣して当然 (過去の経験,話題のニュース,報告部⾨・報告者,気分,空腹具合,天気,椅⼦の固さ...) 1: Kahneman, D., Rosenfield, A. M.,

    Gandhi, L., Blaser, T. (2016). Noise: How to overcome the high, hidden cost of inconsistent decision making. Harvard business review, 94(10), 38-46. ノイズが少ない バイアスが少ない 成功確率の⾼い 意思決定 バイアスが⼤きく いつも偏った意⾒ ノイズが⼤きく コロコロ変わる 意思決定におけるノイズとバイアス1
  8. 意思決定にはびこるバイアスの例 Soyer, E., Hogarth, R. M. (2015). Fooled by experience.

    Harvard Business Review, 93(5), 72-77. 結果 バイアス 利⽤可能性 バイアス 確証 バイアス • プロセスより結果重視 • 偶然の成功を過信 • 1回の失敗で価値ある戦略を破棄 • ⾃分が思いつく範囲の情報に頼る • ⾝近な情報を過⼤評価 • ⼿元のデータの偏りに気づかない • 意向に沿わない情報を無意識に排除 • ⾃説を⽀持する情報を収集 • 質が低い過去の経験の記憶を過信
  9. Googleの絶え間なき研究 • 社員の質を妥協しないため16-25回⾯接していたがコストが⼤きかった • そこで,⾯接者を1⼈増やすごとに採⽤の意思決定に与える影響を検証 • その結果5⼈⽬以降の⾯接者が意思決定に与える影響は乏しいと判明し, 「4回の法則」を定め,採⽤時間を最⼤180⽇から47⽇に短縮 ⼤湾秀雄. (2017).

    ⽇本の⼈事を科学する: 因果推論に基づくデータ活⽤. ⽇本経済新聞出版社. Google
  10. Googleの絶え間なき研究 明確な⽬的のもと,仮説⽴案・科学的検証を繰り返すことで,意思決定の質が向上 中間 管理職 業績評価+部下による評価における良い管理職と悪い管理職では, 部下の⽣産性と定着度に⼤きな差があることを明らかにした. 良い管理職は「マイクロマネージしない」等の特徴を⽰し,管理職研修に活⽤. 年⾦積⽴ 年⾦積⽴プラン(401k)の加⼊を従業員に促す際,ランダム化⽐較試験 によって,リマインダー数・提案⾦額による反応率の変化を明らかにした.

    ⼈材採⽤ ⼤学の成績証明書をすべての求職者に要求していたが,卒業2-3年後では 仕事の成績に影響を与えないことが判明し,中途採⽤では提出不要とした. ⼤湾秀雄. (2017). ⽇本の⼈事を科学する: 因果推論に基づくデータ活⽤. ⽇本経済新聞出版社.
  11. 科学的検証をしない企業たち

  12. テレビ広告の効果測定 • ターゲットの消費者が視聴しやすいテレビ番組に広告を出稿 • そもそも買いやすい⼈が広告を⾒ているため,⾒ていない⼈との⽐較は, 純粋な広告の効果にならない 誤った効果検証 もともと買いにくい⼈ もともと買いやすい⼈ ↑

    テレビ広告 購買確率の⽐較
  13. 効果のなかったebayのWeb広告 • eBayの経済学者がアメリカ1/3地域で検索連動型広告を1ヶ⽉間の停⽌を提⾔ • 理由は,従来の評価⽅法では効果が⽴証されていたが,⾮科学的であるため • 従来評価が正しければ⼤きな損失を被るが,専⾨家の指⽰に応じて検証 • その結果,検索連動型広告と売上は無関係なことが明らかになった •

    eBayの顧客はITリテラシーが⾼く,広告がなくともWebサイトから来訪可能 Blake, T., Nosko, C., & Tadelis, S. (2015). Consumer heterogeneity and paid search effectiveness: A large-scale field experiment. Econometrica, 83(1), 155-174.
  14. 意思決定の基本はPDCA

  15. 意思決定へのアプローチ 感覚的・場当たり的な意思決定と検証しない⽂化では,PDCAを回せない あるべき意思決定 ありがちな意思決定 Plan Do Check Action 根拠に基づく戦略 戦略

    具現化 予測と実績の乖離 に対する原因分析 具体的 改善 Plan Do Check Action 感覚的・場当たり的な戦略 戦略なき 全⽅位的 実⾏ 科学的検証をせず 失敗を活かせない 単なる 次期計画 • 在宅勤務の検証はしたか︖ • 多様性導⼊の検証はしたか︖ • 採⽤基準の検証はしたか︖ 例
  16. 2. 意思決定に必要な材料は因果関係 アジェンダ 4. 実験ができない場合の調査観察研究 1. 決められない⽇本の会議 3. 実験が可能な場合のランダム化⽐較試験 5.

    まとめ
  17. 成功事例をマネすればいいのではないか︖

  18. 成功企業の事例に潜む罠 失敗事例を無視し,成功事例から導いた結論は,真実とは⾔い難い. 思考を停⽌し,成功企業の事例を集めて,思い込むことが恐ろしい.1 • 成功事例は,失敗事例を無視しており,因果関係を表していない可能性 (例︓成功した経営者は,全員が⽔を飲んだことがある) • 成功ほど⼈間は検証しなため,成功事例が因果関係を表しているのかは不明 (例︓AI導⼊で販売が増加したとされた商品は,テレビ広告を増やしただけ) 1:

    Denrell, J. (2005). Selection bias and the perils of benchmarking. Harvard Business Review, 83(4), 114-9.
  19. 選択バイアスを回避した統計学者の意思決定 Denrell, J. (2005). Selection bias and the perils of

    benchmarking. Harvard Business Review, 83(4), 114-9. 第⼆次世界⼤戦中の⽶軍の意思決定 • 帰還した戦闘機は⾚い点が集中被弾しており,その補強をしようとしていた • しかし,統計学者のワルドは,被弾していない部分を強化すべきと提⾔ • なぜなら,被弾しても帰還できたということは,そこは致命的な部位ではない Image from: Wikipedia 成功事例を集めても因果関係の特定は難しく,そこから仮説を⽴てて検証すべき
  20. 成功事例から導かれた優秀企業の集落 Smith, G. (2014). Standard deviations: Flawed assumptions, tortured data,

    and other ways to lie with statistics. Abrams. • エクセレント・カンパニー出版の15年後には,優良企業は43社中5社のみ • 成功企業の統計分析から導かれた結論は,いつも凋落の⼀途を辿る • 成功企業の特徴を探せば何かしら共通点は⾒つかるが,因果効果ではない Tom Peters (1982) エクセレント・カンパニー Jim Collins (1994) ビジョナリー・カンパニー
  21. 表層の事例ではなく深層の⽂化 市場状況・他社動向・組織能⼒がまったく同じ状況でなければ,同じ成功は再現しない ⾒えやすい成功事例 成功を⽣む 意思決定・組織能⼒・⽂化

  22. • なによりも根本的な思想に重きを置く • Toyotaの実例を横展開しても,上⼿くいかないことを⼗分に理解 • 実際に教える具体的内容は,製品の特徴・企業の内情・現在の実⼒ によって柔軟に変える 1: 藤本隆宏. (2004).

    ⽇本のもの造り哲学. ⽇本経済新聞社. Toyota式カイゼンは「⽅法」ではなく「思想」 書籍等で得た具体内容をマネしただけで満⾜している組織に, 思想を植え付けると,短期間で⽣産性が何倍にも⾼まる カイゼンを外部に伝える場合1
  23. Toyotaの本当の強み Toyotaのコアは,カンバン⽅式でも,JITでも,TQCでも, ハイブリッドでも,⼈⼯知能でも,資本⼒でもない。 それは,「進化能⼒」である。 したがって,もしカンバン⽅式より有効な⽅法があれば, すぐにカンバン⽅式を捨てられるのがToyotaである。 藤本隆宏. (2004). ⽇本のもの造り哲学. ⽇本経済新聞社.

  24. 意思決定に必要な材料 意思決定に必要な材料は,因果関係である 原因 結果 問題 ⽣産性の向上 プロジェクトチームの 多様性 閉塞的な思考による 商品企画の停滞

    (例) ※解決したい問題なきまま,多様性を時代の”義務”と捉えていては効果は⼩さい
  25. 問題の発⾒ 仮説⽴案 検証 意思決定⽀援 • 感染症の原因は負傷ではなく,不衛⽣な環境にあると推察 • ベッド間隔の拡張,換気,シーツの洗浄が効果的と仮説を⽴案 • 繰り返しの検証から,対策の効果を定量的に算出

    • 数字嫌いなヴィクトリア⼥王にグラフでわかりやすく説明 ナイチンゲールの科学的な意思決定⽀援 野戦病院における感染症の発症率低減1 1: 新井紀⼦. (2018). AI vs. 教科書が読めない⼦どもたち. 東洋経済新報社.
  26. ビッグデータの相関に溺れる

  27. ビッグデータは競合他社も持っている よくある例 他社も有するビッグデータから相関を⼤量に抽出 結果 … (擬似)相関する 多数の変数 原因 結果 あるべき姿

    解決されていない問題を考え,明らかにされていない因果効果を検証 仮説
  28. 膨⼤な変数を使⽤して分析した場合,疑似相関を新たな発⾒と誤認する危険 擬似相関 ⼩学⽣は⾜のサイズを⼤きくすれば計算能⼒が向上する︖ 計算能⼒ 年齢 ⾜の サイズ 相関 相関 疑似相関

  29. この商品・サービスのコンセプトは何なのか︖どんな問題を解決してくれるのか︖ AI ウェルネス SDGs サステナブル ロボティクス DX コネクテッド シェアリング パーソナライズ

    世界初 オープン イノベーション コトづくり デザイン シンキング ⾃動運転 VR/AR メタバース 電動化 6G 相関に溺れた結末
  30. 1. そもそも解決したい問題が不明確 2. 問題の原因とその対策(仮説)を考える時間が圧倒的に少ない 3. 設計した調査・検証を実施しない (探索と検証が同じデータ) 4. 再現性を気にせず,1回の検証で結論を導出 5.

    (⽬的ドリブンではなく)⼿元にあるデータドリブン 6. 信頼性の乏しい膨⼤なデータを気にせず使⽤ 7. (分析の前に)やりたいことが決まってる 相関を追い求めやすいプロジェクトの特徴 解決したい問題なきまま,トレンドを追い,ビッグデータを集め,相関を探すべからず
  31. 相関に溺れないために 問題に対する仮説を考える

  32. 狂気的な仮説なきプロジェクト 仮説なきまま偶然成功した場合,再現性のない⽅法が正当化されてしまい,最も恐ろしい あるべきプロジェクトの進め⽅ 仮説なきプロジェクトの進み⽅ • 初めからゴールにいくわけがない • 失敗から学ぶことが重要である • アイディアを検証してみる

    • 直接ゴールに⾏きたい • 絶対に失敗してはいけない • うまくいったように⾒せる Start Goal Start Goal
  33. マーケティングの鉄則 • 仮説なき議論は,ただの雑談 • 仮説なき調査は,⾦持ちの道楽 • 仮説なき分析は,価値のない宝探しゲーム すべては仮説から

  34. 仮説とは 解決したい問題に対する因果関係の仮定 仮説は,建築する前に設けられ,建物が出来上がると取り払われる⾜場である. ⾜場は作業する⼈になくてはならない. ただし,作業する⼈は⾜場を建物だと思ってはならない. ゲーテ 原因 x 結果 y

    仮説
  35. 仮説の要件 1 根拠がある データや経験に基づく論理的な考察ではなく,説明不能な案ではならない. もし⽴証しても,そのメカニズムが不明では,再現性がない. 2 ⾏動を喚起できる その仮説を⽴証することで,具体的な⾏動に繋がらなければ意味がない. もし⽴証しても,観測・⾏動できなければ,対策しようがない. 3

    新規性がある すでに実証されていれば,お⾦と時間をかけて取り組む必要がない. ただし,異なる条件下での検証や,再現性の検証は重要である.
  36. 「先⼈の知」という宝 新たな発想はゼロから⽣まれるのではなく,先⼈の知という礎から⽣まれる standing on the shoulders of Giants 巨⼈の肩の上に⽴つ Isaac

    Newton
  37. 「ブレスト」ではなく「渾⾝のプレゼンのぶつけあい」 解決したい問題が曖昧なまま,事前準備なしの感覚論では仮説は⽣まれない よくあるブレスト • 価値づくりの考え⽅の整合すらできていない寄せ集めメンバー • 所詮その場の思いつきでしかなく,たいしたことは出てこない • “いい感じ”のカスタマージャーニーマップができて⾃⼰満⾜ あるべき会議

    • 同じ⽬的に対して,各⾃が異なるアプローチで真剣に検討 • ⽂献を⼤量に読み込み,調査し,アイディアを練りにねってくる • 顧客の購⼊意向・⽀払意思額・ロイヤルティに寄与する仮説を導出
  38. 価値づくりの仕事 仮説⽴案 検証 • 重要な問題を発⾒したか︖ • どれだけ仮説を考えたか︖ • どれだけ試作したか︖ ・価値を考える

    ・つくる • 科学的に検証しているか︖ • どれだけ検証したか︖ • 消費者の実環境で検証したか︖
  39. 2. 意思決定に必要な材料は因果関係 アジェンダ 4. 実験ができない場合の調査観察研究 1. 決められない⽇本の会議 3. 実験が可能な場合のランダム化⽐較試験 5.

    まとめ
  40. 意味の乏しい⼈気投票 • 競合他社の選択肢がない中で選択しても,井の中の蛙の可能性 • この環境下では好ましくても,実際に購⼊されるかは不明 • (すべての候補が並ぶ)実環境ではありえない状況で得た数字 Q. 次の中でどれが最も好ましいか︖ 案A

    案B 案C 案D 競合 他社
  41. 科学である条件 相関ではなく,因果 (有効性) • 相関と因果は天と地の差であり,因果を推定して効果を主張すること • 因果効果の推定には仮説が必要であり,適切な調査・検証を設計すること 偶然ではなく,再現可能 (再現性) •

    いつ,どこで,だれが検証しても,再現が可能であること • もし主観が必要な場合は,理論に基づいた明確な基準を設定すること 思いつきではなく,先⼈の知の上に⽴つ主張 (新規性) • 先⼈の積み重ねた知⾒に基づいて,新たな知⾒を導出すること • “型があるから型破り,型がなければ型なし”
  42. 最も信頼できる理想的な検証⽅法は「タイムマシン」 新しい処置 従来の処置 未来 現在 ⽐較 Aさん 新しい処置をした 未来のAさん 従来の処置をした

    未来のAさん
  43. 「データ=科学的」では断じてなく,信頼性の⾼い検証⽅法を重視すべき 科学的根拠としての信頼性 メタ分析 ランダム化⽐較試験 (RCT) 調査観察研究 回帰分析 信頼性 低 ⾼

    複数のランダム化⽐較試験 の結果を統合して結論を導出 最も信頼性が⾼い 因果効果の検証⽅法 実験ができない場合に 擬似的に無作為割付する⽅法 簡単にできるが,未知の交絡因⼦の 影響除外は困難
  44. 因果効果を推定する2つのアプローチ ランダムに割り当てた実験が可能か否かによって,2つのアプローチに分けられる 因果効果 の推定 実験検証 調査観察検証 • 処置を施す処置群と施さない統制群を⽐較 • 最重要ポイントは,2群の無作為割当

    • 例︓ランダム化⽐較試験 (RCT) • 理論的・倫理的に, 処置の無作為割当が 困難な場合に観察データから因果推定 • 例︓傾向スコア 実験ができる場合 実験ができない場合
  45. “因果効果の検証にRCT以外の⼿法を⽤いては,有害な結論を招く” 新しい処置 従来の処置 ⽐較 ランダムに振り分けた 同質な2群 • 購⼊意向 • ⽀払意思額

    ランダム化⽐較試験 (Randomized Controlled Trial, RCT)
  46. ⾮常に厳しい (=価値づくりに意味がある)評価⽅法のため,簡単に結果は出ない ランダム化⽐較試験は厳しい評価⽅法 過剰な評価 (⼀対⽐較, 全選択肢提⽰) A B C D

    1位︓B 2位︓A 3位︓C 4位︓D ランダム化 ⽐較試験 A B C D 差異なし (購⼊⾏動に影響の あるものだけを評価) 何の 意味︖
  47. 消費者の実環境に合わせたRCT 消費者の普段の購⼊⾏動環境に合わせないと,実際の結果と乖離が⽣じてしまう 調査対象者 処置群 ⾃社商品 +処置あり 競合商品1 競合商品K … 統制群

    ⾃社商品 +処置なし 競合商品1 競合商品K …
  48. 2008年アメリカ⼤統領戦 オバマ陣営のRCT ⽀援者からの資⾦集めに向けて,メーリングリスト登録率が⾼まる Webデザインを画像6案・ボタン4案を対象としたRCTで評価 • 「画像A+”SIGN UP”」が最も効果的だと選挙チームは想定 (統制群に設定) • RCTの結果,「画像B+”LEARN

    MORE”」が最も効果的と判明 A B C Image from reference 1 1: Siroker, D. How Obama Raised $60 Million by Running a Simple Experiment. https://blog.optimizely.com/2010/11/29/how-obama-raised-60- million-by-running-a-simple-experiment/
  49. 処置効果を歪める交絡 ビッグデータには⼈間の直感ではわからない交絡変数にまみれている 興味のある処置変数以外の変数に偏りがあるために, 処置効果の推定にバイアスがかかることを交絡と呼ぶ ⾼⾎圧 (処置) ⾼収⼊ (結果) 年齢 (交絡変数)

    交絡変数︓処置と結果の両⽅に影響する変数
  50. ランダム化しないと⽣じる交絡変数 観察で⼿に⼊れたデータは,交絡変数の影響を受けており,因果効果は不明 例︓1⽇平均10時間のゲームは寿命を縮めるか︖ 観察データの場合,10時間ゲームをしている⼈は, - 働いておらず,所得が低い可能性 - 運動が不⾜している可能性 - 不健康な⾷事ばかりしている可能性

    - すでに病気を患っている可能性 といった交絡要因が多数影響することが想定される.
  51. 14試合中12試合の勝敗を予測したタコのパウル (2008年) 国旗のデザインという交絡変数が影響しないよう,国旗という変数を除外すべき • タコは,鮮やかな⾊と横⻑の形状を識別しやすい • 14試合中ドイツ11回,スペイン2回,セルビア1回と全て横3本線の国旗を選択 • そして,当時はドイツが⾮常に強いチームであった Smith,

    G. (2014). Standard deviations: Flawed assumptions, tortured data, and other ways to lie with statistics. Abrams.
  52. もっての外である前後⽐較 あまりに多くのバイアスを受ける単純な(1群の)前後⽐較は,占いの世界と同じ 平均への 回帰 施策前が偶然低いスコアだった場合,施策後は何もしなくともスコアが向上 経時的な 変化 多様な時系列効果と施策の真の効果を分けて抽出することは困難 異なる 対象者

    施策前後でまったく性質が異なる消費者で⽐較している可能性 施策前後の⽐較をすべきでない理由
  53. RCTに基づいた意思決定の実践 1: Iyer, B., Davenport, T. H. (2008). Reverse engineering

    Google's innovation machine. Harvard Business Review, 86(4), 58-68. 2:伊藤公⼀朗. (2017). データ分析の⼒ 因果関係に迫る思考法 (光⽂社新書). • 意思決定は分析的かつ⺠主的 (≠感覚的・官僚的) • ⽇々何千件という無作為抽出によるRCTを実施 • デザインや広告,⾔葉遣いまで,科学で決定 Google • 経済学の博⼠が分析部隊を率いる • 「UberはRCTに積極的」と⼤学に呼びかけ • ダイナミックプライシングを科学的検証から推定 Uber
  54. ランダム化⽐較試験で検証すべき消費者の知覚 認知 消費者が知らないと何も始まらない 「買いたいほどではない」では価値ではない 「安いなら買う」では価値が低い 「1回で⼗分」では利益率が低い (再購⼊意向・推奨意向) コンセプトが理由で なければ再現性が低い 購⼊意向

    ⽀払意思額 ロイヤルティ コンセプト 想起率
  55. RCTの調査設計のカギ 環境によって⾏動は⼤きく変わるため,物理的・⼼理的環境の設計が肝 ホーソン効果 注⽬を浴びることで,期待に応えようとする⼼理から,⾏動に良い変化が起きる 被験者に「誰が・何の検証を・どうやってしているのか」を意識させない • 普段の環境と異なる要素はないか︖ • 処置の説明をしてしまっていないか︖ •

    普段意識することがない項⽬を無理に聞いていないか︖ ⽣産性向上の検証1 • ⼯場における照明の明るさや,報酬・休憩時間が⽣産性に与える影響を検証 • 従業員は実験対象に選ばれ,注⽬されているという意識から⽣産性が向上した 1: Mayo, E. (1933). The human problems of an industrial civilization. New York, Macmillan. (村本栄⼀訳. (1967). 産業⽂明における⼈間問題 ホーソン実験とその展開.⽇本能率協会)
  56. 意思決定に不可⽋な2つの視点 アートとサイエンスは選ぶものではなく,どちらも不可⽋である 将来の消費者感覚で アイディアを導出 現在の消費者感覚で 科学的根拠を導出 アート サイエンス

  57. ランダム化⽐較試験後の検定

  58. データ形式別の統計検定⽅法 ランダム化⽐較試験で得たデータは,形式に基づいて,適切な検定⽅法を選択 フリードマン検定 ウェルチのt検定 スチューデントのt検定 対応のあるt検定 分散分析 カイ⼆乗検定 フィッシャー正確確率検定 ブルンナー・ムンツェル検定

    ウィルコクソンの順位和検定 マン-ホイットニーのU検定 フィッシャーの正確確率検定 ウィルコクソンの符号順位検定 マクネマー検定 クラスカル・ウォリス検定 データ形式 連続 カテゴリー ・2値 正規分布 2群 対応あり 多群 非正規分布 2群 対応なし 対応あり 多群 等分散 等分散を 仮定しない 2群 対応なし セル内件数 が多い セル内件数 が少ない 対応あり 多群 対応のある t検定 分散分析 ブルンナー ・ ムンツェル 検定 ウィルコク ソンの符号 順位検定 フリードマ ン検定 ウィルコク ソンの順位 和検定 or マン-ホイッ トニーのU 検定 カイ二乗 検定 フィッシャ ーの正確 確率検定 マクネマー 検定 対応なし 等分散 等分散を 仮定しない ウェルチのt 検定 スチューデ ントのt検定 クラスカル ・ウォリス 検定 対応なし 対応あり セル内件数 が多い セル内件数 が少ない カイ二乗 検定 フィッシャ ーの正確 確率検定
  59. 2. 意思決定に必要な材料は因果関係 アジェンダ 4. 実験ができない場合の調査観察研究 1. 決められない⽇本の会議 3. 実験が可能な場合のランダム化⽐較試験 5.

    まとめ
  60. 因果効果を推定する2つのアプローチ 因果効果 の推定 実験検証 調査観察検証 • 処置を施す処置群と施さない統制群を⽐較 • 最重要ポイントは,2群の無作為割当 •

    例︓ランダム化⽐較試験 (RCT) • 理論的・倫理的に, 処置の無作為割当が 困難な場合に観察データから因果推定 • 例︓傾向スコア 実験ができる場合 実験ができない場合
  61. 観察データからそのまま結論を導くべきではない 「仮説の導出」と「仮説の検証」を,同じ調査・データで⾏っては断じてならない • ランダム化していない観察データは⼈間が気付かない交絡変数だらけ で,因果効果を評価することは困難である • 観察データからパターンを導き出し,仮説を導出することは有益だが, 仮説を「証明された理論」と勘違いして意思決定してはいけない • AI×ビッグデータは(擬似)相関まみれの汚い結果であることを認識し,

    専⽤の調査によってランダム化⽐較試験を必ず⾏う
  62. 調査観察研究の代表⼿法︓傾向スコア 特徴(傾向スコア)が類似している⼈をマッチングし,事後的に両群を同質化 ※⼤きさ=傾向スコア この2群で効果を⽐較 効果 観察した集団 マッチングした集団 ⽐較検証 処置群 統制群

    vs
  63. 調査観察研究の代表例 2社の⽔道利⽤者のうち,属性を同質化して,⽔道の影響を因果評価 1894年ロンドンにおけるコレラの発⽣原因の特定 • コレラの原因は,汚染された空気と考えられていた • 「テムズ川に放出された下⽔を飲み⽔に循環していることが原因」と仮説⽴案 • ランダム化⽐較試験の実施は困難なため,調査観察研究の実施を模索 •

    ちょうどその時期に,ロンドンの2⼤⽔道局の1社が,テムズ川以外の地域から ⽔を引く⼯事を実施したため,2社の⽔道利⽤者の差異を検証した • その結果,テムズ川の⽔道利⽤者に有意にコレラが発⽣したことが判明 Smith, G. (2014). Standard deviations: Flawed assumptions, tortured data, and other ways to lie with statistics. Abrams.
  64. 傾向スコアの限界 すべての変数を網羅して,事後的に完全に同質化することは不可能ゆえ, 最終的にはランダム化⽐較試験の結果で判断すべき

  65. 2. 意思決定に必要な材料は因果関係 アジェンダ 4. 実験ができない場合の調査観察研究 1. 決められない⽇本の会議 3. 実験が可能な場合のランダム化⽐較試験 5.

    まとめ
  66. まとめ • ⼈間の意思決定は,あまりに多くのノイズとバイアスの影響を無意識 に受けているため,成功確率を⾼めるには科学的検証が重要である • 失敗事例を無視して,成功事例から導いた結論は真実とは⾔い難く, 異なる状況下でマネしても再現性は乏しい • 競合も有するデータから相関を導出しても,類似商品が溢れるだけ. 解決されていない問題の発⾒と仮説⽴案・検証が差別化の源泉となる

    • 巨⼈の肩に乗って,根拠があり,⾏動を喚起する,新しい仮説を⽴案 • ランダムに割り当てた実験が可能な場合はランダム化,倫理的な問題 等から困難な場合は傾向スコアに代表される調査観察研究を⾏う
  67. END