Slide 1

Slide 1 text

効果検証を始める前に...! 効果検証、入門の入門 伊藤 寛武, 金子 雄祐

Slide 2

Slide 2 text

伊藤 寛武 •経済学の修士課程を修了後、資産運用会社、コンサル ティング会社、大学研究員を経て、現在サイバーエージェ ントに勤務。 •データサイエンティストとして広告配信プロダクトのグロー スに従事。博士(学術)。 •最近読んだ/読んでいるもの

Slide 3

Slide 3 text

書籍の紹介 Pythonで学ぶ効果検証入門 ● 効果検証についての入門書 ● 実務での応用を念頭に入れて議論を行う

Slide 4

Slide 4 text

書籍の中で前提として skipした疑問 Pythonで学ぶ効果検証入門 ● 効果検証についての入門書 「効果検証ってそもそもなに?」 ● 実務での応用 を念頭に入れて議論を行う 「実務での応用を殊更に取り上げるのは何故?」

Slide 5

Slide 5 text

本日のお品書き ● 内容 ○ 効果検証とはどのような分野か? ○ 技術としての効果検証はどのように発展してきたか? ○ 効果検証実務において直面する課題について ○ 本の宣伝 ● 想定しているターゲット ○ データ分析や効果検証を学びたいと思っている人 ○ 実務における効果検証のありかたに悩んでいる人 伊藤パート 金子パート

Slide 6

Slide 6 text

効果検証とは どのような分野か?

Slide 7

Slide 7 text

ビジネスは施策 /意思決定の連続である ● とある小売業者で、「SMSを用いて販促メッセージを送る」アイディアが実施に移されること になった。 ● その意思決定は果たして正しい意思決定だったのだろうか? 検証と称して、しばしば次のような分析がなされるとする

Slide 8

Slide 8 text

「効果検証」の定義 ● ビジネスとは意思決定/施策の連続であり、その効果検証は頻繁に話題になる。 ● (施策の)効果検証という言葉は次のように分解できる 施策 効果 検証

Slide 9

Slide 9 text

施策?

Slide 10

Slide 10 text

例:販促イベントの実施 ● 新商品の発売に伴って、認知度を高めることを狙っ て販促イベントの実施する ○ デジタルマーケティング ○ サンプリング ...など ● KPI:認知度、初回購入率、顧客満足度

Slide 11

Slide 11 text

例:プロダクトにおける機能追加 ● Webアプリケーションで、ユーザーの離反防止を 狙って新機能を追加する ○ バッジなどゲーミフィケーションの追加 ○ コンテンツ更新通知 ...など ● KPI:離反率、アクティブUU

Slide 12

Slide 12 text

例:機械学習モデルのアップデート ● 予測システムで、精度向上を目指して、機械学習モ デルをアップデートすることに ○ 特徴量の追加 ○ 最新手法の導入 ...など ● KPI:AUC, logloss, MSE

Slide 13

Slide 13 text

効果?

Slide 14

Slide 14 text

施策 効果の例 マーケティング 機能開発 MLモデル 売上の向上 ロイヤルユーザー の定着 精度指標の改善

Slide 15

Slide 15 text

検証?

Slide 16

Slide 16 text

施策 効果 マーケティング 機能開発 MLモデル 売上の向上 ロイヤルユーザー の定着 精度指標の改善 検証 「本当か?」と 調査し 証拠立てる

Slide 17

Slide 17 text

「効果検証」の定義 ● (施策の)効果検証という言葉は次のように分解できる。 施策 効果 検証 何らかの アクション 施策が与えた影 響 調べて、 証拠だてる ● 効果検証という言葉は次のように定義される 効果検証 :あるアクションが与えた影響を調査して証拠立てること

Slide 18

Slide 18 text

プロジェクトの最終工程としての効果検証 ● データ解析フロー(あんちべ『データ解析の実務プロセス入門』、P27) ● CRISP-DMなどのフレームワークも多かれ少なかれ同様のプロセスを提唱している。

Slide 19

Slide 19 text

プロジェクトの成否は効果検証の質に依存する 上手くいっている プロジェクト 質の低い 効果検証 良いプロジェクトを先に進める ことができず 価値に繋がらない 上手くいって いない プロジェクト 質の低い 効果検証 良くないプロジェクトを先に進 めてしまい 価値に繋がらない

Slide 20

Slide 20 text

「質の低い」分析のありかた ● 「ライターを持つ人は肺がんになりやすい」という事実 ○ 「ライターは肺がんを引き起こす!」...?

Slide 21

Slide 21 text

「質の低い」分析のありかた 出典:https://diamond.jp/articles/-/102692 ● 「体力が高い人は学力も高い」という事実 ○ 「体力伸ばすために学力を鍛えましょう」!?

Slide 22

Slide 22 text

「質の低い」分析のありかた ● 66.6%: ○ ニコラスケイジの年間映画出演本数とプールでの溺死者数の相関 (1999〜2009年)

Slide 23

Slide 23 text

チンパンジーテスト ● 『FACTFULNESS』で紹介された3択テスト Question. 15歳未満の子供は、現在世界に約 20億人います。国 連の予測によると、2100年に子供の数は約何人になるでしょう? 選択肢. A.40億人, B.30億人, C.20億人

Slide 24

Slide 24 text

チンパンジーテスト ● 『FACTFULNESS』で紹介された3択テスト ● 3択なので、ランダムに選んでも(≒チンパンジーでも)正解率 は「3分の1」程度になるはず。 ● 結果は、まったくそのようにならない ○ そもそも我々の認知はバイアスまみれ である

Slide 25

Slide 25 text

バイアス ● バイアス ○ 真の施策効果(=知りたい値)と施策効果の推定値(=分析で得られる値)の差のこと ● バイアスが含まれる分析は知りたい値を知ることができないので、あまりよくない

Slide 26

Slide 26 text

どうすればバイアスない分析が可能なのか? 因果推論 ● 何故、上述の分析はだめだったか ○ バイアスが入った分析だったから ● 何故、バイアスが入ってしまうのか? ○ 我々の認知はそもそもバイアスを含む ■ 認知心理学や行動経済学などの議論につながる ○ 相関と因果を取り違えてしまったから など... ● 「相関と因果は違う」 ○ 相関:変数間に見られる関連性 ○ 因果:ある変数が原因となって、別の変数に影響を与 えること ○ (多くの場合)知りたい施策効果は後者のはず

Slide 27

Slide 27 text

因果推論と効果検証

Slide 28

Slide 28 text

因果という概念が指す対象は曖昧 犬 施策 因果 犬という 具体的事物を 指している メール配信という具 体的行為を 指している 何を指しているか いまいち明確ではな い 因果

Slide 29

Slide 29 text

ポテンシャルアウトカムフレームワーク • 因果という概念に対する哲学的な考察が進むの中で広まった定式化(の一つ)。 • 因果関係を「二つの"可能世界"の差」として捉える ⇨ 可能世界を推測することができれば、因果関係をも推測することができる!  (因果推論)

Slide 30

Slide 30 text

因果推論のブーム • 2024年現在、因果推論は比較的高い関心を寄せられる分野の一つになった

Slide 31

Slide 31 text

因果推論のブーム • 2024年現在、因果推論は比較的高い関心を寄せられる分野の一つになった ● 「因果関係」を分析可能にする道具が出揃ってきた ○ (ポテンシャルアウトカムフレームワークなど ) ● IT技術の進展によりデータも蓄積可能になってきた

Slide 32

Slide 32 text

昨今の因果推論ブームのスコープ • 一口に「因果推論」といっても、議論が目指すスコープはそれぞれ異なる 反実仮想 機械学習 効果検証 ITE • 機械学習は予測だけでなく意 思決定を含んだ問題であること を指摘 • 機械学習モデルについての良 い学習方策を分析/提案 • ある施策がもたらした影響に関 心を寄せる • Impact Evaluation/Program Evaluationなどと呼ばれてきた 分野でもある • その影響値を施策効果として 値として推定する • 施策が個々のサンプルに与え る影響値に関心を寄せる • その影響値を予測するような機 械学習モデルを構築する

Slide 33

Slide 33 text

”効果検証”が捉えるスコープはこのうち 1つ 反実仮想 機械学習 効果検証 ITE • 機械学習は予測だけでなく意 思決定を含んだ問題であること を指摘 • 機械学習モデルについての良 い学習方策を分析/提案 • ある施策がもたらした影響に関 心を寄せる • Impact Evaluation/Program Evaluationなどと呼ばれてきた 分野でもある • その影響値を施策効果として 値として推定する • 施策が個々のサンプルに与え る影響値に関心を寄せる • その影響値を予測するような機 械学習モデルを構築する

Slide 34

Slide 34 text

効果検証分野の近年における理論的進展 ● 信頼性革命 credibility revolutions ○ 現象の分析をする際に、実験的状況 に着目し因果関 係の適切な推定を目指す動き ○ 2021年のノーベル経済学賞は、この分野の促進に貢 献した3名に与えられた ● 実験的状況 ○ 「施策を実施するか否か」がランダムに定まっている 状況 ○ もしくはランダムに定まっていると見做せるような状況

Slide 35

Slide 35 text

例:クラスサイズはどのように定まるか? • 単位:各点(+)は小学校の学年を表す • 横軸:その学年における子どもの数 • 縦軸:その学年における学級の人数(クラスサイズ)の平均

Slide 36

Slide 36 text

実験的状況としてのクラスサイズ • 「学年あたり39人子どもがいたので、設置した学級は1つでした」 • 「学年あたり40人子どもがいたので、設置した学級は2つでした」 • この両者にはほぼ差がないのにも関わらず、クラスサイズは大きく異なる (=実験的状況)

Slide 37

Slide 37 text

• 信頼性革命の結果、現代的な効果検証は外生的な変動 に着目をするようになった 外生的な変動:何らかの意味でランダムに発生している変動 • 「どうやって外生的変動という金塊を探すか?」に効果検証の力は注がれるように 「その変動はどの程度外生的ですか?」 膨大なログの中から、金塊 (=外 生性)を頑張って探したり A/Bテストをして、金塊だらけ の綺麗な部屋を作り出したり

Slide 38

Slide 38 text

効果検証分野は現在、爆速で発展中 ● 大きく期待を寄せられているこの分野は、ものすごい勢いで研究蓄積が積み重ねられ ている ○ 気になる人は"Literature on Recent Advances in Applied Micro Methods"などをチェック ● 特にDifference in Differences分野の進展速度がすごい ○ Goodman-Bacon(2021):引用数5699 ○ Callaway & Sant’Anna(2021):引用数4932 ○ Sun & Abraham (2021):引用数3486

Slide 39

Slide 39 text

「乗るしかない、このビッグウェーブに」 …? ● ここまで、効果検証の理論的背景とその近年の状況について紹介してきた ○ どうやら「アツい」らしい ● 一方、応用上の課題や実装面についてはどうなっているのだろうか?