DSOps #4

DSOps  #4. 改善計測のための  因果推論とバイアス 

改善と効果検証  • 大体の施策やプロジェクトは改善を狙って始める  ◦ 改善：狙ったKPIが狙った方向に変化すること  • 施策の影響は効果として測定される  ◦ 効果：施策を導入した場合のKPIの変化  ◦
効果＝改善の定義で語られることもよくある  • 効果をよく検証することで  ◦ 改善を検知する  ◦ 思わぬ変化を経験する  2

よくあるデータサイエンスプロジェクト  3 予測モデルの作成  知識や示唆の発見  ビジネスへの応用  効果検証  データの取得  データ  サイエンティスト 

データサイエンスプロジェクトのループ  4 フィードバック  • プロジェクトの評価が決まる   ◦ やってよかった/悪かった   •
フィードバックから次のプロジェクトが始まることが多い  ◦ うまくいかなかったので改善   ◦ うまくいったのでもっと掘る   ◦ etc…    • フィードバックから経験をえる   ◦ こうやると良い  ◦ あーするとだめ  ◦ etc... 

データサイエンスプロジェクトのループ  5 フィードバック  • プロジェクトの評価が決まる   ◦ やってよかった/悪かった  • フィードバックから次のプロジェクトが始まる
ことが多い  ◦ うまくいかなかったので改善  ◦ うまくいったのでもっと掘る  ◦ etc…    • フィードバックから経験をえる   ◦ こうやると良い  ◦ あーするとだめ  ◦ etc...  → この良し悪しの情報を計測するためのお話し  

今日の流れ  • 効果についての説明  • 因果推論のイメージについて  • 適当な効果をプロジェクト評価で用いる問題  6

効果のはなし  7

世の中は効果で溢れている・・・  • 健康食品  • 教育  • マーケティング  • etc...  8
→ これらの根拠はどこにあるのか？

9 「だってデータがそういってるんだもん」    〜fin〜  多くの人はここで考えが止まってしまう →因果推論・計量経済学はこの先を考えるツールを提供してくれる

Q. データから導かれた効果は常に正しいのか？  10

受講した生徒の年収 : 100人分ある教育方法（介入）の効果について考える  11 • ある教育者が独自の教育方法を考案して塾を作った。 • 彼は長年生徒を教え続け、卒業生の華々しい進路を観測してきた。 •
自身の教育方法の効果を実証することを考え、データを集めた。受講しなかった生徒の年収 : 100人分

年収の平均を比較してみる  12 平均年収平均年収の差＝効果今時のナウでヤングな BigDataで調べてみたら効果ありました！受講した生徒の年収受講しなかった生徒の年収

13 「だってデータがそういってるんだもん」    〜fin〜  多くの人はここで考えが止まってしまう →因果推論・計量経済学はこの先を考えるツールを提供してくれる再掲

追加の情報を加味してみる  14 • 実は授業料は15万円/月だとする →これを受講できる生徒の親とはどのような親だろうか？

どんな親か？  15 裕福な親は受講させる可能性が高い裕福ではない親は受講させる可能性が低い

受講の背後にある親の違い  16 受講した生徒の年収 : 100人分受講しなかった生徒の年収 : 100人分 →受講するか否かが、親の収入を仕分けする状態になっている。

データから導いた効果の実態  17 平均年収平均年収の差＝効果 ??? 効果

データから導いた効果の実態  18 平均年収平均年収の差＝効果 ??? 効果効果 + 親の差仮に本当の効果が0でも、
親の差だけでも効果があるように見える。

Q. データから導かれた効果は常に正しいのか？  A. そんなことはない！  19

何が問題だったのか？  • 「効果」の定義を考えたことがない  • データの操作と効果を関連づけて  考えてない  20

何が問題だったのか？  21 因果推論は「効果」を定義した上で、データ上の操作とその関連を体系立てて整理してくれている。 • 「効果」の定義を考えたことがない  • データの操作と効果を関連づけて  考えてない 

因果推論のイメージ  22

因果推論の大まかなイメージ  1.効果を定義する  2.統計学を使って  データから効果を推定する 

因果推論の大まかなイメージ    1.効果を定義する  2.統計学を使って  データから効果を推定する 

効果の定義  何かしらの施策   （介入）  世界線Aの鍋   世界線Bの鍋   25 鍋 
• 鍋Aと鍋Bの味の差（効果）を知りたい  塩を加えるか否か...  

Donald Rubin@Harvard   ポテンシャル　アウトカムフレームワーク  Potential Outcome Framework  世界線Bの鍋の味
  世界線Aの鍋の味   施策の効果  

効果検証（因果推論）の大まかなイメージ  1.効果を定義する  2.統計学を使って  データから効果を推定する  世界線Bの鍋の味   世界線Aの鍋の味   施策の効果  

統計学とは？  手元にあるデータから、母集団のことを考えるもの    • イメージ: 味噌汁の味見  ◦ 味噌汁の味見をするとき、全部飲むのではなく小皿ですくって確認する  ◦ 手元のデータから母集団の性質を推測することを推定と呼ぶ 
  • 例：平均は期待値の推定  ◦ 期待値（パラメータ）：鍋全体の味  ◦ 平均（推定量）：小皿の味  →統計については後ほど詳細に触れます  28

効果検証（因果推論）の大まかなイメージ  1.効果を定義する  2.統計学を使って  データから効果を推定する  世界線Bの鍋の味   世界線Aの鍋の味   施策の効果  
母集団  手元のデータ  サンプリング 

理想的なケース（すでにやった＋次回）  30 →実験で理想的なデータを作って比較する  

実験しない場合の効果検証  31

クーポンの効果を考える  クーポンを付与（介入）  世界線Aのユーザー i さん   ユーザー i さん 
32 世界線Bのユーザー i さん   購入：2000円  購入：3000円  ECサイトであるユーザーにクーポンを配布  

クーポンの効果を考える  33 クーポンを付与（介入）  世界線Bのユーザー   世界線Aのユーザー   購入：3000円  購入：2000円 
効果：1000円 

理想的なデータ  34 • クーポンがある場合とない場合の売上がわかるとする  • 差分を取ればクーポンの効果が1000円であることがわかる  →単純な比較は理想的なデータでは妥当な方法 

因果推論の根本問題  クーポンを付与（介入）  世界線Aのユーザー   ユーザー  同時に観測が  できない  35 世界線Bのユーザー
  購入：2000円  購入：3000円 

実際に得られるデータ  36 • クーポンを渡せば、クーポンありの売り上げが観測される。  • クーポンを渡さなければ、クーポンなしの売り上げが観測される。  • 直接差分を計算することはもう出来ない。 

適当な集計の問題  37 クーポンが配布されなかった   ユーザーの平均売り上げ   クーポンが配布された   ユーザーの平均売り上げ  
１０００円  ３０００円  効果は  ２０００円？  理想的なデータでの結果と異なる

（理想的ではない部分）セレクションバイアス  38 クーポンがなくても  発生する売上  クーポンの効果  １０００円  単純な比較で  効果と思い込む部分   ２０００円 
セレクション   バイアス  クーポンが配布されなかった   ユーザーの平均売り上げ   クーポンが配布された   ユーザーの平均売り上げ  

別の言い方をすると・・・  単純な平均の比較で効果を主張することは、  暗黙的に比較する2つのグループは均質だと仮定している。    39 これに限らず、データ上で何かを計算すると、全て暗黙的に何かを仮定している。

補足：A/Bテストとセレクションバイアス  40 クーポンがなくても  発生する売上  クーポンの効果  １０００円  ランダムに  クーポンを割り振り  • クーポンをランダムに選んだユーザー
に配布  • その結果Y0がZ=1とZ=0のグループにおいて同等になった  

別のバイアスの形  学歴と能力の真の関係性   • 実は関係があるとする   • どの様なバイアスがあれば、   関係が無いという結論を得られそうか？
  41

別のバイアスの形  • 可視化した時に見ているデータはどの色の物だろうか？   • 得ているデータでの関係性は、何かを語るのに足りているだろうか？   • 青のデータで得た予測モデルは全体のデータでの予測がうまくできるだろうか？  
◦ ドメイン適応・共変量シフト   参考：Rでみるセレクションバイアスの例  http://ryotamugiyama.com/2018/06/11/trancated/  42

適当な効果をプロジェクトの  評価で使う問題点  43

別の言い方をすると・・・  単純な平均の比較で効果を主張することは、  暗黙的に比較する2つのグループは均質だと仮定している。    44 これに限らず、データ上で何かを計算すると、全て暗黙的に何かを仮定している。

よく語られるデータサイエンスのフロー  45 プロダクトから自然発生的に生まれたデータを漁る   何かの関係を発見する   何かの意思決定の示唆とする   •
可視化を繰り返して見つけた関係性はどんなバイアスを持っているのか・・・？  

なぜこれで良いのか？  46 何かの意思決定の示唆とする   • 評価にバイアスが乗っている場合には問題ない   • むしろバイアスがないと、バイアスがある施策に比べて効果が低いということになる。  
バイアスのある評価  

バイアスのループ  バイアスのある評価   よりバイアスのある施策   施策の実行  • 評価を最大化するためにループを回す   •
結果よりバイアスの強い施策が正当化される   →何で評価するかでどんなループを回すのかが変わる   施策としての機械学習という存在もある・・・   47

例：クーポン施策  48 単純な比較で  効果と思い込む部分  セレクション   バイアス  クーポンが配布されなかった   ユーザーの平均売り上げ
  クーポンが配布された   ユーザーの平均売り上げ   1. 以下の比較で効果をはかる   ◦ クーポンをもらったユーザー売り上げ   ◦ もらわないユーザーの売り上げ     2. この時効果は以下の２パターンで増える   ◦ バイアスを増やす  ◦ 改善を起こす    3. 売上予測をして予測値が高い人に配る   ◦ 予測値が大きいので、そもそも売り上げが高いユーザーに配る。   ◦ 予測モデルで効果を改善！！！     4. 更なる改善タスクが積まれていく・・・  

バイアスのループと皆さんのキャリア  • バイアスのループで得られる経験値  ◦ バイアスのある評価を改善したという経験値  ◦ 大体がバイアスを強くしたという経験値    • バイアスのないループで得られる経験値 
◦ バイアスのない評価を改善したという経験値    → 5年後に価値があるのは・・・どっち？  49

大事なこと  • プロジェクトを始めるときに必ず効果の検証を考える  • 効果の検証をする際に必ずバイアスの事を考える  • この2ステップで何が正解になるかが決まる  ◦ バイアスのある評価→バイアスを追加するのが正解  ◦
バイアスのない評価→正しい効果をあげることが正解  50

今日の話の機械学習への影響を知りたい人  51

ディスカッション  市場における評価がバイアスのある評価だった時  我々はどうするべきなのか？    この時適切な評価は重要になるのか？  52

DSOps #4

DSOps #4

More Decks by Yusuke Kaneko

Featured

Transcript