Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
DSOps #4
Search
Yusuke Kaneko
February 28, 2022
0
30k
DSOps #4
Yusuke Kaneko
February 28, 2022
Tweet
Share
More Decks by Yusuke Kaneko
See All by Yusuke Kaneko
効果検証、入門の入門(後半)
ykaneko1992
3
380
Kdd 2021 読み会(clustering for private interest-based advertising & learning a logistic model from aggregated data)
ykaneko1992
0
20
企業の中の経済学
ykaneko1992
0
28
DSOps #1
ykaneko1992
3
32k
DSOps #2
ykaneko1992
0
27k
DSOps #5-1
ykaneko1992
0
27k
DSOps #5-2
ykaneko1992
0
27k
DSOps #6-1
ykaneko1992
0
26k
DSOps #6-2
ykaneko1992
0
22k
Featured
See All Featured
VelocityConf: Rendering Performance Case Studies
addyosmani
325
24k
Fontdeck: Realign not Redesign
paulrobertlloyd
81
5.2k
Large-scale JavaScript Application Architecture
addyosmani
510
110k
Imperfection Machines: The Place of Print at Facebook
scottboms
264
13k
Keith and Marios Guide to Fast Websites
keithpitt
408
22k
Designing for humans not robots
tammielis
249
25k
How GitHub (no longer) Works
holman
311
140k
Why Our Code Smells
bkeepers
PRO
334
57k
GitHub's CSS Performance
jonrohan
1030
460k
Designing for Performance
lara
604
68k
Side Projects
sachag
452
42k
Fireside Chat
paigeccino
32
3k
Transcript
DSOps #4. 改善計測のための 因果推論とバイアス
改善と効果検証 • 大体の施策やプロジェクトは改善を狙って始める ◦ 改善:狙ったKPIが狙った方向に変化すること • 施策の影響は効果として測定される ◦ 効果:施策を導入した場合のKPIの変化 ◦
効果=改善の定義で語られることもよくある • 効果をよく検証することで ◦ 改善を検知する ◦ 思わぬ変化を経験する 2
よくあるデータサイエンスプロジェクト 3 予測モデルの作成 知識や示唆の発見 ビジネスへの応用 効果検証 データの取得 データ サイエンティスト
データサイエンスプロジェクトのループ 4 フィードバック • プロジェクトの評価が決まる ◦ やってよかった/悪かった •
フィードバックから次のプロジェクトが始まる ことが多い ◦ うまくいかなかったので改善 ◦ うまくいったのでもっと掘る ◦ etc… • フィードバックから経験をえる ◦ こうやると良い ◦ あーするとだめ ◦ etc...
データサイエンスプロジェクトのループ 5 フィードバック • プロジェクトの評価が決まる ◦ やってよかった/悪かった • フィードバックから次のプロジェクトが始まる
ことが多い ◦ うまくいかなかったので改善 ◦ うまくいったのでもっと掘る ◦ etc… • フィードバックから経験をえる ◦ こうやると良い ◦ あーするとだめ ◦ etc... → この良し悪しの情報を計測するためのお話し
今日の流れ • 効果についての説明 • 因果推論のイメージについて • 適当な効果をプロジェクト評価で用いる問題 6
効果のはなし 7
世の中は効果で溢れている・・・ • 健康食品 • 教育 • マーケティング • etc... 8
→ これらの根拠はどこにあるのか?
9 「だってデータがそういってるんだもん」 〜fin〜 多くの人はここで考えが止まってしまう →因果推論・計量経済学はこの先を考えるツールを提供してくれる
Q. データから導かれた効果は常に正しいのか? 10
受講した生徒の年収 : 100人分 ある教育方法(介入)の効果について考える 11 • ある教育者が独自の教育方法を考案して塾を作った。 • 彼は長年生徒を教え続け、卒業生の華々しい進路を観測してきた。 •
自身の教育方法の効果を実証することを考え、データを集めた。 受講しなかった生徒の年収 : 100人分
年収の平均を比較してみる 12 平均年収 平均年収の差=効果 今時のナウでヤングな BigDataで調べてみたら 効果ありました! 受講した生徒の年収 受講しなかった生徒の年収
13 「だってデータがそういってるんだもん」 〜fin〜 多くの人はここで考えが止まってしまう →因果推論・計量経済学はこの先を考えるツールを提供してくれる 再掲
追加の情報を加味してみる 14 • 実は授業料は15万円/月だとする →これを受講できる生徒の親とはどのような親だろうか?
どんな親か? 15 裕福な親は 受講させる可能性が高い 裕福ではない親は 受講させる可能性が低い
受講の背後にある親の違い 16 受講した生徒の年収 : 100人分 受講しなかった生徒の年収 : 100人分 →受講するか否かが、親の収入を仕分けする状態になっている。
データから導いた効果の実態 17 平均年収 平均年収の差=効果 ??? 効果
データから導いた効果の実態 18 平均年収 平均年収の差=効果 ??? 効果 効果 + 親の差 仮に本当の効果が0でも、
親の差だけでも効果があるように見える。
Q. データから導かれた効果は常に正しいのか? A. そんなことはない! 19
何が問題だったのか? • 「効果」の定義を考えたことがない • データの操作と効果を関連づけて 考えてない 20
何が問題だったのか? 21 因果推論は「効果」を定義した上で、 データ上の操作とその関連を体系立てて整理してくれている。 • 「効果」の定義を考えたことがない • データの操作と効果を関連づけて 考えてない
因果推論のイメージ 22
因果推論の大まかなイメージ 1.効果を定義する 2.統計学を使って データから効果を推定する
因果推論の大まかなイメージ 1.効果を定義する 2.統計学を使って データから効果を推定する
効果の定義 何かしらの施策 (介入) 世界線Aの鍋 世界線Bの鍋 25 鍋
• 鍋Aと鍋Bの味の差(効果)を知りたい 塩を加えるか否か...
Donald Rubin@Harvard ポテンシャル アウトカム フレームワーク Potential Outcome Framework 世界線Bの鍋の味
世界線Aの鍋の味 施策の効果
効果検証(因果推論)の大まかなイメージ 1.効果を定義する 2.統計学を使って データから効果を推定する 世界線Bの鍋の味 世界線Aの鍋の味 施策の効果
統計学とは? 手元にあるデータから、母集団のことを考えるもの • イメージ: 味噌汁の味見 ◦ 味噌汁の味見をするとき、全部飲むのではなく小皿ですくって確認する ◦ 手元のデータから母集団の性質を推測することを推定と呼ぶ
• 例:平均は期待値の推定 ◦ 期待値(パラメータ):鍋全体の味 ◦ 平均(推定量):小皿の味 →統計については後ほど詳細に触れます 28
効果検証(因果推論)の大まかなイメージ 1.効果を定義する 2.統計学を使って データから効果を推定する 世界線Bの鍋の味 世界線Aの鍋の味 施策の効果
母集団 手元のデータ サンプリング
理想的なケース(すでにやった+次回) 30 →実験で理想的なデータを作って比較する
実験しない場合の効果検証 31
クーポンの効果を考える クーポンを付与(介 入) 世界線Aのユーザー i さん ユーザー i さん
32 世界線Bのユーザー i さん 購入:2000円 購入:3000円 ECサイトであるユーザーにクーポンを配布
クーポンの効果を考える 33 クーポンを付与(介 入) 世界線Bのユーザー 世界線Aのユーザー 購入:3000円 購入:2000円
効果:1000円
理想的なデータ 34 • クーポンがある場合とない場合の売上がわかるとする • 差分を取ればクーポンの効果が1000円であることがわかる →単純な比較は理想的なデータでは妥当な方法
因果推論の根本問題 クーポンを付与(介 入) 世界線Aのユーザー ユーザー 同時に観測が できない 35 世界線Bのユーザー
購入:2000円 購入:3000円
実際に得られるデータ 36 • クーポンを渡せば、クーポンありの売り上げが観測される。 • クーポンを渡さなければ、クーポンなしの売り上げが観測される。 • 直接差分を計算することはもう出来ない。
適当な集計の問題 37 クーポンが配布されなかった ユーザーの平均売り上げ クーポンが配布された ユーザーの平均売り上げ
1000円 3000円 効果は 2000円? 理想的なデータでの 結果と異なる
(理想的ではない部分)セレクションバイアス 38 クーポンがなくても 発生する売上 クーポンの効果 1000円 単純な比較で 効果と思い込む部分 2000円
セレクション バイアス クーポンが配布されなかった ユーザーの平均売り上げ クーポンが配布された ユーザーの平均売り上げ
別の言い方をすると・・・ 単純な平均の比較で効果を主張することは、 暗黙的に比較する2つのグループは均質だと仮定している。 39 これに限らず、データ上で何かを計算すると、 全て暗黙的に何かを仮定している。
補足:A/Bテストとセレクションバイアス 40 クーポンがなくても 発生する売上 クーポンの効果 1000円 ランダムに クーポンを割り振り • クーポンをランダムに選んだユーザー
に配布 • その結果Y0がZ=1とZ=0のグループに おいて同等になった
別のバイアスの形 学歴と能力の真の関係性 • 実は関係があるとする • どの様なバイアスがあれば、 関係が無いという結論を得られそうか?
41
別のバイアスの形 • 可視化した時に見ているデータはどの色の物だろうか? • 得ているデータでの関係性は、何かを語るのに足りているだろうか? • 青のデータで得た予測モデルは全体のデータでの予測がうまくできるだろうか?
◦ ドメイン適応・共変量シフト 参考:Rでみるセレクションバイアスの例 http://ryotamugiyama.com/2018/06/11/trancated/ 42
適当な効果をプロジェクトの 評価で使う問題点 43
別の言い方をすると・・・ 単純な平均の比較で効果を主張することは、 暗黙的に比較する2つのグループは均質だと仮定している。 44 これに限らず、データ上で何かを計算すると、 全て暗黙的に何かを仮定している。
よく語られるデータサイエンスのフロー 45 プロダクトから自然発生的に生 まれたデータを漁る 何かの関係を発見する 何かの意思決定の示唆とする •
可視化を繰り返して見つけた関係性はどんなバイアスを持っているのか・・・?
なぜこれで良いのか? 46 何かの意思決定の示唆とする • 評価にバイアスが乗っている場合には問題ない • むしろバイアスがないと、バイアスがある施策に比べて効果が低いということになる。
バイアスのある評価
バイアスのループ バイアスのある評価 よりバイアスのある施策 施策の実行 • 評価を最大化するためにループを回す •
結果よりバイアスの強い施策が正当化される →何で評価するかでどんなループを回すのかが変わる 施策としての機械学習という存在もある・・・ 47
例:クーポン施策 48 単純な比較で 効果と思い込む部分 セレクション バイアス クーポンが配布されなかった ユーザーの平均売り上げ
クーポンが配布された ユーザーの平均売り上げ 1. 以下の比較で効果をはかる ◦ クーポンをもらったユーザー売り上げ ◦ もらわないユーザーの売り上げ 2. この時効果は以下の2パターンで増える ◦ バイアスを増やす ◦ 改善を起こす 3. 売上予測をして予測値が高い人に配る ◦ 予測値が大きいので、そもそも売り上げが高 いユーザーに配る。 ◦ 予測モデルで効果を改善!!! 4. 更なる改善タスクが積まれていく・・・
バイアスのループと皆さんのキャリア • バイアスのループで得られる経験値 ◦ バイアスのある評価を改善したという経験値 ◦ 大体がバイアスを強くしたという経験値 • バイアスのないループで得られる経験値
◦ バイアスのない評価を改善したという経験値 → 5年後に価値があるのは・・・どっち? 49
大事なこと • プロジェクトを始めるときに必ず効果の検証を考える • 効果の検証をする際に必ずバイアスの事を考える • この2ステップで何が正解になるかが決まる ◦ バイアスのある評価→バイアスを追加するのが正解 ◦
バイアスのない評価→正しい効果をあげることが正解 50
今日の話の機械学習への影響を知りたい人 51
ディスカッション 市場における評価がバイアスのある評価だった時 我々はどうするべきなのか? この時適切な評価は重要になるのか? 52