Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
統計的因果探索に入門してみた
Search
fhiyo
September 23, 2018
Science
0
290
統計的因果探索に入門してみた
9/21 社内勉強会発表資料
fhiyo
September 23, 2018
Tweet
Share
More Decks by fhiyo
See All by fhiyo
Git再入門
fhiyo
0
72
効果検証入門1章
fhiyo
0
310
言語処理のための機械学習入門 1.1〜1.4
fhiyo
0
67
オプトにおける自然言語生成の応用事例
fhiyo
6
570
【論文紹介】Forecasting at Scale
fhiyo
1
530
【論文紹介】Deep Inside Convolutional Networks Visualising Image Classification Models and Saliency Maps -- Simonyan Vedaldi Zisserman 2013 in ArXiv.pdf
fhiyo
0
1.3k
Other Decks in Science
See All in Science
Machine Learning for Materials (Lecture 6)
aronwalsh
0
420
早わかり W3C Community Group
takanorip
0
270
AI(人工知能)の過去・現在・未来 —AIは人間を超えるのか—
tagtag
0
270
データで課題を解決する -因果関係を調べる統計的因果推論-
sshimizu2006
4
1.3k
AI(人工知能)の過去・現在・未来 —AIは人間を超えるのか—
tagtag
1
190
同じデータでもP値が変わる話/key_considerations_in_NHST
florets1
1
1.1k
Xpenologyなるアングラプロジェクト周りについて語るやつ
sushi514
0
660
WeMeet Group - 採用資料
wemeet
0
140
How we developed a data exchange format: Lessons learned from Camtrap DP
peterdesmet
1
140
(Forkwell Library #48)『詳解 インシデントレスポンス』で学び倒すブルーチーム技術
scientia
2
950
構造活性フォーラム2023-山﨑担当分
yamasakih
0
320
BMI 研究はなぜ同じ失敗を繰り返すのか(日本BMI研究会, 2021.11.5)
ykamit
1
2k
Featured
See All Featured
Side Projects
sachag
451
41k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
323
20k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
20
1.7k
The Power of CSS Pseudo Elements
geoffreycrofte
61
5k
Fontdeck: Realign not Redesign
paulrobertlloyd
76
4.9k
The Straight Up "How To Draw Better" Workshop
denniskardys
228
130k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
501
140k
A Tale of Four Properties
chriscoyier
152
22k
How GitHub Uses GitHub to Build GitHub
holman
468
290k
Writing Fast Ruby
sferik
622
60k
What’s in a name? Adding method to the madness
productmarketing
PRO
17
2.7k
Java REST API Framework Comparison - PWX 2021
mraible
PRO
19
6.9k
Transcript
統計的因果探索に入門してみた @fhiyo
自己紹介 @fhiyo データサイエンスエンジニア 大学:生物・物理→大学院:情報系 Python / Shell Script (Bash) /
C++ / Java / Haskell 広告文の語句分解と解析、CR自動生成 広く浅く、科学なら割となんでも好き (にわか) 2
元ネタ 今回、統計的因果探索という教科書を読 んで浅く理解した内容をここに載せていま す ここの言ってることがおかしい!という部分 があれば指摘してください https://www.amazon.co.jp/dp/B0756TM3KM
因果関係とは - 原因と結果の関係 - 何かを変化させたとき、他の何かがどう変化するか? - 雨が降ったから (原因)、道路に水たまりができた (結果) -
ビリヤードのキューでボールをはじいたから (原因)、ボールが前に進んだ (結果) - 哲学的な因果論の話には踏み込みません
統計的因果探索とは - 統計的因果推論の技術の一つ。 - 統計的因果推論: 観測データから、ある変数を変化させたときに他の変数がどう変 化するかを調べる学問 - 因果関係が未知のものを対象にしているのが特徴 (古典的な因果推論は因果関
係が既知のものを対象にしている)。 データ行列 推測 x1 x3 x2 x4 x5 x6 x7 因果構造
例題 (自分が勝手に作ったデータです) ある社会実験を行ったところ、「50m走のタイム」と「年収」の間には関係があり、50m走 のタイムが遅い人ほど年収が高い傾向があることが示されました。あるテレビ番組はこ の実験結果を取り上げ、年収を上げたければ体を鍛えるのを止めよう、という意見を世 に出しました。この意見はこの実験結果から結論付けることができるでしょうか? ※ ここでは「体を鍛える」と「50m走のタイムが上が」り、それ以外の影響はないものとし ます
解析結果を見ると確かに相関している 確かにこのグラフを見る と綺麗に直線が引けて るから、50m走のタイム と年収は関係があるみ たいだな、じゃあテレビ で言ってたことは正しい んだ!
解析結果を見ると確かに相関している 確かにこのグラフを見る と綺麗に直線が引けて るから、50m走のタイム と年収は関係があるみ たいだな、じゃあテレビ で言ってたことは正しい んだ! このグラフからだけではTV番組 が言っている結論は言えません
相関関係 (correlation) とは - 2つの変数XとYの間の直線的な関係 (非線形な関係の指標としては使えない) - 統計量: (ピアソンの積率) 相関係数
r (-1 ≤ r ≤ 1) - Xが増える(減る)とき、Yも増える(減る)→正の相関 (r > 0) - Xが増える(減る)とき、Yが減る(増える)→負の相関 (r < 0) - r の絶対値が1に近いほど関係が強い ピアソンの積率相関係数の定義式
相関関係 ≠ 因果関係 X Y X Y X Y X
Y Z XがYの原因になっている YがXの原因になっている XとYが相互に影響する ZというXとYの両者に影響する変数が 存在している (Zを交絡変数という) →擬似相関 相関関係に対して因果関係は 1:Nである 50m走のタイムと年収が相関 しているからといって、 50m走のタイム→年収 の因果関係があると決める のは早計 XとYに相関関係がある場合に考えられる因果関係
異なる因果関係が同じ分布を出力する例 X Y Z X Y Z X Y Z
相関関係に対して因 果関係は1:Nである ※ e_x, e_y, zは 平均0, 分散1の正 規分布とする
実験データを見てみる
実験データを見てみる 年齢は体力にも年収にも 関係ありそう! 「50m走のタイム」と「年収」に加 えて「年齢」も組み込んだ因果の 関係性 (因果グラフ) を考え、そ の構造を推定してみよう
考えられる因果グラフは複数ある X Y Z X Y Z X Y Z
Z: 年齢 X: 50m走のタイム Y: 年収 X Y Z X Y Z X Y Z ある2変数X, Yの因果関係は 1. X→Y 2. Y→X 3. X↔Y 4. X Y と4つ考えられるので、3変数において の因果グラフは で64通りある。 どれが正しい因果関係を示してい る??
考えられる因果グラフは複数ある 今回は問題を簡単にするため、2つの以下の因果モデルのどちらかであるという仮定を 置いてみましょう X Y Z X Y Z Z:
年齢 X: 50m走のタイム Y: 年収 50m走のタイムは年収の原因 年齢は両者と因果関係なし 50m走のタイムと年収は直接 的な因果関係はなく、年齢とい う因子に影響されている vs.
因果グラフを数式で表してみよう X Y Z X Y Z Z: 年齢 X:
50m走のタイム Y: 年収 この2つの因果構造をそれっぽい 数式で表してみる (この数式を構造方程式という) : iがjに与える影響度合い : iに影響するX, Y, Z以外の変数をまとめたもの (誤差変数) (例えば、性別や喫煙の有無は 50m走のタイムに影響しそう ) 参考: x, y, zの全 ての因果関係を 表した関係式
因果グラフを数式で表してみよう X Y Z X Y Z Z: 年齢 X:
50m走のタイム Y: 年収
因果グラフを数式で表してみよう X Y Z X Y Z Z: 年齢 X:
50m走のタイム Y: 年収 z=cに 固定
因果グラフを数式で表してみよう X Y Z X Y Z Z: 年齢 X:
50m走のタイム Y: 年収 z=cに 固定 更に、z=dに したときとの 差分を取る
因果グラフを数式で表してみよう X Y Z X Y Z Z: 年齢 X:
50m走のタイム Y: 年収 z=cに 固定 zをcからdに変化させたとき (zに介入をしたとき) のxとyの平均的な変化の様子を見ればどちらの 因果モデルに従っているかわかりそう!しかも b_xz, b_yzの値も分かりそう! 更に、z=dに したときとの 差分を取る
因果グラフを数式で表してみよう 2つの年齢のグループの間で xとyの平均値の差が0かどうかを有意水準 0.05で検定してみましょう 出力 50m走のタイムと年収はそれぞれ年齢を変化させたとき に変化すると言える。 (多重検定の問題を考えても有意差 あり) 1歳年をとると50m走のタイムは平均で
0.057秒遅くなり、 年収は平均で14.8万増える。
まとめ - 統計的因果推論は、何かを変化させたときに他の何かがどう変化するかの因果関 係を調べる学問 - 相関関係と因果関係は1:Nの関係なので、相関がある→因果関係があると考えて はいけない (こちらのスライドも参考になります : https://www.slideshare.net/sshimizu2006/ss-77876940)