Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
統計的因果探索に入門してみた
Search
fhiyo
September 23, 2018
Science
0
390
統計的因果探索に入門してみた
9/21 社内勉強会発表資料
fhiyo
September 23, 2018
Tweet
Share
More Decks by fhiyo
See All by fhiyo
Git再入門
fhiyo
0
100
効果検証入門1章
fhiyo
1
410
言語処理のための機械学習入門 1.1〜1.4
fhiyo
0
76
オプトにおける自然言語生成の応用事例
fhiyo
6
670
【論文紹介】Forecasting at Scale
fhiyo
1
620
【論文紹介】Deep Inside Convolutional Networks Visualising Image Classification Models and Saliency Maps -- Simonyan Vedaldi Zisserman 2013 in ArXiv.pdf
fhiyo
0
1.5k
Other Decks in Science
See All in Science
科学で迫る勝敗の法則(名城大学公開講座.2024年10月) / The principle of victory discovered by science (Open lecture in Meijo Univ. 2024)
konakalab
0
270
FOGBoston2024
lcolladotor
0
150
ガウス過程回帰とベイズ最適化
nearme_tech
PRO
1
190
MoveItを使った産業用ロボット向け動作作成方法の紹介 / Introduction to creating motion for industrial robots using MoveIt
ry0_ka
0
320
Machine Learning for Materials (Challenge)
aronwalsh
0
180
山形とさくらんぼに関するレクチャー(YG-900)
07jp27
1
270
Transformers are Universal in Context Learners
gpeyre
0
730
The Incredible Machine: Developer Productivity and the Impact of AI
tomzimmermann
0
560
ICRA2024 速報
rpc
3
6k
02_西村訓弘_プログラムディレクター_人口減少を機にひらく未来社会.pdf
sip3ristex
0
170
学術講演会中央大学学員会いわき支部
tagtag
0
130
生成AI による論文執筆サポートの手引き(ワークショップ) / A guide to supporting dissertation writing with generative AI (workshop)
ks91
PRO
0
400
Featured
See All Featured
Thoughts on Productivity
jonyablonski
69
4.5k
Producing Creativity
orderedlist
PRO
344
40k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.2k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
3.7k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
Fontdeck: Realign not Redesign
paulrobertlloyd
83
5.4k
The Power of CSS Pseudo Elements
geoffreycrofte
75
5.5k
What's in a price? How to price your products and services
michaelherold
244
12k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.3k
Mobile First: as difficult as doing things right
swwweet
223
9.5k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
Transcript
統計的因果探索に入門してみた @fhiyo
自己紹介 @fhiyo データサイエンスエンジニア 大学:生物・物理→大学院:情報系 Python / Shell Script (Bash) /
C++ / Java / Haskell 広告文の語句分解と解析、CR自動生成 広く浅く、科学なら割となんでも好き (にわか) 2
元ネタ 今回、統計的因果探索という教科書を読 んで浅く理解した内容をここに載せていま す ここの言ってることがおかしい!という部分 があれば指摘してください https://www.amazon.co.jp/dp/B0756TM3KM
因果関係とは - 原因と結果の関係 - 何かを変化させたとき、他の何かがどう変化するか? - 雨が降ったから (原因)、道路に水たまりができた (結果) -
ビリヤードのキューでボールをはじいたから (原因)、ボールが前に進んだ (結果) - 哲学的な因果論の話には踏み込みません
統計的因果探索とは - 統計的因果推論の技術の一つ。 - 統計的因果推論: 観測データから、ある変数を変化させたときに他の変数がどう変 化するかを調べる学問 - 因果関係が未知のものを対象にしているのが特徴 (古典的な因果推論は因果関
係が既知のものを対象にしている)。 データ行列 推測 x1 x3 x2 x4 x5 x6 x7 因果構造
例題 (自分が勝手に作ったデータです) ある社会実験を行ったところ、「50m走のタイム」と「年収」の間には関係があり、50m走 のタイムが遅い人ほど年収が高い傾向があることが示されました。あるテレビ番組はこ の実験結果を取り上げ、年収を上げたければ体を鍛えるのを止めよう、という意見を世 に出しました。この意見はこの実験結果から結論付けることができるでしょうか? ※ ここでは「体を鍛える」と「50m走のタイムが上が」り、それ以外の影響はないものとし ます
解析結果を見ると確かに相関している 確かにこのグラフを見る と綺麗に直線が引けて るから、50m走のタイム と年収は関係があるみ たいだな、じゃあテレビ で言ってたことは正しい んだ!
解析結果を見ると確かに相関している 確かにこのグラフを見る と綺麗に直線が引けて るから、50m走のタイム と年収は関係があるみ たいだな、じゃあテレビ で言ってたことは正しい んだ! このグラフからだけではTV番組 が言っている結論は言えません
相関関係 (correlation) とは - 2つの変数XとYの間の直線的な関係 (非線形な関係の指標としては使えない) - 統計量: (ピアソンの積率) 相関係数
r (-1 ≤ r ≤ 1) - Xが増える(減る)とき、Yも増える(減る)→正の相関 (r > 0) - Xが増える(減る)とき、Yが減る(増える)→負の相関 (r < 0) - r の絶対値が1に近いほど関係が強い ピアソンの積率相関係数の定義式
相関関係 ≠ 因果関係 X Y X Y X Y X
Y Z XがYの原因になっている YがXの原因になっている XとYが相互に影響する ZというXとYの両者に影響する変数が 存在している (Zを交絡変数という) →擬似相関 相関関係に対して因果関係は 1:Nである 50m走のタイムと年収が相関 しているからといって、 50m走のタイム→年収 の因果関係があると決める のは早計 XとYに相関関係がある場合に考えられる因果関係
異なる因果関係が同じ分布を出力する例 X Y Z X Y Z X Y Z
相関関係に対して因 果関係は1:Nである ※ e_x, e_y, zは 平均0, 分散1の正 規分布とする
実験データを見てみる
実験データを見てみる 年齢は体力にも年収にも 関係ありそう! 「50m走のタイム」と「年収」に加 えて「年齢」も組み込んだ因果の 関係性 (因果グラフ) を考え、そ の構造を推定してみよう
考えられる因果グラフは複数ある X Y Z X Y Z X Y Z
Z: 年齢 X: 50m走のタイム Y: 年収 X Y Z X Y Z X Y Z ある2変数X, Yの因果関係は 1. X→Y 2. Y→X 3. X↔Y 4. X Y と4つ考えられるので、3変数において の因果グラフは で64通りある。 どれが正しい因果関係を示してい る??
考えられる因果グラフは複数ある 今回は問題を簡単にするため、2つの以下の因果モデルのどちらかであるという仮定を 置いてみましょう X Y Z X Y Z Z:
年齢 X: 50m走のタイム Y: 年収 50m走のタイムは年収の原因 年齢は両者と因果関係なし 50m走のタイムと年収は直接 的な因果関係はなく、年齢とい う因子に影響されている vs.
因果グラフを数式で表してみよう X Y Z X Y Z Z: 年齢 X:
50m走のタイム Y: 年収 この2つの因果構造をそれっぽい 数式で表してみる (この数式を構造方程式という) : iがjに与える影響度合い : iに影響するX, Y, Z以外の変数をまとめたもの (誤差変数) (例えば、性別や喫煙の有無は 50m走のタイムに影響しそう ) 参考: x, y, zの全 ての因果関係を 表した関係式
因果グラフを数式で表してみよう X Y Z X Y Z Z: 年齢 X:
50m走のタイム Y: 年収
因果グラフを数式で表してみよう X Y Z X Y Z Z: 年齢 X:
50m走のタイム Y: 年収 z=cに 固定
因果グラフを数式で表してみよう X Y Z X Y Z Z: 年齢 X:
50m走のタイム Y: 年収 z=cに 固定 更に、z=dに したときとの 差分を取る
因果グラフを数式で表してみよう X Y Z X Y Z Z: 年齢 X:
50m走のタイム Y: 年収 z=cに 固定 zをcからdに変化させたとき (zに介入をしたとき) のxとyの平均的な変化の様子を見ればどちらの 因果モデルに従っているかわかりそう!しかも b_xz, b_yzの値も分かりそう! 更に、z=dに したときとの 差分を取る
因果グラフを数式で表してみよう 2つの年齢のグループの間で xとyの平均値の差が0かどうかを有意水準 0.05で検定してみましょう 出力 50m走のタイムと年収はそれぞれ年齢を変化させたとき に変化すると言える。 (多重検定の問題を考えても有意差 あり) 1歳年をとると50m走のタイムは平均で
0.057秒遅くなり、 年収は平均で14.8万増える。
まとめ - 統計的因果推論は、何かを変化させたときに他の何かがどう変化するかの因果関 係を調べる学問 - 相関関係と因果関係は1:Nの関係なので、相関がある→因果関係があると考えて はいけない (こちらのスライドも参考になります : https://www.slideshare.net/sshimizu2006/ss-77876940)