Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
統計的因果探索に入門してみた
Search
fhiyo
September 23, 2018
Science
0
360
統計的因果探索に入門してみた
9/21 社内勉強会発表資料
fhiyo
September 23, 2018
Tweet
Share
More Decks by fhiyo
See All by fhiyo
Git再入門
fhiyo
0
98
効果検証入門1章
fhiyo
1
390
言語処理のための機械学習入門 1.1〜1.4
fhiyo
0
75
オプトにおける自然言語生成の応用事例
fhiyo
6
650
【論文紹介】Forecasting at Scale
fhiyo
1
610
【論文紹介】Deep Inside Convolutional Networks Visualising Image Classification Models and Saliency Maps -- Simonyan Vedaldi Zisserman 2013 in ArXiv.pdf
fhiyo
0
1.4k
Other Decks in Science
See All in Science
創薬における機械学習技術について
kanojikajino
13
4.7k
拡散モデルの概要 −§2. スコアベースモデルについて−
nearme_tech
PRO
0
690
白金鉱業Meetup Vol.15 DMLによる条件付処置効果の推定_sotaroIZUMI_20240919
brainpadpr
2
590
非同期コミュニケーションの構造 -チャットツールを用いた組織における情報の流れの設計について-
koisono
0
170
All-in-One Bioinformatics Platform Realized with Snowflake ~ From In Silico Drug Discovery, Disease Variant Analysis, to Single-Cell RNA-seq
ktatsuya
PRO
0
260
FOGBoston2024
lcolladotor
0
110
Improving Search @scale with efficient query experimentation @BerlinBuzzwords 2024
searchhub
0
250
生成AI による論文執筆サポートの手引き(ワークショップ) / A guide to supporting dissertation writing with generative AI (workshop)
ks91
PRO
0
320
20240420 Global Azure 2024 | Azure Migrate でデータセンターのサーバーを評価&移行してみる
olivia_0707
2
930
The thin line between reconstruction, classification, and hallucination in brain decoding
ykamit
1
1k
Introduction to Graph Neural Networks
joisino
PRO
4
2.1k
2024-06-16-pydata_london
sofievl
0
550
Featured
See All Featured
Navigating Team Friction
lara
183
15k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
132
33k
Raft: Consensus for Rubyists
vanstee
137
6.7k
Why Our Code Smells
bkeepers
PRO
335
57k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
229
52k
Adopting Sorbet at Scale
ufuk
73
9.1k
We Have a Design System, Now What?
morganepeng
51
7.3k
The Cult of Friendly URLs
andyhume
78
6.1k
Code Reviewing Like a Champion
maltzj
520
39k
Automating Front-end Workflow
addyosmani
1366
200k
A Modern Web Designer's Workflow
chriscoyier
693
190k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5.1k
Transcript
統計的因果探索に入門してみた @fhiyo
自己紹介 @fhiyo データサイエンスエンジニア 大学:生物・物理→大学院:情報系 Python / Shell Script (Bash) /
C++ / Java / Haskell 広告文の語句分解と解析、CR自動生成 広く浅く、科学なら割となんでも好き (にわか) 2
元ネタ 今回、統計的因果探索という教科書を読 んで浅く理解した内容をここに載せていま す ここの言ってることがおかしい!という部分 があれば指摘してください https://www.amazon.co.jp/dp/B0756TM3KM
因果関係とは - 原因と結果の関係 - 何かを変化させたとき、他の何かがどう変化するか? - 雨が降ったから (原因)、道路に水たまりができた (結果) -
ビリヤードのキューでボールをはじいたから (原因)、ボールが前に進んだ (結果) - 哲学的な因果論の話には踏み込みません
統計的因果探索とは - 統計的因果推論の技術の一つ。 - 統計的因果推論: 観測データから、ある変数を変化させたときに他の変数がどう変 化するかを調べる学問 - 因果関係が未知のものを対象にしているのが特徴 (古典的な因果推論は因果関
係が既知のものを対象にしている)。 データ行列 推測 x1 x3 x2 x4 x5 x6 x7 因果構造
例題 (自分が勝手に作ったデータです) ある社会実験を行ったところ、「50m走のタイム」と「年収」の間には関係があり、50m走 のタイムが遅い人ほど年収が高い傾向があることが示されました。あるテレビ番組はこ の実験結果を取り上げ、年収を上げたければ体を鍛えるのを止めよう、という意見を世 に出しました。この意見はこの実験結果から結論付けることができるでしょうか? ※ ここでは「体を鍛える」と「50m走のタイムが上が」り、それ以外の影響はないものとし ます
解析結果を見ると確かに相関している 確かにこのグラフを見る と綺麗に直線が引けて るから、50m走のタイム と年収は関係があるみ たいだな、じゃあテレビ で言ってたことは正しい んだ!
解析結果を見ると確かに相関している 確かにこのグラフを見る と綺麗に直線が引けて るから、50m走のタイム と年収は関係があるみ たいだな、じゃあテレビ で言ってたことは正しい んだ! このグラフからだけではTV番組 が言っている結論は言えません
相関関係 (correlation) とは - 2つの変数XとYの間の直線的な関係 (非線形な関係の指標としては使えない) - 統計量: (ピアソンの積率) 相関係数
r (-1 ≤ r ≤ 1) - Xが増える(減る)とき、Yも増える(減る)→正の相関 (r > 0) - Xが増える(減る)とき、Yが減る(増える)→負の相関 (r < 0) - r の絶対値が1に近いほど関係が強い ピアソンの積率相関係数の定義式
相関関係 ≠ 因果関係 X Y X Y X Y X
Y Z XがYの原因になっている YがXの原因になっている XとYが相互に影響する ZというXとYの両者に影響する変数が 存在している (Zを交絡変数という) →擬似相関 相関関係に対して因果関係は 1:Nである 50m走のタイムと年収が相関 しているからといって、 50m走のタイム→年収 の因果関係があると決める のは早計 XとYに相関関係がある場合に考えられる因果関係
異なる因果関係が同じ分布を出力する例 X Y Z X Y Z X Y Z
相関関係に対して因 果関係は1:Nである ※ e_x, e_y, zは 平均0, 分散1の正 規分布とする
実験データを見てみる
実験データを見てみる 年齢は体力にも年収にも 関係ありそう! 「50m走のタイム」と「年収」に加 えて「年齢」も組み込んだ因果の 関係性 (因果グラフ) を考え、そ の構造を推定してみよう
考えられる因果グラフは複数ある X Y Z X Y Z X Y Z
Z: 年齢 X: 50m走のタイム Y: 年収 X Y Z X Y Z X Y Z ある2変数X, Yの因果関係は 1. X→Y 2. Y→X 3. X↔Y 4. X Y と4つ考えられるので、3変数において の因果グラフは で64通りある。 どれが正しい因果関係を示してい る??
考えられる因果グラフは複数ある 今回は問題を簡単にするため、2つの以下の因果モデルのどちらかであるという仮定を 置いてみましょう X Y Z X Y Z Z:
年齢 X: 50m走のタイム Y: 年収 50m走のタイムは年収の原因 年齢は両者と因果関係なし 50m走のタイムと年収は直接 的な因果関係はなく、年齢とい う因子に影響されている vs.
因果グラフを数式で表してみよう X Y Z X Y Z Z: 年齢 X:
50m走のタイム Y: 年収 この2つの因果構造をそれっぽい 数式で表してみる (この数式を構造方程式という) : iがjに与える影響度合い : iに影響するX, Y, Z以外の変数をまとめたもの (誤差変数) (例えば、性別や喫煙の有無は 50m走のタイムに影響しそう ) 参考: x, y, zの全 ての因果関係を 表した関係式
因果グラフを数式で表してみよう X Y Z X Y Z Z: 年齢 X:
50m走のタイム Y: 年収
因果グラフを数式で表してみよう X Y Z X Y Z Z: 年齢 X:
50m走のタイム Y: 年収 z=cに 固定
因果グラフを数式で表してみよう X Y Z X Y Z Z: 年齢 X:
50m走のタイム Y: 年収 z=cに 固定 更に、z=dに したときとの 差分を取る
因果グラフを数式で表してみよう X Y Z X Y Z Z: 年齢 X:
50m走のタイム Y: 年収 z=cに 固定 zをcからdに変化させたとき (zに介入をしたとき) のxとyの平均的な変化の様子を見ればどちらの 因果モデルに従っているかわかりそう!しかも b_xz, b_yzの値も分かりそう! 更に、z=dに したときとの 差分を取る
因果グラフを数式で表してみよう 2つの年齢のグループの間で xとyの平均値の差が0かどうかを有意水準 0.05で検定してみましょう 出力 50m走のタイムと年収はそれぞれ年齢を変化させたとき に変化すると言える。 (多重検定の問題を考えても有意差 あり) 1歳年をとると50m走のタイムは平均で
0.057秒遅くなり、 年収は平均で14.8万増える。
まとめ - 統計的因果推論は、何かを変化させたときに他の何かがどう変化するかの因果関 係を調べる学問 - 相関関係と因果関係は1:Nの関係なので、相関がある→因果関係があると考えて はいけない (こちらのスライドも参考になります : https://www.slideshare.net/sshimizu2006/ss-77876940)