Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
統計的因果探索に入門してみた
Search
fhiyo
September 23, 2018
Science
560
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
統計的因果探索に入門してみた
9/21 社内勉強会発表資料
fhiyo
September 23, 2018
More Decks by fhiyo
See All by fhiyo
Security_Engineering___Third_Edition_Chapter.20.pdf
fhiyo
0
33
Security_Engineering___Third_Edition_Chapter.21.pdf
fhiyo
0
35
Git再入門
fhiyo
0
160
効果検証入門1章
fhiyo
1
550
言語処理のための機械学習入門 1.1〜1.4
fhiyo
0
96
オプトにおける自然言語生成の応用事例
fhiyo
6
790
【論文紹介】Forecasting at Scale
fhiyo
1
720
【論文紹介】Deep Inside Convolutional Networks Visualising Image Classification Models and Saliency Maps -- Simonyan Vedaldi Zisserman 2013 in ArXiv.pdf
fhiyo
0
1.6k
Other Decks in Science
See All in Science
機械学習 - K近傍法 & 機械学習のお作法
trycycle
PRO
1
1.5k
チュートリアル:世界モデル
hf149
0
1.8k
How we plan to publish 1,000 bio-logging datasets to GBIF and OBIS
peterdesmet
0
110
Cross-Media Technologies, Information Science and Human-Information Interaction
signer
PRO
3
32k
YouTubeにおける撤回論文の参照実態 / metascience-meetup2026
corgies
3
300
データベース09: 実体関連モデル上の一貫性制約
trycycle
PRO
0
1.3k
水耕栽培を始める前に知っておきたい植物の科学
grow_design_lab
0
250
SpatialRDDパッケージによる空間回帰不連続デザイン
saltcooky12
0
250
機械学習 - pandas入門
trycycle
PRO
0
640
JSAI2026企画セッションKS-14 インタビュー集『⼈⼯知能と哲学と四つの問い』が提起する⼈⼯知能のこれからの課題 趣旨説明 / JSAI2026 Special Session: A Collection of Interviews, “Artificial Intelligence, Philosophy, and Four Questions”
ykiyota
0
300
ハミルトン・ヤコビ方程式の解の性質と物理的意味
enakai00
0
700
ダメな自分の育て方―性格タイプの「劣等機能」から理解するニガテ克服術
ppillc
0
180
Featured
See All Featured
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
1.1k
What's in a price? How to price your products and services
michaelherold
247
13k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
The Art of Programming - Codeland 2020
erikaheidi
57
14k
For a Future-Friendly Web
brad_frost
183
10k
Side Projects
sachag
455
43k
Context Engineering - Making Every Token Count
addyosmani
9
980
Believing is Seeing
oripsolob
1
150
AI Search: Where Are We & What Can We Do About It?
aleyda
0
7.6k
Jamie Indigo - Trashchat’s Guide to Black Boxes: Technical SEO Tactics for LLMs
techseoconnect
PRO
0
200
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
Embracing the Ebb and Flow
colly
88
5.1k
Transcript
統計的因果探索に入門してみた @fhiyo
自己紹介 @fhiyo データサイエンスエンジニア 大学:生物・物理→大学院:情報系 Python / Shell Script (Bash) /
C++ / Java / Haskell 広告文の語句分解と解析、CR自動生成 広く浅く、科学なら割となんでも好き (にわか) 2
元ネタ 今回、統計的因果探索という教科書を読 んで浅く理解した内容をここに載せていま す ここの言ってることがおかしい!という部分 があれば指摘してください https://www.amazon.co.jp/dp/B0756TM3KM
因果関係とは - 原因と結果の関係 - 何かを変化させたとき、他の何かがどう変化するか? - 雨が降ったから (原因)、道路に水たまりができた (結果) -
ビリヤードのキューでボールをはじいたから (原因)、ボールが前に進んだ (結果) - 哲学的な因果論の話には踏み込みません
統計的因果探索とは - 統計的因果推論の技術の一つ。 - 統計的因果推論: 観測データから、ある変数を変化させたときに他の変数がどう変 化するかを調べる学問 - 因果関係が未知のものを対象にしているのが特徴 (古典的な因果推論は因果関
係が既知のものを対象にしている)。 データ行列 推測 x1 x3 x2 x4 x5 x6 x7 因果構造
例題 (自分が勝手に作ったデータです) ある社会実験を行ったところ、「50m走のタイム」と「年収」の間には関係があり、50m走 のタイムが遅い人ほど年収が高い傾向があることが示されました。あるテレビ番組はこ の実験結果を取り上げ、年収を上げたければ体を鍛えるのを止めよう、という意見を世 に出しました。この意見はこの実験結果から結論付けることができるでしょうか? ※ ここでは「体を鍛える」と「50m走のタイムが上が」り、それ以外の影響はないものとし ます
解析結果を見ると確かに相関している 確かにこのグラフを見る と綺麗に直線が引けて るから、50m走のタイム と年収は関係があるみ たいだな、じゃあテレビ で言ってたことは正しい んだ!
解析結果を見ると確かに相関している 確かにこのグラフを見る と綺麗に直線が引けて るから、50m走のタイム と年収は関係があるみ たいだな、じゃあテレビ で言ってたことは正しい んだ! このグラフからだけではTV番組 が言っている結論は言えません
相関関係 (correlation) とは - 2つの変数XとYの間の直線的な関係 (非線形な関係の指標としては使えない) - 統計量: (ピアソンの積率) 相関係数
r (-1 ≤ r ≤ 1) - Xが増える(減る)とき、Yも増える(減る)→正の相関 (r > 0) - Xが増える(減る)とき、Yが減る(増える)→負の相関 (r < 0) - r の絶対値が1に近いほど関係が強い ピアソンの積率相関係数の定義式
相関関係 ≠ 因果関係 X Y X Y X Y X
Y Z XがYの原因になっている YがXの原因になっている XとYが相互に影響する ZというXとYの両者に影響する変数が 存在している (Zを交絡変数という) →擬似相関 相関関係に対して因果関係は 1:Nである 50m走のタイムと年収が相関 しているからといって、 50m走のタイム→年収 の因果関係があると決める のは早計 XとYに相関関係がある場合に考えられる因果関係
異なる因果関係が同じ分布を出力する例 X Y Z X Y Z X Y Z
相関関係に対して因 果関係は1:Nである ※ e_x, e_y, zは 平均0, 分散1の正 規分布とする
実験データを見てみる
実験データを見てみる 年齢は体力にも年収にも 関係ありそう! 「50m走のタイム」と「年収」に加 えて「年齢」も組み込んだ因果の 関係性 (因果グラフ) を考え、そ の構造を推定してみよう
考えられる因果グラフは複数ある X Y Z X Y Z X Y Z
Z: 年齢 X: 50m走のタイム Y: 年収 X Y Z X Y Z X Y Z ある2変数X, Yの因果関係は 1. X→Y 2. Y→X 3. X↔Y 4. X Y と4つ考えられるので、3変数において の因果グラフは で64通りある。 どれが正しい因果関係を示してい る??
考えられる因果グラフは複数ある 今回は問題を簡単にするため、2つの以下の因果モデルのどちらかであるという仮定を 置いてみましょう X Y Z X Y Z Z:
年齢 X: 50m走のタイム Y: 年収 50m走のタイムは年収の原因 年齢は両者と因果関係なし 50m走のタイムと年収は直接 的な因果関係はなく、年齢とい う因子に影響されている vs.
因果グラフを数式で表してみよう X Y Z X Y Z Z: 年齢 X:
50m走のタイム Y: 年収 この2つの因果構造をそれっぽい 数式で表してみる (この数式を構造方程式という) : iがjに与える影響度合い : iに影響するX, Y, Z以外の変数をまとめたもの (誤差変数) (例えば、性別や喫煙の有無は 50m走のタイムに影響しそう ) 参考: x, y, zの全 ての因果関係を 表した関係式
因果グラフを数式で表してみよう X Y Z X Y Z Z: 年齢 X:
50m走のタイム Y: 年収
因果グラフを数式で表してみよう X Y Z X Y Z Z: 年齢 X:
50m走のタイム Y: 年収 z=cに 固定
因果グラフを数式で表してみよう X Y Z X Y Z Z: 年齢 X:
50m走のタイム Y: 年収 z=cに 固定 更に、z=dに したときとの 差分を取る
因果グラフを数式で表してみよう X Y Z X Y Z Z: 年齢 X:
50m走のタイム Y: 年収 z=cに 固定 zをcからdに変化させたとき (zに介入をしたとき) のxとyの平均的な変化の様子を見ればどちらの 因果モデルに従っているかわかりそう!しかも b_xz, b_yzの値も分かりそう! 更に、z=dに したときとの 差分を取る
因果グラフを数式で表してみよう 2つの年齢のグループの間で xとyの平均値の差が0かどうかを有意水準 0.05で検定してみましょう 出力 50m走のタイムと年収はそれぞれ年齢を変化させたとき に変化すると言える。 (多重検定の問題を考えても有意差 あり) 1歳年をとると50m走のタイムは平均で
0.057秒遅くなり、 年収は平均で14.8万増える。
まとめ - 統計的因果推論は、何かを変化させたときに他の何かがどう変化するかの因果関 係を調べる学問 - 相関関係と因果関係は1:Nの関係なので、相関がある→因果関係があると考えて はいけない (こちらのスライドも参考になります : https://www.slideshare.net/sshimizu2006/ss-77876940)