Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
統計的因果探索に入門してみた
Search
fhiyo
September 23, 2018
Science
0
470
統計的因果探索に入門してみた
9/21 社内勉強会発表資料
fhiyo
September 23, 2018
Tweet
Share
More Decks by fhiyo
See All by fhiyo
Security_Engineering___Third_Edition_Chapter.20.pdf
fhiyo
0
5
Security_Engineering___Third_Edition_Chapter.21.pdf
fhiyo
0
7
Git再入門
fhiyo
0
130
効果検証入門1章
fhiyo
1
460
言語処理のための機械学習入門 1.1〜1.4
fhiyo
0
88
オプトにおける自然言語生成の応用事例
fhiyo
6
730
【論文紹介】Forecasting at Scale
fhiyo
1
660
【論文紹介】Deep Inside Convolutional Networks Visualising Image Classification Models and Saliency Maps -- Simonyan Vedaldi Zisserman 2013 in ArXiv.pdf
fhiyo
0
1.5k
Other Decks in Science
See All in Science
データベース05: SQL(2/3) 結合質問
trycycle
PRO
0
790
NASの容量不足のお悩み解決!災害対策も兼ねた「Wasabi Cloud NAS」はここがスゴイ
climbteam
0
110
データマイニング - ウェブとグラフ
trycycle
PRO
0
160
[Paper Introduction] From Bytes to Ideas:Language Modeling with Autoregressive U-Nets
haruumiomoto
0
120
データベース11: 正規化(1/2) - 望ましくない関係スキーマ
trycycle
PRO
0
930
実力評価性能を考慮した弓道高校生全国大会の大会制度設計の提案 / (konakalab presentation at MSS 2025.03)
konakalab
2
190
機械学習 - pandas入門
trycycle
PRO
0
300
地質研究者が苦労しながら運用する情報公開システムの実例
naito2000
0
250
Masseyのレーティングを用いたフォーミュラレースドライバーの実績評価手法の開発 / Development of a Performance Evaluation Method for Formula Race Drivers Using Massey Ratings
konakalab
0
180
Quelles valorisations des logiciels vers le monde socio-économique dans un contexte de Science Ouverte ?
bluehats
1
470
統計的因果探索: 背景知識とデータにより因果仮説を探索する
sshimizu2006
4
990
07_浮世満理子_アイディア高等学院学院長_一般社団法人全国心理業連合会代表理事_紹介資料.pdf
sip3ristex
0
580
Featured
See All Featured
Building a Modern Day E-commerce SEO Strategy
aleyda
43
7.5k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.5k
Writing Fast Ruby
sferik
628
62k
Java REST API Framework Comparison - PWX 2021
mraible
33
8.8k
How to train your dragon (web standard)
notwaldorf
96
6.2k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
Bash Introduction
62gerente
614
210k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3k
A Tale of Four Properties
chriscoyier
160
23k
StorybookのUI Testing Handbookを読んだ
zakiyama
30
6k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
358
30k
Transcript
統計的因果探索に入門してみた @fhiyo
自己紹介 @fhiyo データサイエンスエンジニア 大学:生物・物理→大学院:情報系 Python / Shell Script (Bash) /
C++ / Java / Haskell 広告文の語句分解と解析、CR自動生成 広く浅く、科学なら割となんでも好き (にわか) 2
元ネタ 今回、統計的因果探索という教科書を読 んで浅く理解した内容をここに載せていま す ここの言ってることがおかしい!という部分 があれば指摘してください https://www.amazon.co.jp/dp/B0756TM3KM
因果関係とは - 原因と結果の関係 - 何かを変化させたとき、他の何かがどう変化するか? - 雨が降ったから (原因)、道路に水たまりができた (結果) -
ビリヤードのキューでボールをはじいたから (原因)、ボールが前に進んだ (結果) - 哲学的な因果論の話には踏み込みません
統計的因果探索とは - 統計的因果推論の技術の一つ。 - 統計的因果推論: 観測データから、ある変数を変化させたときに他の変数がどう変 化するかを調べる学問 - 因果関係が未知のものを対象にしているのが特徴 (古典的な因果推論は因果関
係が既知のものを対象にしている)。 データ行列 推測 x1 x3 x2 x4 x5 x6 x7 因果構造
例題 (自分が勝手に作ったデータです) ある社会実験を行ったところ、「50m走のタイム」と「年収」の間には関係があり、50m走 のタイムが遅い人ほど年収が高い傾向があることが示されました。あるテレビ番組はこ の実験結果を取り上げ、年収を上げたければ体を鍛えるのを止めよう、という意見を世 に出しました。この意見はこの実験結果から結論付けることができるでしょうか? ※ ここでは「体を鍛える」と「50m走のタイムが上が」り、それ以外の影響はないものとし ます
解析結果を見ると確かに相関している 確かにこのグラフを見る と綺麗に直線が引けて るから、50m走のタイム と年収は関係があるみ たいだな、じゃあテレビ で言ってたことは正しい んだ!
解析結果を見ると確かに相関している 確かにこのグラフを見る と綺麗に直線が引けて るから、50m走のタイム と年収は関係があるみ たいだな、じゃあテレビ で言ってたことは正しい んだ! このグラフからだけではTV番組 が言っている結論は言えません
相関関係 (correlation) とは - 2つの変数XとYの間の直線的な関係 (非線形な関係の指標としては使えない) - 統計量: (ピアソンの積率) 相関係数
r (-1 ≤ r ≤ 1) - Xが増える(減る)とき、Yも増える(減る)→正の相関 (r > 0) - Xが増える(減る)とき、Yが減る(増える)→負の相関 (r < 0) - r の絶対値が1に近いほど関係が強い ピアソンの積率相関係数の定義式
相関関係 ≠ 因果関係 X Y X Y X Y X
Y Z XがYの原因になっている YがXの原因になっている XとYが相互に影響する ZというXとYの両者に影響する変数が 存在している (Zを交絡変数という) →擬似相関 相関関係に対して因果関係は 1:Nである 50m走のタイムと年収が相関 しているからといって、 50m走のタイム→年収 の因果関係があると決める のは早計 XとYに相関関係がある場合に考えられる因果関係
異なる因果関係が同じ分布を出力する例 X Y Z X Y Z X Y Z
相関関係に対して因 果関係は1:Nである ※ e_x, e_y, zは 平均0, 分散1の正 規分布とする
実験データを見てみる
実験データを見てみる 年齢は体力にも年収にも 関係ありそう! 「50m走のタイム」と「年収」に加 えて「年齢」も組み込んだ因果の 関係性 (因果グラフ) を考え、そ の構造を推定してみよう
考えられる因果グラフは複数ある X Y Z X Y Z X Y Z
Z: 年齢 X: 50m走のタイム Y: 年収 X Y Z X Y Z X Y Z ある2変数X, Yの因果関係は 1. X→Y 2. Y→X 3. X↔Y 4. X Y と4つ考えられるので、3変数において の因果グラフは で64通りある。 どれが正しい因果関係を示してい る??
考えられる因果グラフは複数ある 今回は問題を簡単にするため、2つの以下の因果モデルのどちらかであるという仮定を 置いてみましょう X Y Z X Y Z Z:
年齢 X: 50m走のタイム Y: 年収 50m走のタイムは年収の原因 年齢は両者と因果関係なし 50m走のタイムと年収は直接 的な因果関係はなく、年齢とい う因子に影響されている vs.
因果グラフを数式で表してみよう X Y Z X Y Z Z: 年齢 X:
50m走のタイム Y: 年収 この2つの因果構造をそれっぽい 数式で表してみる (この数式を構造方程式という) : iがjに与える影響度合い : iに影響するX, Y, Z以外の変数をまとめたもの (誤差変数) (例えば、性別や喫煙の有無は 50m走のタイムに影響しそう ) 参考: x, y, zの全 ての因果関係を 表した関係式
因果グラフを数式で表してみよう X Y Z X Y Z Z: 年齢 X:
50m走のタイム Y: 年収
因果グラフを数式で表してみよう X Y Z X Y Z Z: 年齢 X:
50m走のタイム Y: 年収 z=cに 固定
因果グラフを数式で表してみよう X Y Z X Y Z Z: 年齢 X:
50m走のタイム Y: 年収 z=cに 固定 更に、z=dに したときとの 差分を取る
因果グラフを数式で表してみよう X Y Z X Y Z Z: 年齢 X:
50m走のタイム Y: 年収 z=cに 固定 zをcからdに変化させたとき (zに介入をしたとき) のxとyの平均的な変化の様子を見ればどちらの 因果モデルに従っているかわかりそう!しかも b_xz, b_yzの値も分かりそう! 更に、z=dに したときとの 差分を取る
因果グラフを数式で表してみよう 2つの年齢のグループの間で xとyの平均値の差が0かどうかを有意水準 0.05で検定してみましょう 出力 50m走のタイムと年収はそれぞれ年齢を変化させたとき に変化すると言える。 (多重検定の問題を考えても有意差 あり) 1歳年をとると50m走のタイムは平均で
0.057秒遅くなり、 年収は平均で14.8万増える。
まとめ - 統計的因果推論は、何かを変化させたときに他の何かがどう変化するかの因果関 係を調べる学問 - 相関関係と因果関係は1:Nの関係なので、相関がある→因果関係があると考えて はいけない (こちらのスライドも参考になります : https://www.slideshare.net/sshimizu2006/ss-77876940)