Upgrade to Pro — share decks privately, control downloads, hide ads and more …

実験デザインと因果探索のミッシングリンクに関する調査

Asei Sugiyama
October 28, 2020

 実験デザインと因果探索のミッシングリンクに関する調査

実験デザインと分散分析、共分散構造解析 (構造方程式モデリング)、因果探索の間の関係について調査した結果です。参考にした資料にはリンクを張っていますので、DL すると便利です。

共分散構造解析と因果推論の関係について述べた資料には http://www.sigmath.es.osaka-u.ac.jp/~kano/research/application/2006/05tutorialAppStat_sl.pdf もあり、こちらのほうがより詳細に扱っています。

Asei Sugiyama

October 28, 2020
Tweet

More Decks by Asei Sugiyama

Other Decks in Science

Transcript

  1. ⾃⼰紹介 杉⼭ 阿聖 Software Engineer @ Repro AI Labs TensorFlow

    コントリビューター TFX : Issue ⽴てたり PR ⽴てたり docs-l10n : 翻訳 & レビュー 機械学習図鑑 共著
  2. 単純な A/B テスト ユーザーに提⽰する画像の 候補がいくつかあり、どの 画像がもっとも良いか知り たいケース 対照群 (Control) と

    介⼊群 (Treatment) を⽐較 適当なところで実験を打ち 切り、もっとも成績の良い ものを採⽤する Image from Netflix Technology Blog https://netflixtechblog.com/selecting- the-best-artwork-for-videos-through-a-b-testing-f6155c4595f6
  3. 複数要素が変化する A/B テスト タイトル画像と背景画像の2 要素がある A/B テスト この場合でも通常通り Control /

    Treatment でテス トを⾏えば良い ⼀度に複数の要素を変えて テストすると結果がわかり にくくなる Images from https://about.netflix.com/en/news/the-power-of-a-picture
  4. 品質管理への応⽤ (1/2) ⼿順は次の通り i. ⽬的の設定 ii. 因⼦の列挙 (右図) iii. ⽔準の設定

    iv. 実験 v. 結果の確認 & 考察 製造業では環境を制御でき るため因⼦を特定でき相性 が良いと思われる
  5. 因⼦分析の例 (2/2) 分析結果は⼈が意味づけ 因⼦1. のれん 因⼦2. 活性⼒ 因⼦3. ⼤衆性 因⼦4.

    先鋭性 因⼦の数やそれぞれの因⼦ の意味付けには強い仮説が 必要 image from 因⼦分析 | ⽇経リサーチ
  6. 補⾜: 外挿と内挿 内挿: データのある区間につ いて出⼒を推定 外挿: データのない区間につ いて出⼒を推定 外挿の例: Moore

    の法則 外挿のためにモデルへ制約 を加えることがある 右図は単調性を加えた例 image from TensorFlow Lattice (TFL)
  7. マーケティン グへの応⽤例 (2/4) 全 110 問のア ンケート調査 回答者数約 27,000 ⼈

    設問構成は右 のとおり from 2020年度第1回調査詳細資料
  8. 共分散構造解析の限界 結果がモデルに⼤きく依存する モデルが正しいかどうかを確かめる⼿段はな い (All models are wrong - Wikipedia)

    しかし、実は、構造推定にはそれ以前に重⼤ な短所がある。それは、⾃然実験に⽐べる と、内的妥当性に劣る、という点だ。 -- from 実証分析⼊⾨ ⽇本評論社 p.242
  9. 構造解析と因果探索 (1/2) 因果グラフ (DAG) を線形モデルで表現すると、因果効果の推定が実⾏で きる 前提 ⽬的 ⼿法 因果グラフが既知

    因果効果の推定 SEM 因果グラフが既知 因果関係の強さの推定 SEM 因果グラフが部分的に既知 因果効果の推定 因果推論 因果グラフが未知 因果グラフの推定 因果探索
  10. statsmodels OLS で分散分析を実⾏でき る formula = 'S ~ C(E) +

    C(M) + X' lm = ols(formula, salary_table).fit() tutorial は Interactions and ANOVA — statsmodels
  11. semopy # structural part eta3 ~ x1 + x2 eta4

    ~ x3 x3 ~ eta1 + eta2 + x1 + x4 x4 ~ eta4 x5 ~ x4 # measurement part eta1 =~ y1 + y2 + y3 eta2 =~ y3 eta3 =~ y4 + y5 eta4 =~ y4 + y6 # additional covariances eta2 ~~ x2 y5 ~~ y6
  12. 階層ベイズに使えるライブラリの例 PyMC4 PyMC4 で単回帰 (ただしベイズ) @pm.model def model(data): mu =

    yield pm.Normal(loc=0, scale=10, name="mu") sig = yield pm.Exponential(rate=0.1, name="sig") like = yield pm.Normal(loc=mu, scale=sig, observed=data, name="like") return like estimation_model = model(data) trace = pm.sample(model(data), num_samples=800) 最近の事情は近年の PPL の動向 が詳しい
  13. causalnex 統計的因果探索⽤ライブラリ sm = from_pandas(struct_data) sm.remove_edges_below_threshold(0.8) viz = plot_structure( sm,

    graph_attributes={"scale": "0.5"}, all_node_attributes=NODE_STYLE.WEAK, all_edge_attributes=EDGE_STYLE.WEAK) Image(viz.draw(format='png')) LiNGAM に⽐べると後進なものの、 投資は進んでいる模様 from A first CausalNex tutorial — causalnex 0.8.1 documentation
  14. 理論⾯からの考察 分析者に要求される前提が厳しすぎたのでは? 実験デザインは (アカデミアを除いて) 次のように伝播している 製造業: 実験デザイン→タグチメソッド (分散分析) マーケティング: 実験デザイン→アンケート分析

    (SEM) 上記の⼿法はどちらも、データの⽣成過程に理論的な知識が必要 Big Data の時代が到来し「相関だけでいいんだよ」という世論に 機械学習の時代が到来し「因果関係はわからなくてもデータさえあれば 再現できる」という世論に 上記の結果、失伝したのでは?
  15. 実験デザイン ⽣命科学の実験デザイン[第4版]G. D. ラクストン/N. コルグレイヴ 著 名古屋⼤学出版会 2019年 1からのマーケティング分析 -

    恩藏直⼈・冨⽥健司(編著)碩学舎 2011 年 実験計画法-⽅法編- ⼭⽥ 秀著 ⽇科技連出版社 2004年 ⼊⾨ 実験計画法 永⽥ 靖著 ⽇科技連出版社 2000年
  16. 共分散構造解析 (1/2) 共分散構造分析[⼊⾨編] ― 構造⽅程式モデリング― 豊⽥ 秀樹著 朝倉 書店 1998年

    共分散構造分析[応⽤編] ― 構造⽅程式モデリング― 豊⽥ 秀樹著 朝倉 書店 2000年 共分散構造分析[技術編] ― 構造⽅程式モデリング― 豊⽥ 秀樹編著 朝 倉書店 2003年 共分散構造分析[疑問編] ― 構造⽅程式モデリング― 豊⽥ 秀樹編著 朝 倉書店 2003年
  17. 共分散構造解析 (2/2) 共分散構造分析[理論編] ― 構造⽅程式モデリング― 豊⽥ 秀樹著 朝倉 書店 2007年

    新装版 共分散構造分析はじめの⼀歩: 図の意味から学ぶパス解析⼊⾨ ⼩ 塩 真司著 アルテ 2020年 実証分析⼊⾨ 森⽥ 果著 ⽇本評論社 2014年