About Me ● Ph.D(宇宙物理学) ● IT業界でデータ分析、機械学習のビジネス活用 ● 因果推論で困っていること ○ サービス施策(e.g. マッチングアルゴリズム改善)の効果測定 ○ マーケティングキャンペーンの施策効果 ○ A/Bテスト基盤の設計 『データサイエンティスト養成読本 ビジネス活用編』(技術評論社) R. Sutton and A. Balto “Reinforcement Learning”(翻訳中)
Chapter 11: Contents 11.1 Data cannot speak for themselves 11.2 Parametric estimators of the conditional mean 11.3 Nonparametric estimators of the conditional mean 11.4 Smoothing 11.5 The bias-variance trade-off Fine Point & Technical Point ○ Fisher consistency. ○ Model dimensionality and the relation between frequentist and Bayesian intervals. ○ A taxonomy of commonly used models.
(Ref.) Estimand, Estimator, Estimate Bret Zeldow and Laura Hatfield, 2019, Difference-in-Differences, https://diff.healthpolicydatascience.org/ (Last access: 2020/07/24) The quantity we care about. (興味のある対象) The algorithm that takes data as input and produces a value of the estimand. (Estimandを求めるために用いられるアルゴリズム・関数) The estimator’s output, given data input. (Estimatorの出力・実現値)
Case3: A is (continuous) variable ● Aは薬の摂取量 [mg/day] ○ 0-100のinteger valueを取る(ので、正確には discreteだが実数の場合でも同様の議論になる) ※ https://github.com/jrfiedler/causal_inference_python_code を参考に一部描画の関数を調整 Fig 11.3 Aのパターンがさらに増えるため、データが 取得できないものが存在する( e.g. A = 90) ⇒ sample averageが計算できなくなる (continuousだった場合はほぼ全ての Aで問題に) “The data cannot speak about themselves”
Chapter 11: Contents 11.1 Data cannot speak for themselves 11.2 Parametric estimators of the conditional mean 11.3 Nonparametric estimators of the conditional mean 11.4 Smoothing 11.5 The bias-variance trade-off Fine Point & Technical Point ○ Fisher consistency. ○ Model dimensionality and the relation between frequentist and Bayesian intervals. ○ A taxonomy of commonly used models.
11.2 Parametric estimators of the conditional mean ● 前節(Fig. 11.3)の問題 ○ A が多くのカテゴリであったり連続である場合、 sample averageが計算できなくなる ⇒ e.g. が評価できなくなる ● 問題に対処するための考え方 ○ A=90 におけるYの平均は、A=80における平均とA=100における平均の間にならないか? ○ (さらに突っ込んで)YはAに対して線形に応答していたりしないか? ■ この仮定が成り立つと、 A=90での効果は他のデータからの内挿で評価できて嬉しい Conditional mean function の形がパラメータ と の線形結合で表せると仮定 (制限)する Linear Mean Model
Parameter estimation through ordinary least squares ● 仮定したLinear Mean Modelに従ってパラメータを推定 ○ ここではOLS(Ordinary Least Squares)を利用 ※ https://github.com/jrfiedler/causal_inference_python_code を参考に一部描画の関数を調整 Fig 11.4
From “parametric” to “nonparametric” ● Parametric Estimatorにより、直接評価できない量を評価することができた ● But this is not free lunch…. ○ A prioriなモデルの制約が正しい時にしか評価は正しくならない ○ “No model misspecification” かどうかに依存 ○ このような理想的な状態が成立することはほとんどなく、 ある程度のmisspecificationは織り込まないといけないだろう ● Parametricではない方法で修正することはできないか? ⇒ Nonparametric Estimator(次節)
Chapter 11: Contents 11.1 Data cannot speak for themselves 11.2 Parametric estimators of the conditional mean 11.3 Nonparametric estimators of the conditional mean 11.4 Smoothing 11.5 The bias-variance trade-off Fine Point & Technical Point ○ Fisher consistency. ○ Model dimensionality and the relation between frequentist and Bayesian intervals. ○ A taxonomy of commonly used models.
Chapter 11: Contents 11.1 Data cannot speak for themselves 11.2 Parametric estimators of the conditional mean 11.3 Nonparametric estimators of the conditional mean 11.4 Smoothing 11.5 The bias-variance trade-off Fine Point & Technical Point ● Fisher consistency. ● Model dimensionality and the relation between frequentist and Bayesian intervals. ● A taxonomy of commonly used models.
Chapter 11: Contents 11.1 Data cannot speak for themselves 11.2 Parametric estimators of the conditional mean 11.3 Nonparametric estimators of the conditional mean 11.4 Smoothing 11.5 The bias-variance trade-off Fine Point & Technical Point ○ Fisher consistency. ○ Model dimensionality and the relation between frequentist and Bayesian intervals. ○ A taxonomy of commonly used models.
Balancing Trade-off ● 結局どうすればいいの? ○ バイアスの許容度、パラメータの解釈性、計算リソースなどをもとに分析者が判断するしかない ○ 機械学習論文でもよく議論されるポイント ● 本書で登場するモデルはcorrectly specifiedであると仮定する ○ 現実的な仮定ではないが、モデルの妥当性以外の話題に集中するため ○ 次節以降では、本節で導入したモデルを用いてどのように因果推論が行われるか考えていく “We are now ready to describe the use of models for causal inference.”
Chapter 11: Contents 11.1 Data cannot speak for themselves 11.2 Parametric estimators of the conditional mean 11.3 Nonparametric estimators of the conditional mean 11.4 Smoothing 11.5 The bias-variance trade-off Fine Point & Technical Point ○ Fisher consistency. ○ Model dimensionality and the relation between frequentist and Bayesian intervals. ○ A taxonomy of commonly used models.
Fine Point 11.2 Model dimensionality and the relation between frequentist and Bayesian intervals. ● モデルの複雑さ(次元)によって挙動は異なる ○ 低次モデルかつサンプルサイズが大きい場合は Confidence IntervalとCredible Intervalは同じ ○ 高次のモデルの場合は両者は異なる ● ベイズでは全ての未知パラメータについて事前分布を仮定する必要がある ○ 低次モデルで大量のデータがある場合は、事前分布( prior)にsensitiveではない ○ 高次モデルでは、事前分布を適切に選んでいないと真値を外しやすくなる
Technical Point 11.1 A taxonomy of commonly used models. ● 本章では、linear conditional mean modelとして以下のような式を使った ● この関係はlink関数 を用いることで、以下のように拡張できる ○ link関数には、logやlogitのような非線形関数を使える(上の式は恒等写像を使った特別な場合) (定数項) (Covariates)
Examples of link function and corresponding equation ● logを使う場合(Yが常に正であることを保証できる) ● logitを使う場合(Yが(0, 1)に含まれることを保証できる) ⇒ ⇒ Link関数にlogitを使った場合はロジスティック回帰( logistic regression)になる
Conditional mean model as semiparametric model ● Conditional mean modelは をパラメトライズするが、 や をパラメータでモデル化している訳ではない ○ その意味で、このモデルは semiparametric model として見ることもできる