et al., 2014) は以下で定義される。 Def: ランダムフォレストに対する Infinitesimal jacknife 推定量 b = 1, 2, ..., B の Tree の推定量を ˆ µ∗ b (x) とし、その平均を ¯ µ∗(x) を ¯ µ∗(x) = 1 B B b=1 ˆ µ∗ b (x) とする。さらに、N∗ bi ∈ {0, 1} を i が b 番目の tree の訓練データとして用い られたかどうかの指示関数とする。このとき、Infinitesimal Jacknife 推 定量は ˆ VIJ(x) = n − 1 n n n − s 2 n i=1 1 B B b=1 (N∗ bi − 1)(µ∗ b (x) − ¯ µ∗(x)) 2 で表される。 この結果から、各点 x における分散の推定量が得られるので、信頼区間を描 くことができる(B ≈ 2000 程度で十分な精度が出ると報告されている) 。 33
1, 2, ..., B によって添え字付けされる B 個の Tree を考え、Lb(x) を x を含む b 番目の Tree の Leaf が含む training example の集合とする。こ のとき、 αi(x) = 1 B B b=1 αbi(x), (4) ただし、 αbi(x) = 1{Xi ∈ Lb(x)} |Lb(x)| (5) • 重み αi(x) は、i 番目の traning example が、x を含む Leaf に何回含まれ たかという頻度を測る指標である。 このことから、θ(x) の推定量の良さは Tree に依存することがわかる。 42
: ˜ Yi = Yi − ˆ m(−i)(Xi) • centered treatments : ˜ Ai = Ai − ˆ π(−i)(Xi) また、スコア関数は ψa(x),τ(x) = (˜ Yi − a(x) − ˜ Aiτ(Xi))(1, ˜ Ai)T . (17) となる。ただし、a(x) は切片項であり、τ(x) は条件付き因果効果である。 任意の親ノード P と、ノード P 内の各 i サンプルに対して、 ρi = Γ−1 P (˜ Ai − ¯ AP) ˜ Yi − ¯ YP − (˜ Ai − ¯ AP)ˆ τP (18) を定義する、ここで、¯ AP 及び ¯ YP は ˜ Yi 及び ˜ Ai の親ノードでの平均であり、ˆ τP 親ノード P での推定方程式の解である。 ΓP = 1 |{i : Xi ∈ P}| {i:Xi∈P} ˜ Ai − ¯ AP ˜ Ai − ¯ AP T (19) 50
for heterogeneous causal effects.” ,Proceedings of the National Academy of Sciences, 113(27):7353–7360. • Athey et al., (2019). ”Generalized Random Forests”. Annals of Statistics, 47(2). • Nie, X and Wager, S. (2021). ”Quasi-Oracle Estimation of Heterogeneous Treatment Effects”, Biometrika, 108(2). • Wager, S and Athey, S. (2018) ”Estimation and Inference of Heterogeneous Treatment Effects using Random Forests.” Journal of the American Statistical Association, 113(523), 2018. • Shiraishi, H, Nakamura, T, and Shibuki, R. (2022) ”Time series quantile regression using random forests”, https://arxiv.org/abs/2211.02273 52