Upgrade to Pro — share decks privately, control downloads, hide ads and more …

oku-slide-stat2-5

 oku-slide-stat2-5

数理統計学特論II
第5回 線形モデル
奥 牧人 (未病研究センター)
2022/07/13
2023/07/12
2024/07/10
2025/07/16

Avatar for Makito Oku

Makito Oku

March 29, 2022
Tweet

More Decks by Makito Oku

Other Decks in Education

Transcript

  1. 今回の位置付け 1. 前置きと準備 2. 確率と1次元の確率変数 3. 多次元の確率変数 4. 統計量と標本分布 5.

    統計的決定理論の枠組み 6. ⼗分統計量 7. 推定論 8. 検定論 9. 区間推定 10. 正規分布、2項分布に関する推測 その他の話題 11. 線形モデル 12. ノンパラメトリック法 13. 漸近理論 14. ベイズ法 確率と統計の基礎 良い点推定とは︖ 良い検定とは︖ 問題設定と準備 7章と8章に関する証明 回帰分析と分散分析を統⼀的に理解 常⽤される⼿法を改めて整理 ベイズ統計を簡単に紹介 ノンパラを簡単に紹介 3 / 46
  2. Outline 1. 回帰モデル 2. 回帰モデルの推定 3. 1元配置分散分析モデル 4. 2元配置分散分析モデル 5.

    線形モデルにおける正準形と最小二乗法 6. 正準形に基づく線形モデルの推定と検定 7. 母数のムダと線形推定可能性 6 / 46
  3. Outline 1. 回帰モデル 2. 回帰モデルの推定 3. 1元配置分散分析モデル 4. 2元配置分散分析モデル 5.

    線形モデルにおける正準形と最小二乗法 6. 正準形に基づく線形モデルの推定と検定 7. 母数のムダと線形推定可能性 7 / 46
  4. 単回帰モデル、続き 誤差の二乗和 を最小化する , の値は (参考) 相関係数 直線 を回帰直線という。 ∑

    n i=1 ε 2 i β0 β1 ^ β1 = ∑ n i=1 (xi − ¯ x)(yi − ¯ y) ∑ n i=1 (xi − ¯ x)2 , ^ β0 = ¯ y − ^ β1 ¯ x r = ∑ n i=1 (xi − ¯ x)(yi − ¯ y) √∑ n i=1 (xi − ¯ x)2√∑ n i=1 (yi − ¯ y)2 y = ^ β0 + ^ β1 x 9 / 46
  5. 重回帰モデル 説明変数が 次元 ( ) の場合、重回帰モデルという 誤差についての仮定は単回帰の場合と同じ 行列とベクトルを使って表記 上の式を次のように書くことにする (

    を計画行列という) p p ≥ 2 yi = β0 + β1 xi1 + ⋯ + βp xip + εi , i = 1, … , n = + ⎛ ⎝ y1 ⋮ yn ⎞ ⎠ ⎛ ⎝ 1 x11 ⋯ x1p ⋮ ⋮ ⋱ ⋮ 1 xn1 ⋯ xnp ⎞ ⎠ ⎛ ⎝ β0 ⋮ βp ⎞ ⎠ ⎛ ⎝ ε1 ⋮ εn ⎞ ⎠ X y = Xβ + ε 10 / 46
  6. Outline 1. 回帰モデル 2. 回帰モデルの推定 3. 1元配置分散分析モデル 4. 2元配置分散分析モデル 5.

    線形モデルにおける正準形と最小二乗法 6. 正準形に基づく線形モデルの推定と検定 7. 母数のムダと線形推定可能性 11 / 46
  7. 重回帰モデルの推定 重回帰モデルの式 (再掲) 誤差の二乗和 を最小化する は、 の各列が 一次独立の場合に一意に定まる の予測値 と残差

    は次のように書ける 行列 の解釈は後述 y = Xβ + ε ∑ n i=1 ε2 i = εT ε β X ^ β = (X T X) −1 X T y y ^ y = X ^ β e = y − ^ y ^ y = PX y e = (I − PX )y PX = X(X T X) −1 X T PX 12 / 46
  8. の導出 誤差の二乗和 に関する勾配が ベクトルのとき 一般に , ( は対称) 従って以下が成り立つ。 が存在すれば

    が定まる。 ^ β ε T ε = (y − Xβ) T (y − Xβ) = y T y − β T X T y − y T Xβ + β T X T Xβ = y T y − 2β T X T y + β T X T Xβ β 0 ∇β (ε T ε) = −2X T y + 2X T Xβ = 0 ∇x (x T c) = c ∇x (x T Ax) = 2Ax A (X T X) −1 ^ β X T Xβ = X T y 13 / 46
  9. 重回帰モデルの推定、続き を「 次元の点が 個ある」ではなく「 次元の点が 個 ある」とみなし、確率変数 の実現値と考えると、 と書ける。前述のとおり は値が固定された行列である。

    の最小二乗推定量 は UMVU かつ MLE の点推定の MLE は の点推定の UMVU は y 1 n n 1 Y Y ∼ N (Xβ, σ 2 I) X β ^ β σ 2 e T e/n σ 2 e T e/(n − p − 1) 14 / 46
  10. Outline 1. 回帰モデル 2. 回帰モデルの推定 3. 1元配置分散分析モデル 4. 2元配置分散分析モデル 5.

    線形モデルにおける正準形と最小二乗法 6. 正準形に基づく線形モデルの推定と検定 7. 母数のムダと線形推定可能性 15 / 46
  11. 1元配置分散分析と線形モデル 対応のない 標本 総数 を一列に並べる 同様に、各 を 個ずつ並べる とみなす。 k

    Yij ∼ N (μi , σ 2 ), i = 1, … , k, j = 1, … , ni n = ∑ k i=1 ni Yij Y = (Y11 , Y12 , … , Y1n 1 , Y21 , … , Ykn k ) T μi ni μ = (μ1 , … , μ1 n 1 , μ2 , … , μ2 n 2 , … , μk ) T       Y ∼ N (μ, σ 2 I) 16 / 46
  12. 1元配置分散分析と線形モデル、続き 一方、各 を 個ずつ並べたものを とする と、次のように書ける ここで は の行列で、次の例のような形 μi

    1 β = (μ1 , … , μk ) T μ = Xβ X n × k = ⎛ ⎝ μ1 μ1 μ2 μ2 μ3 μ3 ⎞ ⎠ ⎛ ⎝ 1 0 0 1 0 0 0 1 0 0 1 0 0 0 1 0 0 1 ⎞ ⎠ ⎛ ⎝ μ1 μ2 μ3 ⎞ ⎠ 17 / 46
  13. 1元配置分散分析と線形モデル、続き 1元配置分散分析モデルも重回帰モデルと同じ形に書ける の点推定の UMVU かつ MLE は 分散分析モデルでは の形に表すことがある。 は一般平均、

    は主効果という。 このままでは値が一意に定まらない。母数のムダという。 としたとき、対応する計画行列 の各列 は一次独立にならない。 Y ∼ N (Xβ, σ 2 I) β ^ β = ( ¯ Y1 , … , ¯ Yk ) T μi = μ0 + αi , i = 1, … , k μ0 αi ~ β = (μ0 , α1 , … , αk ) T ~ X 18 / 46
  14. 1元配置分散分析の復習 帰無仮説 群間平方和と群内平方和 ( は全平均) 検定 H0 : μ1 =

    ⋯ = μk ¯ ¯ Y WH = k ∑ i=1 ( ¯ Yi − ¯ ¯ Y ) 2 , WE = k ∑ i=1 n i ∑ j=1 (Yij − ¯ Yi ) 2 F = WH /(k − 1) WE /(n − k) > F α (k − 1, n − k) ⇒ reject 19 / 46
  15. Outline 1. 回帰モデル 2. 回帰モデルの推定 3. 1元配置分散分析モデル 4. 2元配置分散分析モデル 5.

    線形モデルにおける正準形と最小二乗法 6. 正準形に基づく線形モデルの推定と検定 7. 母数のムダと線形推定可能性 20 / 46
  16. 2元配置分散分析 分散分析では「要因」と「水準」という用語を用いる。 下の図で、 と が要因、 , などが水準である。 B1 B2 B3

    A1 A2 2つの要因を , とし、それぞれの水準数を , とする。 2元配置分散分析モデル A B A1 A2 {Y11k } {Y12k } {Y13k } {Y21k } {Y22k } {Y23k } A B a b Yijk ∼ N (μij , σ 2 ), i = 1, … , a; j = 1, … , b; k = 1, … , nij 21 / 46
  17. 2元配置分散分析、続き 2元配置分散分析の場合も線形モデル の形に 書き直すことが出来る。 2元配置分散分析では通常 を次のように表す。 は一般平均 は要因 の水準 の主効果

    は要因 の水準 の主効果 はそれらの交互作用 母数のムダがあるので、 などの制約条件を加える。 Y ∼ N (Xβ, σ 2 I) μij μ ij = μ 0 + α i + β j + γ ij μ0 αi A i βj B j γij ∑ i αi = 0 22 / 46
  18. 2元配置分散分析の検定 主な帰無仮説 簡単のため を仮定 の平均と、その行毎、列毎、全体の平均 HA : α1 = ⋯

    = αa = 0 HB : β1 = ⋯ = βb = 0 HAB : γ11 = ⋯ = γab = 0 nij = r > 1 (i, j) ¯ Yij = 1 r r ∑ k=1 Yijk ¯ Yi∙ = 1 b ∑ j ¯ Yij , ¯ Y∙j = 1 a ∑ i ¯ Yij , ¯ ¯ Y = 1 ab ∑ i,j ¯ Yij 23 / 46
  19. 平方和の分解 平方和の分解 WT = ∑ i,j,k (Yijk − ¯ ¯

    Y ) 2 = WA + WB + WAB + WE WA = br ∑ i ( ¯ Yi∙ − ¯ ¯ Y ) 2 WB = ar ∑ j ( ¯ Y∙j − ¯ ¯ Y ) 2 WAB = r ∑ i,j ( ¯ Yij − ¯ Yi∙ − ¯ Y∙j + ¯ ¯ Y ) 2 WE = ∑ i,j,k (Yijk − ¯ Yij ) 2 24 / 46
  20. 分散分析表 平方和 自由度 Aの主効果 Bの主効果 ABの交互作用 誤差 計 WA a

    − 1 WB b − 1 WAB (a − 1)(b − 1) WE ab(r − 1) WT abr − 1 25 / 46
  21. 2元配置分散分析の検定の例 例、交互作用に対する仮説 の検定 (参考) 1元配置分散分析 HAB F = WAB /((a

    − 1)(b − 1)) WE /(ab(r − 1)) > Fα ((a − 1)(b − 1), ab(r − 1)) ⇒ reject F = WH /(k − 1) WE /(n − k) > Fα (k − 1, n − k) ⇒ reject 26 / 46
  22. Outline 1. 回帰モデル 2. 回帰モデルの推定 3. 1元配置分散分析モデル 4. 2元配置分散分析モデル 5.

    線形モデルにおける正準形と最小二乗法 6. 正準形に基づく線形モデルの推定と検定 7. 母数のムダと線形推定可能性 27 / 46
  23. 確認 の適当な正規直交基底を とする。 の直交補空間 も同様に とする。 これらの縦ベクトルを横に並べた行列を , とし、 とすると、

    は直交行列 直交行列の性質より なので、 ここで , より、 改めて とおくと、 で、 の列 は の正規直交基底より、 の各要素は自由に動ける。 M {g1 , … , gp } M M ⊥ {gp+1 , … , gn } G1 G2 G = (G1 , G2 ) G |det G| = 1 z ∼ N ( ~ η, σ 2 I), ~ η = G T μ, μ ∈ M g T i μ = 0 i = p + 1, … , n ~ η = (η1 , … , ηp , 0, … , 0) η = (η1 , … , ηp ) μ = G ~ η = G1 η G1 M η 30 / 46
  24. 回帰モデルの解釈 二乗誤差 の最小化は として 図で表すと M (p-dim.) y ŷ e

    O Rn ∥ε∥ 2 = ∥y − Xβ∥ 2 μ = Xβ min μ∈M ∥y − μ∥ 2 31 / 46
  25. 二乗誤差の最小化 で正準形に変換し、 の列数を改めて とおくと 右辺を最小化するのは , のとき このときの を計算 (

    , を使う) ここで は から への射影を表す。 z = G T y X p ∥y − μ∥ 2 = (y − μ) T (y − μ) = (y − μ) T GG T (y − μ) = (z − ~ η) T (z − ~ η) = p ∑ i=1 (z i − η i ) 2 + n ∑ i=p+1 z 2 i ηi = zi i = 1, … , p ^ y μ = G1 η z = G T y ^ y = g1 z1 + ⋯ + gp zp = (g1 g T 1 + ⋯ + gp g T p )y = G1 G T 1 y PM = G1 G T 1 y ^ y 32 / 46
  26. 直交射影行列 は への直交射影行列と呼ばれ、以下の性質を持つ 同様に、残差ベクトルも正準形で計算 より、 から への射影は次のように書ける PM M (PM

    ) 2 = PM , (PM ) T = PM e = y − ^ y = Gz − (g1 z1 + ⋯ + gp zp ) = z p+1 g p+1 + ⋯ + z n g n ∈ M ⊥ e = (I − PM )y y e P M ⊥ = I − P M 33 / 46
  27. Outline 1. 回帰モデル 2. 回帰モデルの推定 3. 1元配置分散分析モデル 4. 2元配置分散分析モデル 5.

    線形モデルにおける正準形と最小二乗法 6. 正準形に基づく線形モデルの推定と検定 7. 母数のムダと線形推定可能性 34 / 46
  28. 正準形の推定 , とおくと、 の点推定の UMVU は 元の座標系に戻したとき、 の UMVU は

    ~ z = (z1 , … , zn ) z = (z1 , … , zp ) z ∼ N (η, σ 2 Ip ) η ^ η = z μ ^ μ = G1 ^ η 35 / 46
  29. 正準形の検定 正準形で考える。 を に対応させると、検定問題は Rn M (p-dim.) M0 (s-dim.) H0

    H1 z1 , … , zs M0 H0 : ηs+1 = ⋯ = ηp = 0, ηp+1 = ⋯ = ηn = 0 H1 : ∃i ∈ [s + 1, p], ηi ≠ 0, ηp+1 = ⋯ = ηn = 0 37 / 46
  30. 正準形の検定、続き は , ともに平均は任意 は のときのみ平均 は , ともに平均 検定

    特に の場合は 検定と等価 z1 , … , zs H0 H1 zs+1 , … , zp H0 0 zp+1 , … , zn H0 H1 0 F F = (z2 s+1 + ⋯ z2 p )/(p − s) (z 2 p+1 + ⋯ z2 n )/(n − p) > Fα (p − s, n − p) ⇒ reject s = p − 1 t t = zp √(z 2 p+1 + ⋯ z2 n )/(n − p) > tα (n − p) ⇒ reject 38 / 46
  31. 回帰モデルの検定 重回帰モデル (係数が 個となるように書き直した) 個別の回帰係数 についての検定 の場合に相当 Rn M (p-dim.)

    M0 (s-dim.) H0 H1 p yi = β0 + β1 xi,1 + ⋯ + βp−1 xi,p−1 + εi , i = 1, … , n βk H0 : βk = 0 vs. H1 : βk ≠ 0 s = p − 1 39 / 46
  32. 1元配置分散分析モデルの検定 1元配置分散分析モデル (グループ数を と書き直した) 検定問題 の場合に相当 Rn M (p-dim.) M0

    (s-dim.) H0 H1 p Yij ∼ N (μi , σ 2 ), i = 1, … , p, j = 1, … , ni H0 : μ1 = ⋯ = μp vs. H1 : μi ≠ μj , ∃i, j s = 1 40 / 46
  33. Outline 1. 回帰モデル 2. 回帰モデルの推定 3. 1元配置分散分析モデル 4. 2元配置分散分析モデル 5.

    線形モデルにおける正準形と最小二乗法 6. 正準形に基づく線形モデルの推定と検定 7. 母数のムダと線形推定可能性 41 / 46
  34. 線形推定可能性 分散分析で などとおくと母数が一意に定まらない 問題があった。 追加の制約 または を加えれば定まる。 ( ) はどの制約でも同じ値になる。

    一般に、以下の線形方程式を考える ここで , , , , の要素の一次結合 が追加の制約 によらないとき、 は線形推定可能という。 μi = μ0 + αi ∑ i αi = 0 ∑ i ni αi = 0 αi − αj i ≠ j Ax = b, C T x = 0 A ∈ R n×q rank A = p < q x ∈ R q b ∈ R n C T ∈ R (q−p)×q x a T x C a T x 42 / 46
  35. 線形推定可能性、続き 行列 のカーネル (核) を を満たす任意の解とすると、 の任意の解 は以下のように表される が制約条件 によらない必要十分条件は

    従って 、つまり、 が の行ベクトル の一次結合であれば は線形推定可能 A Ker A = {x ∣ Ax = 0} x ′ Ax ′ = b Ax = b x = x ′ + ~ x, ~ x ∈ Ker A a T x C T x = 0 a T ~ x = 0, ∀ ~ x ∈ Ker A a ∈ (Ker A) ⊥ = Im A T a A a T x 43 / 46
  36. まとめ 回帰分析と分散分析を統一的に扱う理論的枠組みを説明しました。 1. 回帰モデル ! 単回帰モデルと重回帰モデルの意味を説明できる? 2. 回帰モデルの推定 3. 1元配置分散分析モデル

    ! 一元配置分散分析の線形モデルとしての解釈を説明できる? 4. 2元配置分散分析モデル 5. 線形モデルにおける正準形と最小二乗法 ! 正規線形モデルの正準形の意味を説明できる? 6. 正準形に基づく線形モデルの推定と検定 ! 正準形に基づく回帰分析と分散分析の解釈を説明できる? 7. 母数のムダと線形推定可能性 44 / 46