Upgrade to Pro — share decks privately, control downloads, hide ads and more …

oku-slide-stat2-4

 oku-slide-stat2-4

数理統計学特論II
第4回 正規分布と二項分布に関する推測
奥 牧人 (未病研究センター)
2022/07/06
2023/07/05
2024/07/03
2025/07/09

Avatar for Makito Oku

Makito Oku

March 29, 2022
Tweet

More Decks by Makito Oku

Other Decks in Education

Transcript

  1. 今回の位置付け 1. 前置きと準備 2. 確率と1次元の確率変数 3. 多次元の確率変数 4. 統計量と標本分布 5.

    統計的決定理論の枠組み 6. ⼗分統計量 7. 推定論 8. 検定論 9. 区間推定 10. 正規分布、2項分布に関する推測 その他の話題 11. 線形モデル 12. ノンパラメトリック法 13. 漸近理論 14. ベイズ法 確率と統計の基礎 良い点推定とは︖ 良い検定とは︖ 問題設定と準備 7章と8章に関する証明 回帰分析と分散分析を統⼀的に理解 常⽤される⼿法を改めて整理 ベイズ統計を簡単に紹介 ノンパラを簡単に紹介 3 / 42
  2. 記号と条件設定 上側 点の記号 正規分布: 自由度 の 分布: 自由度 の 分布:

    自由度 の 分布: 確率密度関数で を明示したい場合 自由度 の 分布: 自由度 の 分布: 有意水準は , 信頼係数は α zα n t tα (n) n χ 2 χ 2 α (n) (l, m) F Fα (l, m) x n χ2 ~ χ2 n (x) (l, m) F ~ Fl,m (x) α 1 − α 9 / 42
  3. 1標本問題の点推定 とする。 の点推定は UMVU かつ MLE   の点推定で、 が既知の場合は UMVU

    かつ MLE   の点推定で が未知なら、 割が UMVU, 割が MLE X1 , … , Xn i.i.d. ∼ N (μ, σ2 ) μ ¯ X = 1 n n ∑ i=1 Xi σ 2 μ 1 n n ∑ i=1 (Xi − μ) 2 σ 2 μ n − 1 n s 2 = 1 n − 1 n ∑ i=1 (Xi − ¯ X) 2 , s 2 n = 1 n n ∑ i=1 (Xi − ¯ X) 2 10 / 42
  4. 1標本問題の点推定 の点推定の MLE の点推定で、一般的に用いられるものは UMVU ではない の点推定の UMVU σ sn

    = 1 n n ∑ i=1 (Xi − ¯ X)2  ⎷ σ s = 1 n − 1 n ∑ i=1 (Xi − ¯ X)2  ⎷ σ s ′ = √n − 1 Γ((n − 1)/2) √2 Γ(n/2) s 11 / 42
  5. 1標本問題の区間推定 の区間推定で、 が既知の場合の UMPU の区間推定で、 が未知の場合の UMPU の区間推定で、 が未知の場合、一般的に用いられるものは UMPU

    ではない μ σ 2 ¯ X ± zα/2 σ √n μ σ 2 ¯ X ± tα/2 (n − 1) s √n σ 2 μ (n − 1)s 2 χ 2 α/2 (n − 1) < σ 2 < (n − 1)s 2 χ 2 1−α/2 (n − 1) 12 / 42
  6. 1標本問題の区間推定、続き の区間推定で、 が未知の場合の UMPU ここで , は以下を満たすように決める σ 2 μ

    (n − 1)s 2 λ2 < σ 2 < (n − 1)s 2 λ1 λ1 λ2 ∫ λ 2 λ 1 ~ χ 2 n−1 (x)dx = 1 − α λ1 ~ χ 2 n−1 (λ1 ) = λ2 ~ χ 2 n−1 (λ2 ) 13 / 42
  7. 2標本問題 2標本問題には、対応の無い場合と有る場合がある。 対応ありの場合、 のようにペアになって いる。 例、同じ 人の治療前と治療後の何かの測定値 そうでない場合は対応なし 例、薬を飲んだ 人と、偽薬を飲んだ別の

    人の測定値 対応ありの場合は通常 として1標本問題に帰着さ せる。 以降では対応なしの2標本問題のみを考える。 (X1 , Y1 ), … , (Xn , Yn ) n n m Z i = Y i − X i 15 / 42
  8. 2標本問題の点推定 と が独立、 , とする。 の点推定は UMVU かつ MLE の点推定で、

    , が未知の場合の MLE の点推定で、 , が未知の場合の UMVU X Y X ∼ N (μ1 , σ 2 1 ) Y ∼ N (μ2 , σ 2 2 ) μ2 − μ1 ˆ μ2 − μ1 = ¯ Y − ¯ X σ 2 2 /σ 2 1 μ1 μ2 ˆ σ 2 2 /σ 2 1 = ∑ n i=1 (Yi − ¯ Y ) 2 /n ∑ m i=1 (Xi − ¯ X)2 /m σ 2 2 /σ 2 1 μ1 μ2 ˆ σ 2 2 /σ 2 1 = ∑ n i=1 (Yi − ¯ Y ) 2 /(n − 1) ∑ m i=1 (Xi − ¯ X)2 /(m − 3) 16 / 42
  9. 2標本問題の区間推定 の区間推定で、 , が既知の場合の UMPU 同上、 で が未知の場合の UMPU ここで

    はプールされた分散 μ2 − μ1 σ 2 1 σ 2 2 ¯ Y − ¯ X ± zα/2 √ σ 2 1 m + σ 2 2 n σ 2 1 = σ 2 2 = σ 2 σ 2 ¯ Y − ¯ X ± t α/2 (n + m − 2) √ s2 p m + s2 p n s 2 p s 2 p = ∑ m i=1 (Xi − ¯ X) 2 + ∑ n i=1 (Yi − ¯ Y ) 2 m + n − 2 17 / 42
  10. 2標本問題の区間推定、続き 引き続き の区間推定で、 , が未知で、かつ、等し いと仮定できない場合、正確な信頼区間を求められない ベーレンス・フィッシャー問題と呼ばれる 近似的なウェルチの信頼区間が用いられる ここで ,

    は , それぞれの不偏分散 自由度 は以下の式により定められる。 μ2 − μ1 σ 2 1 σ 2 2 ¯ Y − ¯ X ± t α/2 (k) √ s2 1 m + s2 2 n s 2 1 s 2 2 X Y k (s 2 1 /m + s 2 2 /n) 2 k = s 4 1 m2 (m − 1) + s 4 2 n2 (n − 1) 18 / 42
  11. 2標本問題の区間推定、続き の区間推定で、以下は UMPU ではない ( , は未知) UMPU は以下 ここで

    , は以下を満たすように決める σ 2 2 /σ 2 1 μ1 μ2 1 Fα/2 (n − 1, m − 1) s 2 2 s 2 1 < σ 2 2 σ 2 1 < 1 F1−α/2 (n − 1, m − 1) s 2 2 s 2 1 1 λ2 s 2 2 s 2 1 < σ 2 2 σ 2 1 < 1 λ1 s 2 2 s 2 1 λ1 λ2 ∫ λ2 λ 1 ~ Fn−1,m−1 (x)dx = 1 − α λ1 ~ Fn−1,m−1 (λ1 ) = λ2 ~ Fn−1,m−1 (λ2 ) 19 / 42
  12. 1標本問題の の検定 1標本に話を戻して とする。 の片側検定 と両側検定 が既知の場合の片側検定 の UMP が既知の場合の両側検定

    の UMPU μ X1 , … , Xn i.i.d. ∼ N (μ, σ2 ) μ P1 P2 (P1 ) H0 : μ ≤ μ0 vs. H1 : μ > μ0 (P2 ) H0 : μ = μ0 vs. H1 : μ ≠ μ0 σ 2 P1 Z = √n( ¯ X − μ0 ) σ > zα ⇒ reject σ2 P2 |Z| > z α/2 ⇒ reject 20 / 42
  13. 1標本問題の の検定、続き が未知の場合の片側検定 の UMPU 片側なのに UMPU なのは が局外母数のため が未知の場合の両側検定

    の UMPU μ σ 2 P1 t = √n( ¯ X − μ0 ) s > tα (n − 1) ⇒ reject σ 2 σ 2 P2 |t| > t α/2 (n − 1) ⇒ reject 21 / 42
  14. 1標本問題の の検定 の片側検定 , と両側検定 が既知の場合の片側検定 の UMP が既知の場合の片側検定 の

    UMP σ 2 σ 2 P3 P4 P5 (P3 ) H0 : σ 2 ≤ σ 2 0 vs. H1 : σ 2 > σ 2 0 (P4 ) H0 : σ 2 ≥ σ 2 0 vs. H1 : σ 2 < σ 2 0 (P5 ) H0 : σ 2 = σ 2 0 vs. H1 : σ 2 ≠ σ 2 0 μ P3 χ 2 = ∑ n i=1 (Xi − μ) 2 σ2 0 > χ 2 α (n) ⇒ reject μ P4 χ 2 < χ 2 1−α (n) ⇒ reject 22 / 42
  15. 1標本問題の の検定、続き が既知の場合の両側検定 で、以下は UMPU ではない UMPU は以下 ここで ,

    は以下を満たすように決める (自由度 ) σ 2 μ P5 χ 2 > χ 2 α/2 (n) or χ 2 < χ 2 1−α/2 (n) ⇒ reject χ 2 > λ2 or χ 2 < λ1 ⇒ reject λ1 λ2 n ∫ λ2 λ 1 ~ χ 2 n (x)dx = 1 − α λ1 ~ χ 2 n (λ1 ) = λ2 ~ χ 2 n (λ2 ) 23 / 42
  16. 1標本問題の の検定、続き が未知の場合は、 を で置き換え、自由度を から に置き換えれば良い。 が未知の場合の片側検定 の UMPU

    かつ UMP が未知の場合の片側検定 の UMPU が未知の場合の両側検定 は先ほどと同様 ずつ分けたものは UMPU ではなく、UMPU は別の形 σ 2 μ μ ¯ X n n − 1 μ P3 χ 2 = ∑ n i=1 (Xi − ¯ X) 2 σ 2 0 > χ 2 α (n − 1) ⇒ reject μ P4 χ 2 < χ 2 1−α (n − 1) ⇒ reject μ P5 α/2 24 / 42
  17. 2標本問題の差の検定 に関する片側検定 と両側検定 , が既知の場合の片側検定 の UMP , が既知の場合の両側検定 の

    UMPU μ2 − μ1 P6 P7 (P6 ) H0 : μ2 ≤ μ1 vs. H1 : μ2 > μ1 (P7 ) H0 : μ1 = μ2 vs. H1 : μ1 ≠ μ2 σ2 1 σ2 2 P 6 Z = ¯ Y − ¯ X √σ2 1 /m + σ2 2 /n > zα ⇒ reject σ2 1 σ2 2 P 7 |Z| > z α/2 ⇒ reject 25 / 42
  18. 2標本問題の差の検定、続き で が未知の場合の片側検定 の UMPU ここで はプールされた分散 同上、両側検定 の UMPU

    実用上、2標本の差の検定は良く使われる。 等分散を仮定する場合は スチューデントの 検定 と呼ばれる。 σ 2 1 = σ 2 2 = σ 2 σ 2 P6 t = ¯ Y − ¯ X √s2 p /m + s2 p /n > tα (m + n − 2) ⇒ reject s 2 p P7 |t| > t α/2 (m + n − 2) ⇒ reject t 26 / 42
  19. 2標本問題の差の検定、続き , が未知で、かつ、等しいと仮定できない場合、ウェルチの 検定 が用いられる。 最適性は保証されない。 片側検定 の場合 , は

    , それぞれの不偏分散、自由度 は前述 両側検定 の場合 σ 2 1 σ 2 2 t P6 t = ¯ Y − ¯ X √s 2 1 /m + s 2 2 /n > tα (k) ⇒ reject s 2 1 s 2 2 X Y k P7 |t| > tα/2 (k) ⇒ reject 27 / 42
  20. 2標本問題の分散比の検定 に関する片側検定 と両側検定 , が未知の場合の の UMPU 同上、両側検定 で ずつ分けたものは

    UMPU でない 区間推定について前述した方法を使えば UMPU この場合の UMPU はバートレットの検定とも等価 σ 2 2 /σ 2 1 P8 P9 (P8 ) H0 : σ 2 2 ≤ σ 2 1 vs. H1 : σ 2 2 > σ 2 1 (P9 ) H0 : σ 2 1 = σ 2 2 vs. H1 : σ 2 1 ≠ σ 2 2 μ1 μ2 P8 F = s 2 2 s2 1 > Fα (n − 1, m − 1) ⇒ reject P9 α/2 28 / 42
  21. 等分散検定について補足 2標本の差の検定では、等分散を仮定できる場合にスチューデン トの 検定、できない場合にウェルチの 検定を使う。 以下は個人的な意見である。 等分散の仮定が成り立つかどうかを等分散検定で判断すべきでな いと思う。 通常の有意水準 %で有意でないことは、等分散であること

    を積極的に支持するものではない。 分布を用いた等分散検定は正規分布からの逸脱に弱く、 実用的とは考えにくい。 どちらか分からない場合は、等分散検定せずにウェルチの 検定 を使えば良いと思う。 t t 5 F t 29 / 42
  22. 一元配置分散分析 対応のない 標本 は共通と仮定 は 番目の標本のサイズ、総数 検定問題 全平均と群毎の平均 k Xij

    ∼ N (μi , σ 2 ), i = 1, … , k, j = 1, … , ni σ 2 ni i n = n1 + ⋯ + nk H0 : μ1 = ⋯ = μk vs. H1 : μi ≠ μj , ∃μi , μj ¯ ¯ X = 1 n k ∑ i=1 n i ∑ j=1 Xij , ¯ Xi = 1 ni n i ∑ j=1 Xij 30 / 42
  23. 一元配置分散分析、続き 郡間平方和 郡内平方和 全平方和 ( を満たす) WH = k ∑

    i=1 ( ¯ Xi − ¯ ¯ X) 2 WE = k ∑ i=1 ni ∑ j=1 (Xij − ¯ Xi ) 2 WT = WH + WE WT = k ∑ i=1 ni ∑ j=1 (Xij − ¯ ¯ X) 2 31 / 42
  24. 一元配置分散分析、続き 帰無仮説のもとで と は互いに独立で となるので、検定は 尤度比検定とも等価 WH WE WH σ2

    ∼ χ 2 (k − 1), WE σ2 ∼ χ 2 (n − k) F = WH /(k − 1) WE /(n − k) > Fα (k − 1, n − k) ⇒ reject 32 / 42
  25. 2項分布の点推定と検定 とする。 の点推定は UMVU かつ MLE の両側検定 (片側も同様) は、 が大きいときの近似

    を用いて X ∼ Bin(n, p) p ^ p = X n p H0 : p = p0 vs. H1 : p ≠ p0 n X ⋅ ∼ N (np, np(1 − p)) √n( ^ p − p0 ) √p0 (1 − p0 ) > z α/2 ⇒ reject 34 / 42
  26. 2項分布の区間推定 近似的な検定との対応を考えるなら、区間推定は以下になる しかし、通常は で を に変えた が用いられる。 2n ^ p

    + z 2 α/2 ± √4z2 α/2 n ^ p(1 − ^ p) + z4 α/2 2(n + z 2 α/2 ) ^ p ⋅ ∼ N (p, p(1 − p)/n) p ^ p ^ p ± z α/2 √ ^ p(1 − ^ p) n 35 / 42
  27. 分割表の検定 分割表 C1 C2 C2 R1 R2 多項分布とみなす ( は総数)

    のため、自由度は r × c X 11 X 12 X 13 X 21 X 22 X 23 n p(x11 , … , xrc ) = n! x11 ! ⋯ xrc ! p x 11 11 ⋯ p xrc rc ∑ pij = 1 rc − 1 37 / 42
  28. 分割表の検定、続き 行と列が独立であることを帰無仮説とする は 行の周辺確率 は 列の周辺確率 の自由度は 自由度の差は に基づく期待度数 H0

    : pij = pi∙ p∙j , ∀i, j p i∙ i p∙j j H0 r + c − 2 rc − 1 − (r + c − 2) = (r − 1)(c − 1) H0 ^ Xij = n ^ pij = n ^ pi∙ ^ p∙j = 1 n c ∑ j′ =1 Xij′ r ∑ i′ =1 Xi′j 38 / 42