Upgrade to Pro — share decks privately, control downloads, hide ads and more …

oku-slide-stat2-4

 oku-slide-stat2-4

数理統計学特論II
第4回 正規分布と二項分布に関する推測
奥 牧人 (未病研究センター)
2022/07/06
2023/07/05
2024/07/03

Makito Oku

March 29, 2022
Tweet

More Decks by Makito Oku

Other Decks in Education

Transcript

  1. 今回の位置付け 1. 前置きと準備 2. 確率と1次元の確率変数 3. 多次元の確率変数 4. 統計量と標本分布 5.

    統計的決定理論の枠組み 6. ⼗分統計量 7. 推定論 8. 検定論 9. 区間推定 10. 正規分布、2項分布に関する推測 その他の話題 11. 線形モデル 12. ノンパラメトリック法 13. 漸近理論 14. ベイズ法 確率と統計の基礎 良い点推定とは︖ 良い検定とは︖ 問題設定と準備 7章と8章に関する証明 回帰分析と分散分析を統⼀的に理解 常⽤される⼿法を改めて整理 ベイズ統計を簡単に紹介 ノンパラを簡単に紹介 3 / 42
  2. 記号と条件設定 上側 点の記号 正規分布: 自由度 の 分布: 自由度 の 分布:

    自由度 の 分布: 確率密度関数で を明示したい場合 自由度 の 分布: 自由度 の 分布: 有意水準は , 信頼係数は α zα n t tα (n) n χ 2 χ 2 α (n) (l, m) F Fα (l, m) x n χ2 ~ χ2 n (x) (l, m) F ~ Fl,m (x) α 1 − α 9 / 42
  3. 1標本問題の点推定 とする。 の点推定は UMVU かつ MLE   の点推定で、 が既知の場合は UMVU

    かつ MLE   の点推定で が未知なら、 割が UMVU, 割が MLE X1 , … , Xn i.i.d. ∼ N (μ, σ2 ) μ ¯ X = 1 n n ∑ i=1 Xi σ 2 μ 1 n n ∑ i=1 (Xi − μ) 2 σ 2 μ n − 1 n s 2 = 1 n − 1 n ∑ i=1 (Xi − ¯ X) 2 , s 2 n = 1 n n ∑ i=1 (Xi − ¯ X) 2 10 / 42
  4. 1標本問題の点推定 の点推定の MLE の点推定で、一般的に用いられるものは UMVU ではない の点推定の UMVU σ sn

    = 1 n n ∑ i=1 (Xi − ¯ X)2  ⎷ σ s = 1 n − 1 n ∑ i=1 (Xi − ¯ X)2  ⎷ σ s ′ = √n − 1 Γ((n − 1)/2) √2 Γ(n/2) s 11 / 42
  5. 1標本問題の区間推定 の区間推定で、 が既知の場合の UMPU の区間推定で、 が未知の場合の UMPU の区間推定で、 が未知の場合、一般的に用いられるものは UMPU

    ではない μ σ 2 ¯ X ± zα/2 σ √n μ σ 2 ¯ X ± t α/2 (n − 1) s √n σ 2 μ (n − 1)s 2 χ 2 α/2 (n − 1) < σ 2 < (n − 1)s 2 χ 2 1−α/2 (n − 1) 12 / 42
  6. 1標本問題の区間推定、続き の区間推定で、 が未知の場合の UMPU ここで , は以下を満たすように決める σ 2 μ

    (n − 1)s 2 λ2 < σ 2 < (n − 1)s 2 λ1 λ1 λ2 ∫ λ 2 λ 1 ~ χ 2 n−1 (x)dx = 1 − α λ1 ~ χ 2 n−1 (λ1 ) = λ2 ~ χ 2 n−1 (λ2 ) 13 / 42
  7. 2標本問題 2標本問題には、対応の無い場合と有る場合がある。 対応ありの場合、 のようにペアになって いる。 例、同じ 人の治療前と治療後の何かの測定値 そうでない場合は対応なし 例、薬を飲んだ 人と、偽薬を飲んだ別の

    人の測定値 対応ありの場合は通常 として1標本問題に帰着さ せる。 以降では対応なしの2標本問題のみを考える。 (X1 , Y1 ), … , (Xn , Yn ) n n m Zi = Yi − Xi 15 / 42
  8. 2標本問題の点推定 と が独立、 , とする。 の点推定は UMVU かつ MLE の点推定で、

    , が未知の場合の MLE の点推定で、 , が未知の場合の UMVU X Y X ∼ N (μ1 , σ 2 1 ) Y ∼ N (μ2 , σ 2 2 ) μ2 − μ1 ˆ μ2 − μ1 = ¯ Y − ¯ X σ 2 2 /σ 2 1 μ1 μ2 ˆ σ 2 2 /σ 2 1 = ∑ n i=1 (Yi − ¯ Y ) 2 /n ∑ m i=1 (Xi − ¯ X)2 /m σ 2 2 /σ 2 1 μ1 μ2 ˆ σ 2 2 /σ 2 1 = ∑ n i=1 (Yi − ¯ Y ) 2 /(n − 1) ∑ m i=1 (Xi − ¯ X)2 /(m − 3) 16 / 42
  9. 2標本問題の区間推定 の区間推定で、 , が既知の場合の UMPU 同上、 で が未知の場合の UMPU ここで

    はプールされた分散 μ2 − μ1 σ 2 1 σ 2 2 ¯ Y − ¯ X ± zα/2 √ σ 2 1 m + σ 2 2 n σ 2 1 = σ 2 2 = σ 2 σ 2 ¯ Y − ¯ X ± t α/2 (n + m − 2) √ s2 p m + s2 p n s 2 p s 2 p = ∑ m i=1 (Xi − ¯ X) 2 + ∑ n i=1 (Yi − ¯ Y ) 2 m + n − 2 17 / 42
  10. 2標本問題の区間推定、続き 引き続き の区間推定で、 , が未知で、かつ、等し いと仮定できない場合、正確な信頼区間を求められない ベーレンス・フィッシャー問題と呼ばれる 近似的なウェルチの信頼区間が用いられる ここで ,

    は , それぞれの不偏分散 自由度 は以下の式により定められる。 μ2 − μ1 σ 2 1 σ 2 2 ¯ Y − ¯ X ± t α/2 (k) √ s2 1 m + s2 2 n s 2 1 s 2 2 X Y k (s 2 1 /m + s 2 2 /n) 2 k = s 4 1 m2 (m − 1) + s 4 2 n2 (n − 1) 18 / 42
  11. 2標本問題の区間推定、続き の区間推定で、以下は UMPU ではない ( , は未知) UMPU は以下 ここで

    , は以下を満たすように決める σ 2 2 /σ 2 1 μ1 μ2 1 Fα/2 (n − 1, m − 1) s 2 2 s 2 1 < σ 2 2 σ 2 1 < 1 F1−α/2 (n − 1, m − 1) s 2 2 s 2 1 1 λ2 s 2 2 s 2 1 < σ 2 2 σ 2 1 < 1 λ1 s 2 2 s 2 1 λ1 λ2 ∫ λ2 λ 1 ~ Fn−1,m−1 (x)dx = 1 − α λ1 ~ Fn−1,m−1 (λ1 ) = λ2 ~ Fn−1,m−1 (λ2 ) 19 / 42
  12. 1標本問題の の検定 1標本に話を戻して とする。 の片側検定 と両側検定 が既知の場合の片側検定 の UMP が既知の場合の両側検定

    の UMPU μ X1 , … , Xn i.i.d. ∼ N (μ, σ2 ) μ P1 P2 (P1 ) H0 : μ ≤ μ0 vs. H1 : μ > μ0 (P2 ) H0 : μ = μ0 vs. H1 : μ ≠ μ0 σ 2 P1 Z = √n( ¯ X − μ0 ) σ > zα ⇒ reject σ2 P2 |Z| > z α/2 ⇒ reject 20 / 42
  13. 1標本問題の の検定、続き が未知の場合の片側検定 の UMPU 片側なのに UMPU なのは が局外母数のため が未知の場合の両側検定

    の UMPU μ σ 2 P1 t = √n( ¯ X − μ0 ) s > tα (n − 1) ⇒ reject σ 2 σ 2 P2 |t| > t α/2 (n − 1) ⇒ reject 21 / 42
  14. 1標本問題の の検定 の片側検定 , と両側検定 が既知の場合の片側検定 の UMP が既知の場合の片側検定 の

    UMP σ 2 σ 2 P3 P4 P5 (P3 ) H0 : σ 2 ≤ σ 2 0 vs. H1 : σ 2 > σ 2 0 (P4 ) H0 : σ 2 ≥ σ 2 0 vs. H1 : σ 2 < σ 2 0 (P5 ) H0 : σ 2 = σ 2 0 vs. H1 : σ 2 ≠ σ 2 0 μ P3 χ 2 = ∑ n i=1 (Xi − μ) 2 σ2 0 > χ 2 α (n) ⇒ reject μ P4 χ 2 < χ 2 1−α (n) ⇒ reject 22 / 42
  15. 1標本問題の の検定、続き が既知の場合の両側検定 で、以下は UMPU ではない UMPU は以下 ここで ,

    は以下を満たすように決める (自由度 ) σ 2 μ P5 χ 2 > χ 2 α/2 (n) or χ 2 < χ 2 1−α/2 (n) ⇒ reject χ 2 > λ2 or χ 2 < λ1 ⇒ reject λ1 λ2 n ∫ λ2 λ 1 ~ χ 2 n (x)dx = 1 − α λ1 ~ χ 2 n (λ1 ) = λ2 ~ χ 2 n (λ2 ) 23 / 42
  16. 1標本問題の の検定、続き が未知の場合は、 を で置き換え、自由度を から に置き換えれば良い。 が未知の場合の片側検定 の UMPU

    かつ UMP が未知の場合の片側検定 の UMPU が未知の場合の両側検定 は先ほどと同様 ずつ分けたものは UMPU ではなく、UMPU は別の形 σ 2 μ μ ¯ X n n − 1 μ P3 χ 2 = ∑ n i=1 (Xi − ¯ X) 2 σ 2 0 > χ 2 α (n − 1) ⇒ reject μ P4 χ 2 < χ 2 1−α (n − 1) ⇒ reject μ P 5 α/2 24 / 42
  17. 2標本問題の差の検定 に関する片側検定 と両側検定 , が既知の場合の片側検定 の UMP , が既知の場合の両側検定 の

    UMPU μ2 − μ1 P6 P7 (P6 ) H0 : μ2 ≤ μ1 vs. H1 : μ2 > μ1 (P7 ) H0 : μ1 = μ2 vs. H1 : μ1 ≠ μ2 σ2 1 σ2 2 P 6 Z = ¯ Y − ¯ X √σ2 1 /m + σ2 2 /n > zα ⇒ reject σ2 1 σ2 2 P7 |Z| > z α/2 ⇒ reject 25 / 42
  18. 2標本問題の差の検定、続き で が未知の場合の片側検定 の UMPU ここで はプールされた分散 同上、両側検定 の UMPU

    実用上、2標本の差の検定は良く使われる。 等分散を仮定する場合は スチューデントの 検定 と呼ばれる。 σ 2 1 = σ 2 2 = σ 2 σ 2 P6 t = ¯ Y − ¯ X √s2 p /m + s2 p /n > tα (m + n − 2) ⇒ reject s 2 p P7 |t| > t α/2 (m + n − 2) ⇒ reject t 26 / 42
  19. 2標本問題の差の検定、続き , が未知で、かつ、等しいと仮定できない場合、ウェルチの 検定 が用いられる。 最適性は保証されない。 片側検定 の場合 , は

    , それぞれの不偏分散、自由度 は前述 両側検定 の場合 σ 2 1 σ 2 2 t P6 t = ¯ Y − ¯ X √s 2 1 /m + s 2 2 /n > tα (k) ⇒ reject s 2 1 s 2 2 X Y k P7 |t| > t α/2 (k) ⇒ reject 27 / 42
  20. 2標本問題の分散比の検定 に関する片側検定 と両側検定 , が未知の場合の の UMPU 同上、両側検定 で ずつ分けたものは

    UMPU でない 区間推定について前述した方法を使えば UMPU この場合の UMPU はバートレットの検定とも等価 σ 2 2 /σ 2 1 P8 P9 (P 8 ) H 0 : σ 2 2 ≤ σ 2 1 vs. H 1 : σ 2 2 > σ 2 1 (P9 ) H0 : σ 2 1 = σ 2 2 vs. H1 : σ 2 1 ≠ σ 2 2 μ1 μ2 P8 F = s 2 2 s2 1 > Fα (n − 1, m − 1) ⇒ reject P9 α/2 28 / 42
  21. 等分散検定について補足 2標本の差の検定では、等分散を仮定できる場合にスチューデン トの 検定、できない場合にウェルチの 検定を使う。 以下は個人的な意見である。 等分散の仮定が成り立つかどうかを等分散検定で判断すべきでな いと思う。 通常の有意水準 %で有意でないことは、等分散であること

    を積極的に支持するものではない。 分布を用いた等分散検定は正規分布からの逸脱に弱く、 実用的とは考えにくい。 どちらか分からない場合は、等分散検定せずにウェルチの 検定 を使えば良いと思う。 t t 5 F t 29 / 42
  22. 一元配置分散分析 対応のない 標本 は共通と仮定 は 番目の標本のサイズ、総数 検定問題 全平均と群毎の平均 k Xij

    ∼ N (μi , σ 2 ), i = 1, … , k, j = 1, … , ni σ 2 ni i n = n1 + ⋯ + nk H0 : μ1 = ⋯ = μk vs. H1 : μi ≠ μj , ∃μi , μj ¯ ¯ X = 1 n k ∑ i=1 n i ∑ j=1 Xij , ¯ Xi = 1 ni n i ∑ j=1 Xij 30 / 42
  23. 一元配置分散分析、続き 郡間平方和 郡内平方和 全平方和 ( を満たす) WH = k ∑

    i=1 ( ¯ Xi − ¯ ¯ X) 2 WE = k ∑ i=1 ni ∑ j=1 (Xij − ¯ Xi ) 2 WT = WH + WE WT = k ∑ i=1 ni ∑ j=1 (Xij − ¯ ¯ X) 2 31 / 42
  24. 一元配置分散分析、続き 帰無仮説のもとで と は互いに独立で となるので、検定は 尤度比検定とも等価 WH WE WH σ2

    ∼ χ 2 (k − 1), WE σ2 ∼ χ 2 (n − k) F = WH /(k − 1) WE /(n − k) > F α (k − 1, n − k) ⇒ reject 32 / 42
  25. 2項分布の点推定と検定 とする。 の点推定は UMVU かつ MLE の両側検定 (片側も同様) は、 が大きいときの近似

    を用いて X ∼ Bin(n, p) p ^ p = X n p H0 : p = p0 vs. H1 : p ≠ p0 n X ⋅ ∼ N (np, np(1 − p)) √n( ^ p − p0 ) √p0 (1 − p0 ) > z α/2 ⇒ reject 34 / 42
  26. 2項分布の区間推定 近似的な検定との対応を考えるなら、区間推定は以下になる しかし、通常は で を に変えた が用いられる。 2n ^ p

    + z 2 α/2 ± √4z2 α/2 n ^ p(1 − ^ p) + z4 α/2 2(n + z 2 α/2 ) ^ p ⋅ ∼ N (p, p(1 − p)/n) p ^ p ^ p ± z α/2 √ ^ p(1 − ^ p) n 35 / 42
  27. 分割表の検定 分割表 C1 C2 C2 R1 R2 多項分布とみなす ( は総数)

    のため、自由度は r × c X 11 X 12 X 13 X 21 X 22 X 23 n p(x11 , … , xrc ) = n! x11 ! ⋯ xrc ! p x 11 11 ⋯ p xrc rc ∑ pij = 1 rc − 1 37 / 42
  28. 分割表の検定、続き 行と列が独立であることを帰無仮説とする は 行の周辺確率 は 列の周辺確率 の自由度は 自由度の差は に基づく期待度数 H0

    : pij = pi∙ p∙j , ∀i, j p i∙ i p∙j j H0 r + c − 2 rc − 1 − (r + c − 2) = (r − 1)(c − 1) H0 ^ Xij = n ^ pij = n ^ pi∙ ^ p∙j = 1 n c ∑ j′ =1 Xij′ r ∑ i′ =1 Xi′ j 38 / 42