Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第6章 2つの平均値を比較する - TokyoR #28

horihorio
January 26, 2013

第6章 2つの平均値を比較する - TokyoR #28

horihorio

January 26, 2013
Tweet

More Decks by horihorio

Other Decks in Science

Transcript

  1. 自己紹介 1 / 26 2013/01/26 2つの平均値を比較する • Twitter ID: @horihorio

    • お仕事: データマイニング・コンサルタント (金融の分析で6年程) • 興味事項: 統計/機械学習/DB/R/Finance/金融業/会計 • 過去の発表内容: ここ:http://www.slideshare.net/horihorio
  2. 違いが分かる人になる。 第6章のゴール 2 / 26 2013/01/26 2つの平均値を比較する 【例題】センター英語で、現役vs浪人で差はあるか? 謎の手法 (?)でデータを入手

    (入手方法はあとで) 現役(N= 411734): 153, 115, 109, 100, 35, 154, 71, 91, 52, 122, … 浪人(N= 102933) : 163, 123, 162, 139, 40, 184, 121, 61, 90, 193, …
  3. 2013/01/26 3 / 26 ◇ お話内容◇ 1. 【第5章の復習】 仮説検定の発想 2.

    検定統計量のイメージ 3. 2つの平均値を比較する 2つの平均値を比較する
  4. 統計的仮説検定の一般的な手順(P.111) 4 / 26 2013/01/26 2つの平均値を比較する 手順 やること 1 母集団に関する帰無仮説と対立仮説(両側or片

    側検定)を設定する 2 検定統計量を選ぶ 3 有意水準αの値を決める 4 (データを収集した後)データから検定統計量の実 現値を求める 5 検定統計量の実現値が棄却域に入れば帰無仮 説を棄却して、対立仮説を採択する。棄却域に入 らなければ、帰無仮説を採択する 1. 仮説検定の発想
  5. -8 -6 -4 -2 0 2 0.00 0.05 0.10 0.15

    0.20 yokkunsの体重増加 発生確率 -2 0 2 4 6 8 10 0.00 0.05 0.10 0.15 0.20 yokkunsの体重増加 発生確率 体重増加~N(5,2) 体重増加~N(-4,2) 7 / 26 2013/01/26 2つの平均値を比較する 1. 仮説検定の発想 体重増加 99.1% 2.7% 体重減少 平均5, 分散2の 正規分布に従う
  6. 2013/01/26 8 / 26 ◇ お話内容◇ 1. 【第5章の復習】 仮説検定の発想 2.

    検定統計量のイメージ 3. 2つの平均値を比較する 2つの平均値を比較する
  7. U(1) U(2) A B A B どっちが「同じっぽい」? 10 / 26

    2013/01/26 2つの平均値を比較する 2. 検定統計量のイメージ こちらが 大きい
  8. 4 6 8 10 12 14 16 0.0 0.1 0.2

    0.3 0.4 前ページの図を考えてみる 12 / 26 2013/01/26 2つの平均値を比較する 2. 検定統計量のイメージ 差= -6
  9. 4 6 8 10 12 14 16 0.0 0.1 0.2

    0.3 0.4 前ページの図を考えてみる 13 / 26 2013/01/26 2つの平均値を比較する 2. 検定統計量のイメージ 差= -1
  10. 4 6 8 10 12 14 16 0.0 0.1 0.2

    0.3 0.4 前ページの図を考えてみる 14 / 26 2013/01/26 2つの平均値を比較する 2. 検定統計量のイメージ 差= 0
  11. 4 6 8 10 12 14 16 0.0 0.1 0.2

    0.3 0.4 前ページの図を考えてみる 15 / 26 2013/01/26 2つの平均値を比較する 2. 検定統計量のイメージ 差= 1
  12. -3 -2 -1 0 1 2 3 0.0 0.1 0.2

    0.3 0.4 (何か変換した)値の差 (全体を1に調整した)重なる面積 この分布の近似が、(ヤヤコシイ)検定統計量 値の差×重なる面積 のグラフを考える 16 / 26 2013/01/26 2つの平均値を比較する 2. 検定統計量のイメージ
  13. • 検定統計量は、近似の前提が違うと 「INPUT:データ / OUTPUT:確率」にならない 検定統計量は近似だよ! 17 / 26 2013/01/26

    2つの平均値を比較する 2. 検定統計量のイメージ P.148 表6.1 t検定の前提条件 1 標本抽出が無作為に行われていること(無作為抽出) 2 母集団の分布が正規分布にしたがっていること (正規性) 3 2つの母集団の分散が等質であること (分散の等質性)
  14. 2013/01/26 18 / 26 ◇ お話内容◇ 1. 【第5章の復習】 仮説検定の発想 2.

    検定統計量のイメージ 3. 2つの平均値を比較する 2つの平均値を比較する
  15. • 前提2:正規性 データが多いなら、正規分布とみなす 【参考】母集団と標本 (Tokyo.R #25 @dichika さん資料) • 前提1:無作為抽出

    • 大切だけど、ここでは省略 • 統計学に加え、分析設定のおはなし 20 / 26 2013/01/26 2つの平均値を比較する 3. 2つの平均値を比較する 2つの比較の前に:P.17の前提3つをチェック!
  16. 【謎のデータ分析】 手順1. 等分散チェック 21 / 26 2013/01/26 2つの平均値を比較する 3. 2つの平均値を比較する

    > ls() [1] "geneki" "ronin" > > var.test(geneki, ronin) F test to compare two variances data: geneki and ronin F = 1.2459, num df = 411733, denom df = 102932, p-value < 2.2e-16 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 1.235178 1.256706 sample estimates: ratio of variances 1.245919 等分散の確率 ⇒小さいので異分散
  17. 【謎のデータ分析】 手順2. Welchの検定 22 / 26 2013/01/26 2つの平均値を比較する 3. 2つの平均値を比較する

    > t.test(geneki,ronin, var.equal=FALSE) Welch Two Sample t-test data: geneki and ronin t = -197.3022, df = 172848.2, p-value < 2.2e-16 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -23.64578 -23.18061 sample estimates: mean of x mean of y 120.8260 144.2392 差=0の確率は小さい ⇒差≠0 平均値が異なる!
  18. 【ご参考】 等分散の場合の検定 23 / 26 2013/01/26 2つの平均値を比較する 3. 2つの平均値を比較する >

    t.test(geneki, ronin, var.equal=TRUE) Two Sample t-test data: geneki and ronin t = -184.739, df = 514665, p-value < 2.2e-16 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -23.66159 -23.16480 sample estimates: mean of x mean of y 120.8260 144.2392
  19. • 対応のあるデータって? 母集団を、何かを施術/未施術 で分割したペア 例:怒涛の英語力が身につく学校に 行った/行かなかった 場合の比較 • この場合は、検定統計量が異なる •

    Rでは、t.test(x, y, paired=TRUE) とする • Rでの実例は、P.150~156を参照 【補足】対応のあるt検定 24 / 26 2013/01/26 2つの平均値を比較する 3. 2つの平均値を比較する
  20. で、データの入手源 → 下記コードだったり… 25 / 26 2013/01/26 2つの平均値を比較する 3. 2つの平均値を比較する

    set.seed(666) # 同一乱数生成 # 初期乱数付与 geneki <- rnorm(n=519867*.792, mean=123.3, sd=40) ronin <- rnorm(n=519867*.198, mean=152.2, sd=30) # 全数値が0~200になるまで乱数で置換 while( length(which(geneki<0|geneki>200)) ) { geneki <- replace(geneki, which(geneki<0|geneki>200) , rnorm(length(which(geneki<0 | geneki>200)), mean=123.3, sd=40)) } while( length(which(ronin<0|ronin>200)) ) { ronin <- replace(ronin, which(ronin<0|ronin>200) , rnorm(length(which(ronin<0 | ronin>200)), mean=50, sd=60)) } # 整数置換 geneki <- round(geneki); ronin <- round(ronin) 数値参考源: • 昨年のセンター試験 • ベネッセ・駿台の 自己採点集計 実は:両母集団とも 正規分布でない…
  21. 26 / 26 2013/01/26 2つの平均値を比較する まとめ • Welch検定/t検定: 2つの母集団に差がある?を知りたい •

    検定で重要なこと: 検定統計量の仮定に当てはまる? • Rのコマンド: 1. 等分散か?: var.test 2. 差がある? : t.test(x, y, var.equal=FALSE / TRUE)