Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データマイニング入門 その2 統計検定編 / data_mining_2_t-test

stkdev
January 01, 2015

データマイニング入門 その2 統計検定編 / data_mining_2_t-test

某所で実施したR言語/データマイニング超入門用資料。

【slideshareからのお引越しです】
https://www.slideshare.net/takosumipasta/ss-46657555

stkdev

January 01, 2015
Tweet

More Decks by stkdev

Other Decks in Science

Transcript

  1. 1. 母集団と標本 • 今日のお題 調査対象全部 ↓ 母集団 調査対象から 抽出 ↓

    標本 同じ母集団から抽出された標本でも 違いは出る その違い込みで標本の評価を する必要がある
  2. 2. t検定の流れ • 今日のお題 2群の平均に差があるかどうかを評価する ↓ t検定 例: ・2回のアンケートで支持率は本当に変化し たといえる?

    ・地域ごとにアンケートしての差があるか見 たい ・薬を飲んだグループと飲んでないグループ で効果測定したい とりあえず実例へ… 支持率60% 支持率59% この差は誤差の範囲? ほんとに低下?
  3. 3. Excelで実習してみる – 比較対象 • テーマ例: MLBのほうがNPBに比べてホームランがたくさん飛び交ってそうな 気がしますが統計的に正しいでしょうか? 検定の流れ 仮定(帰無仮説):

    MLBとNPBの本塁打率に差がないと仮定する ⇒MLB選手の平均本塁打率とNPBの平均本塁打率が あまり変わらないはず MLB/NPBそれぞれで分布を確認し、t検定を行う MLB/NPBの差がどの程度の確率で起こりうるものか判明 5%未満なら仮説を棄却 = 同一の母集団ではない = MLBとNPBで有意な差がある
  4. 3. Excelで実習してみる – 検定実施 • テーマ例: MLBのほうがNPBに比べてホームランがたくさん飛び交ってそうな 気がしますが統計的に正しいでしょうか? (Excel実施中) 観測数146と58で

    平均値にこの程度の差が出る確率は 58%程度 ↓ よくあることらしい (5%未満だと帰無仮説を棄却する) 結論:MLBとNPBの本塁打率に統計的に有意な差はないらしい