Slide 1

Slide 1 text

データマイニング 入門編 その2 、・。・、~~ れっつごー

Slide 2

Slide 2 text

Index ☆今日は統計的なとこ 1. 母集団と標本 2. t検定の流れ 3. Excelで実習してみる 3.1 比較対象の決定 3.2 分布の確認 3.3 検定実施 4. まとめ

Slide 3

Slide 3 text

1. 母集団と標本 • ほんとに低下したと言えるかどうか • 妥当性の確認が必要 無作為に電話で100人に聞きました。 ○○を支持しますか? 1月 支持率60% 3月 支持率59% 支持率が低下しました! ○よくあるこういう調査

Slide 4

Slide 4 text

1. 母集団と標本 • 統計学にもビッグデータにも言える考え方 – 本当に正確な結果を得るためには全データを見るしかない 1億人以上 全員に聞いて回るのは現実 的ではないので 対象人数を絞る ビッグデータ 大量すぎて 全部処理できない 一部のデータから規則を 見つける 一部から 全体を推測する

Slide 5

Slide 5 text

1. 母集団と標本 • 今日のお題 調査対象全部 ↓ 母集団 調査対象から 抽出 ↓ 標本 同じ母集団から抽出された標本でも 違いは出る その違い込みで標本の評価を する必要がある

Slide 6

Slide 6 text

2. t検定の流れ • 今日のお題 2群の平均に差があるかどうかを評価する ↓ t検定 例: ・2回のアンケートで支持率は本当に変化し たといえる? ・地域ごとにアンケートしての差があるか見 たい ・薬を飲んだグループと飲んでないグループ で効果測定したい とりあえず実例へ… 支持率60% 支持率59% この差は誤差の範囲? ほんとに低下?

Slide 7

Slide 7 text

3. Excelで実習してみる • 今日のサンプルデータ [野球]メジャーリーグとプロ野球を比較してみる … … 2014年メジャーリーグとプロ野球の打撃個人記録を使ってみます 規定打席に到達した選手のデータです

Slide 8

Slide 8 text

3. Excelで実習してみる – 比較対象 • テーマ例: MLBのほうがNPBに比べてホームランがたくさん飛び交ってそうな 気がしますが統計的に正しいでしょうか? 検定の流れ 仮定(帰無仮説): MLBとNPBの本塁打率に差がないと仮定する ⇒MLB選手の平均本塁打率とNPBの平均本塁打率が あまり変わらないはず MLB/NPBそれぞれで分布を確認し、t検定を行う MLB/NPBの差がどの程度の確率で起こりうるものか判明 5%未満なら仮説を棄却 = 同一の母集団ではない = MLBとNPBで有意な差がある

Slide 9

Slide 9 text

3. Excelで実習してみる – 分布確認 • テーマ例: MLBのほうがNPBに比べてホームランがたくさん飛び交ってそうな 気がしますが統計的に正しいでしょうか? 試合数や打数に差があるため、本塁打数自体を比較するのは良くない 今回は 本塁打数/打数=本塁打率 を基準にします

Slide 10

Slide 10 text

補足(Excelで分布の確認)

Slide 11

Slide 11 text

補足(Excelで分布の確認)

Slide 12

Slide 12 text

3. Excelで実習してみる – 検定実施 • テーマ例: MLBのほうがNPBに比べてホームランがたくさん飛び交ってそうな 気がしますが統計的に正しいでしょうか? (Excel実施中) 観測数146と58で 平均値にこの程度の差が出る確率は 58%程度 ↓ よくあることらしい (5%未満だと帰無仮説を棄却する) 結論:MLBとNPBの本塁打率に統計的に有意な差はないらしい

Slide 13

Slide 13 text

補足(Excelでt検定)

Slide 14

Slide 14 text

補足(Excelでt検定)

Slide 15

Slide 15 text

4. まとめ • 一部のデータを使って全体を推定する場合、統 計的な考え、確率的な考えが必要 • データの妥当性を調べるために検定を使うのは 有効な手段