Slide 28
Slide 28 text
6. 仮説検定
-独立性の検定(カイ二乗検定)-
28
仮説
を立てる
例1
性別と血液型
の関連
例2
新商品購入と
年代の関連
仮説:
性別と血液型は独立では
ない(関連がある)
↓
帰無仮説:
性別と血液型は独立で
ある(関連がない)
帰無仮説
を立てる
有意水準を
設定する
データを
確認する
検定統計量が従う
分布を確認する
検定統計量
を計算する
棄却域を計算する
検定統計量が棄却域内
にあるか確認する
有意水準
:5%
仮説:
ある新商品の購入有無と
年代は独立ではない
(関連がある)
↓
帰無仮説:
ある新商品の購入有無と
年代は独立である
(関連がない)
男女100人ずつに
アンケートを取った
結果、
男性:[A型, O型,
B型, AB型] =
[55,22,16,7]、
女性:[A型, O型,
B型, AB型] =
[40,32,24,4]
であった。
1000人に
アンケートを取った
結果、
20代:[購入した,
購入していない] =
[90,410]、
30代:[購入した,
購入していない] =
[110,390]
であった。
検定統計量𝑍は、
𝑚行 × 𝑛列のデータで
自由度(𝒎 − 𝟏) × (𝒏 − 𝟏)の
𝝌𝟐分布に従い、
𝒁 =
(理論値 − 実績値)𝟐
理論値
で算出される。
𝑍 = 6.639
𝑍 = 2.5
自由度
2 − 1 × 4 − 1 = 3
のχ2分布の有意水準
5%(上側)の閾値は、
χ2分布表を確認すると
7.815
→棄却域は、 𝑍 ≥ 7.815
自由度
2 − 1 × 2 − 1 = 1
のχ2分布の有意水準
5%(上側)の閾値は、
χ2分布表を確認すると
3.841
→棄却域は、 𝑍 ≥ 3.841
𝑍 = 6.639 < 7.815で
あり、棄却域に入って
いないため、
帰無仮説は受容される。
→「性別と血液型は
独立ではない
(関連がある)」
とは言えない。
𝑍 = 2.5 < 3.841で
あり、棄却域に入って
いないため、
帰無仮説は受容される。
→「ある新商品の
購入有無と年代は
独立ではない
(関連がある)」
と言えない。
※期待度数による理論値の算出方法:
(𝑖, 𝑗) の理論値は 𝑓𝑖𝑓𝑗
𝑛
で計算される。 95 × 100
200
= 47.5
独立性の検定とは、「2つのカテゴリ変数が互いに独立しているのか(あるいは関連しているのか)」を判断するための統計的検定方法のこと。
例えば、「性別と血液型に関連があるのか」や「新商品の購入有無と年代に関連があるのか」など。