Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
統計の基礎5t検定
Search
xjorv
January 28, 2021
Education
0
330
統計の基礎5 t検定
統計の基礎5では、平均値の差の検定である、t検定について説明します。
xjorv
January 28, 2021
Tweet
Share
More Decks by xjorv
See All by xjorv
コンパートメントモデル
xjorv
1
5.4k
コンパートメントモデルをStanで解く
xjorv
0
440
生物学的同等性試験 検出力の計算法
xjorv
0
3.4k
生物学的同等性試験ガイドライン 同等性パラメータの計算方法
xjorv
0
6k
粉体特性2
xjorv
0
2.4k
粉体特性1
xjorv
0
2.8k
皮膜5
xjorv
0
2.2k
皮膜4
xjorv
0
2.1k
皮膜3
xjorv
0
2.1k
Other Decks in Education
See All in Education
Info Session MSc Computer Science & MSc Applied Informatics
signer
PRO
0
180
技術勉強会 〜 OAuth & OIDC 入門編 / 20250528 OAuth and OIDC
oidfj
5
1.2k
予習動画
takenawa
0
4.2k
2025/06/05_読み漁り学習
nag8
0
130
技術文章を書くための執筆技術と実践法(パラグラフライティング)
hisashiishihara
18
6.5k
Case Studies and Course Review - Lecture 12 - Information Visualisation (4019538FNR)
signer
PRO
1
2k
プレゼンテーション実践
takenawa
0
4k
i-GIP 2025 中高生のみなさんへ資料
202200
0
480
自己紹介 / who-am-i
yasulab
PRO
3
5.2k
SkimaTalk Teacher Guidelines
skimatalk
0
780k
Avoin jakaminen ja Creative Commons -lisenssit
matleenalaakso
0
1.9k
仮説の取扱説明書/User_Guide_to_a_Hypothesis
florets1
4
290
Featured
See All Featured
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
4
200
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
137
34k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
8
790
Visualization
eitanlees
146
16k
Bash Introduction
62gerente
614
210k
Embracing the Ebb and Flow
colly
86
4.7k
Site-Speed That Sticks
csswizardry
10
650
Art, The Web, and Tiny UX
lynnandtonic
299
21k
Producing Creativity
orderedlist
PRO
346
40k
Optimising Largest Contentful Paint
csswizardry
37
3.3k
Scaling GitHub
holman
459
140k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Transcript
統計の基礎5 t検定 2020/8/22 Ver. 1.0
t検定とは? 平均の差を調べる検定法 • 集団は正規分布し、分散が同じと仮定(等分散*) • t分布を利用した検定法 • 帰無仮説を「差がない」とする *分散の仮定の無い場合のt検定もある
t分布 標本が小さい時の母平均推定に用いられる分布 = ҧ − / • 分母は標準誤差 • 分子は標本平均と母平均の差
tの分布がt分布となる t: t統計量、: 母平均、 ҧ : 標本平均、S: 標本の標準偏差、n: 標本数
t分布の形 自由度がパラメータとなる • 自由度が小さいと幅がやや広くなる • 自由度が無限大に近づくと正規分布 になる
自由度とは? 変数のうち、独立に選ぶことができるものの数 • 不偏分散のn-1は自由度 • t分布の自由度もn-1* *不偏分散を仮定するため、不偏分散の自由度n-1と同じになる
平均値の信頼区間 母平均の信頼区間はt分布*で求める *母分散が未知のとき。既知なら正規分布で求める *任意でよいが、普通は95%信頼区間を求めることが多い • 平均値を求める標本の数はn • t分布の自由度はn-1になる • α%信頼区間として求める(
αは任意の数*) ത − −1 2 ∙ ≤ ≤ ത + −1 ( 2 ) ∙
信頼区間の求め方 古典的には分布表*から求める • 信頼区間と自由度、範囲を記載したテーブル • RやPythonなら計算ができる Rでの計算例(1,2,3,4,5の95%信頼区間) *http://www2.vmas.kitasato-u.ac.jp/lecture0/statistics/ttest.pdf
一群のt検定 母平均がある値でない可能性について検定する (*これは正規分布なので少し違う) • 帰無仮説: 平均が0 • t統計量が4.24、自由度は4 • p値が0.01324
*alternative hypothesisは対立仮説で、帰無仮説の棄却により得られるもの
p値の意味 t分布の範囲の割合のこと • 左図は自由度4のt分布 • t統計量 4.24、-4.24に縦線 • 赤線の外側になる確率がp値 t分布は平均値の信頼区間を示す
p値の意味2 t分布は平均値の信頼区間を示す 平均が0と仮定したとき • 1,2,3,4,5の母平均が0になる確率がp値 • とても低い(1.324%) 低いため、仮定は矛盾する 帰無仮説は棄却できるとする
p値と帰無仮説の棄却 p値が低いと棄却できる • 一般的に0.05以下なら棄却できるとする • 棄却できたとき、有意な差があるとされる • 0.05には特に意味はない(低いとは言える)
過誤 p値は平均値が0である確率だったので、 • 0.05なら、5%は0であると言える • 仮説の棄却が間違いである可能性が5%ある このような仮説検定の間違いを 過誤 と呼ぶ
第一の過誤と第二の過誤 過誤には2種類がある 棄却する 棄却しない 実際に 差がある 有意な差 棄却しなかったが 実際には差がある 実際に
差がない 棄却したが 実際には差がない 差があるとは言えない • 青を第一の過誤(偽陽性)と呼ぶ • オレンジを第二の過誤(偽陰性)と呼ぶ
p値とサンプルサイズ サンプルが多くなると、p値は小さくなる 例)Rで平均0.25、標準偏差1の正規乱数からサンプルを取り、p値を計算* • 3個 • 5個 • 20個 •
50個 • 100個 0.606 0.326 0.246 0.239 0.076 *たまたまうまくいくが、本来1000回ぐらい繰り返し計算しないとまともな値にはならない
サンプルサイズとt統計量 = ҧ − / t統計量は標本平均と母平均の差を標準誤差で割ったもの 標準誤差 • 標準誤差はサンプルサイズと共に小さくなる •
t統計量は大きくなり、p値は小さくなる サンプルサイズが大きければ、差が出やすくなる *帰無仮説では、μを0と仮定している
検出力 第二の過誤を除き、有意差を検出できる確率のこと (偽陰性) = 1 − 検出力は0.8以上が好ましい*とされる *特に理由があるわけではない power: 検出力、β:
第二の過誤の起こる確率
検出力の図示と計算 図の赤色部がp値、青色部が第二の過誤 • 分布から青色を除いた部分が検出力 • 計算はRで行うのが簡単
例数 所定の検出力を達成するために必要なサンプル数のこと 例)平均の差が1、標準偏差が1、p=0.05のとき、検出力0.8を達成する 例数は17となる
線形回帰: 傾きの有意性 傾きがゼロでないことはt検定で調べる • 傾きがゼロであれば、2値に関係はない • 相関係数のほうが一般的 これがt検定の結果
2つの平均値の差の検定 差 平均値の差の分布がゼロより大きい・小さいことを示す 一群の平均値の検定と同じ問題である
効果量(Cohen’s d) t検定では、差の有意性は検定するが、差の大きさは示さない 差の大きさ(効果量)はCohen’s dとして示す = ҧ 2 − ҧ
1 1 2 + 2 2 2 ҧ : 各群の平均値、s: 各群の標準偏差 dはばらつきを考慮した場合の差の大きさを示す
片側と両側検定 平均値の差の分布がゼロより大きい・小さいことを示す どちらかが必ず大きいことがわかっているとき 大/小の両方を検証する必要はない 片方が大きいことが明らかな場合には、 大きいことだけ検証(片側検定) を利用できる
片側と両側検定 片側検定では、検証するt統計量が片方のみとなる 片側のほうがp値が小さくなる
まとめ • t検定は仮説検定法の一つ • ある値と平均値の差を検定する • サンプル数に依存して結果が変わる • 平均値の差、回帰曲線の傾きの検定にも使われる