Slide 1

Slide 1 text

頻度主義統計学を「完全に理解」しよう

Slide 2

Slide 2 text

上野彰大 大阪府堺市生まれ・育ち 東京大学大学院農学生命科学研究科卒 PharmaX取締役・エンジニア責任者 (旧YOJO Technologies) 自己紹介 Twitter:@ueeeeniki

Slide 3

Slide 3 text

(C)PharmaX Inc. 2022 All Rights Reserve 3 会社名変更&プレスリリースのお知らせ

Slide 4

Slide 4 text

(C)PharmaX Inc. 2022 All Rights Reserve 4 カジュアルにお話しませんか?

Slide 5

Slide 5 text

● この勉強会のモチベーションとゴール ● 統計学入門 〜統計学・統計モデリングとは何か?〜 ● 頻度主義統計学入門 〜頻度主義的考え方〜 ○ 点推定 ○ 区間推定 ○ 統計的仮説検定 ● まとめ アジェンダ

Slide 6

Slide 6 text

参考・オススメ文献 ● 頻度主義統計学 ○ 心理統計学の基礎 ○ Rによるやさしい統計学 ○ データ分析に必須の知識・考え方 統計学入門 仮説検定から統計モデリングまで重要トピックを完 全網羅 ● 統計学の哲学 ○ 統計学を哲学する

Slide 7

Slide 7 text

推奨する前提知識 ● 下記については補足をするが、ある程度の知識があることが望ましい ○ 頻度主義統計学の基礎知識(母集団の推定、検定など用語を知っていている 程度) ○ 高校程度の数学知識(簡単な確率計算にアレルギーを感じない程度) ● 仮に詳細が理解できない箇所があったとしても、議論の大枠を理解することは可能 です

Slide 8

Slide 8 text

この勉強会のモチベーションとゴール

Slide 9

Slide 9 text

統計学史上最大の論争 頻度主義統計学 (古典統計学) ベイズ統計学 VS

Slide 10

Slide 10 text

統計学的主義を巡る150年以上に渡る論争 ● 頻度主義統計学者たちは、徹底的にベイズ統計学を批判してきた(「頻度主義にあら ずんば統計学にあらず」) ● (頻度主義vsベイズ主義の)論争の中で人類が向き合ったのは、「人は証拠をどのよ うに分析し、(中略)不確かな状況下でいかに合理的な決定を下すのか」という問題 (『異端の統計学ベイズ』) ● 両者では、 ①何に確率を適用しているのか(確率とは何か) ② どのように推論を行うのか、何を持って推論できていると見なすのか(推論すると はどういういことか) が異なる 参考:『統計初心者がベイズ統計学に入門するまでの勉強法 』(私記事)

Slide 11

Slide 11 text

頻度主義への批判とベイズ主義の台頭 ● 頻度主義統計学の最も便利なツールである「統計学的仮説検定」の「p値」「有意性」 が批判にさらされており、ベイズ統計学が見直されてきた ○ 科学的な結論やビジネス・政策上の決定は、「 p値が特定の閾値を超えたかどうか」だけに基づいて 行われるべきではない(『 The ASA Statement on p-Values: Context, Process, and Purpose』) ● 頻度主義統計学は論理が回りくどく、本質を理解するのが非常に難しい(個人の感 想) ○ 古典統計(=頻度主義統計学)の核となる検定のロジックはやや込み入っており、直感的に理解しに くい(『統計学を哲学する』) ● ベイズ統計学の台頭に伴い、「統計学といえば頻度主義統計学を指す」というほど の地位は失いつつあるが、今なお多くの学問分野で頻度主義統計学が使われ続け てる ○ 日本の大学でまず習うのは頻度主義統計学

Slide 12

Slide 12 text

● 一方で、どちらが正しい主義かという問いに意味はなく、好きな主義と好きな方法を 使うことができる(『統計学入門 「主義」を心配するみなさまに』) ○ 必要なときに必要な方の考え方を使えばいい(『 「頻度論」の学者と「ベイズ論」の学者が対 談したら』) 統計学の主義論争についての注釈

Slide 13

Slide 13 text

この勉強会の目的・ゴール ● 頻度主義統計学であろうと、ベイズ統計学であろうと変わらない「統計学的な考え方」 の本質を理解する ○ そもそも統計学とはどういう学問で、何のために学ぶのか を理解せずに数学的な理論だ けを学ぶからツラくなる ● 頻度主義統計学の各推論手法の理論を「完全に理解する」 ○ 実際に使えるようになるにはプログラミングやデータの前処理などの知識も必要だが、まず は全体像をざっくり掴んで欲しい ● 頻度主義統計学のロジックの癖や落とし穴を丁寧に理解し、自学するのがグッと楽 になる ○ どこが分かりにくく、勘違いしやすいポイントなのかを重点的に解説する

Slide 14

Slide 14 text

この勉強会の裏テーマ・思惑 ● データサイエンスの流行によって「機械学習は理解してるけど、統計学は理解してい ない」という人が多すぎて悲しい、もっと統計学の面白さを広めたい ● 個人的にはベイズ統計学が大好きだが、今の統計学教育の状況を鑑みるにベイズ 統計学を勉強するのにも、頻度主義をきちんと勉強するのが効率がいい ○ 本来、統計学としてベイズ統計学から学び始めることは可能なはずだが、世の中に溢れて いる多くの「統計学入門」は頻度主義統計学を念頭に置いている ■ ベイズ統計学入門は、「統計入門」ではなく、あくまで「ベイズ統計学入門」と呼ばれる ○ 多くの「ベイズ統計学入門」の教科書・記事などは、頻度主義との違いについて書かれてお り、ベイズ主義を深く理解するためには、頻度主義との違いを意識しながら勉強していく方 が効率がよい

Slide 15

Slide 15 text

記述統計学 頻度主義統計学 ベイズ統計学 推 測 し な い 推 測 す る 統計学の分類 得られたデータの 統計的性質を分 析・可視化するこ とでデータの特徴 を捉える 得られたデータの みから、そのデー タが発生したした 背後のシステムを 推測する 推測統計学

Slide 16

Slide 16 text

統計学の分類(推測統計学を狭義に捉える場合もある) 記述統計学 頻度主義統計学 ベイズ統計学 推 測 し な い 推 測 す る 得られたデータの 統計的性質を分 析・可視化するこ とでデータの特徴 を捉える 得られたデータの みから、そのデー タが発生したした 背後のシステムを 推測する 推測統計学

Slide 17

Slide 17 text

記述統計学 頻度主義統計学 ベイズ統計学 推 測 し な い 推 測 す る 統計学の分類(今回はこちらの定義を採用) 統計学の 本丸 推測統計学 得られたデータの 統計的性質を分 析・可視化するこ とでデータの特徴 を捉える 得られたデータの みから、そのデー タが発生したした 背後のシステムを 推測する

Slide 18

Slide 18 text

● この勉強会のモチベーションとゴール ● 統計学入門 〜統計学・統計モデリングとは何か?〜 ● 頻度主義統計学入門 〜頻度主義的考え方〜 ● ベイズ統計学入門 〜ベイズ主義と頻度主義との違い〜 アジェンダ

Slide 19

Slide 19 text

統計学入門 〜統計学・統計モデリングとは何か?〜

Slide 20

Slide 20 text

統計学とは何か? ● データの背後に潜む規則や構造を抽出する(モデリングする)ことによって、現象の 理解や未知の現象に対する予測を行う

Slide 21

Slide 21 text

統計学とは何か? ● データの背後に潜む規則や構造を抽出する(モデリングする)ことによって、現象の 理解や未知の現象に対する予測を行う 規則や構造を抽出 ②未知の現象に対する予測を行う 統計モデリング & パラメータの推定 ① 現象を理解する ● 確率分布を用いてデータの背後に潜む規則や構造を抽出する(= 統計モデリング とパラメータの推定を行う)ことによって、現象の理解や未知の現象に対する予測を 行う

Slide 22

Slide 22 text

データを抽出 母集団 標本 頻度主義

Slide 23

Slide 23 text

データを抽出 母集団 標本 頻度主義

Slide 24

Slide 24 text

「真の」確率モデル 正規分布 データを抽出 母集団 標本 頻度主義 μ σ2 ① 母集団の分布が正規分布なのでは ないかと仮定する

Slide 25

Slide 25 text

「真の」確率モデル 正規分布 データを抽出 母集団 標本 頻度主義 μ σ2 統計モデリング ①’ 母集団から確率的に発生した と見なす ① 母集団の分布が正規分布なのでは ないかと仮定する S2

Slide 26

Slide 26 text

「真の」確率モデル 正規分布 データを抽出 母集団 標本 頻度主義 μ σ2 ① 母集団の分布が正規分布なのでは ないかと仮定する 推定された確率モデル 正規分布 μ* σ*2 統計モデリング ①’ 母集団から確率的に発生した と見なす ② 標本統計量(標本平均と標本分散)から母集団の確率モデル=母 集団分布のパラメータ(母平均と母分散)を推定 S2

Slide 27

Slide 27 text

「真の」確率モデル 正規分布 データを抽出 母集団 標本 頻度主義 μ σ2 ① 母集団の分布が正規分布なのでは ないかと仮定する 推定された確率モデル 正規分布 μ* σ*2 完 全 に 一 致 は し な い 統計モデリング ①’ 母集団から確率的に発生した と見なす S2 ② 標本統計量(標本平均と標本分散)から母集団の確率モデル=母 集団分布のパラメータ(母平均と母分散)を推定

Slide 28

Slide 28 text

「真の」確率モデル 正規分布 推定された確率モデル 正規分布 母集団 予測 完 全 に 一 致 は し な い 頻度主義 μ* σ*2 μ σ2 ③ データを予測 =確率的に発生させる

Slide 29

Slide 29 text

● (①)「今観測された事象(サンプル)は、背後にある確率モデルから確率的に発生 したと考える枠組み」=「統計モデリング」を導入し、 ● (②)その上で、背後にある確率モデルのパラメータをリーズナブルに推定する方法 を明らかにし、 ● (③)パラメータを推測した確率モデルを元に、新たな事象の「確率的な予測を行う」 =「予測分布を生成する」 統計学とは何をしてくれる学問なのか? 確率モデル ①サンプリング ③予測 ②推定 データD 未来のデータD’

Slide 30

Slide 30 text

記述統計学 頻度主義統計学 ベイズ統計学 推 測 し な い 推 測 す る 統計学の分類 推測統計学

Slide 31

Slide 31 text

記述統計学 ベイズ統計学 推 測 し な い 推 測 す る 統計学の分類 統計的推定 仮説検定 頻度主義統計学 推測統計学

Slide 32

Slide 32 text

点推定 区間推定 記述統計学 ベイズ統計学 推 測 し な い 推 測 す る 統計学の分類 仮説検定 頻度主義統計学 統計的推定 推測統計学 まずはここを 中心に

Slide 33

Slide 33 text

● この勉強会のモチベーションとゴール ● 統計学入門 〜統計学・統計モデリングとは何か?〜 ● 頻度主義統計学入門 〜頻度主義的考え方〜 ● ベイズ統計学入門 〜ベイズ主義と頻度主義との違い〜 アジェンダ

Slide 34

Slide 34 text

頻度主義統計学入門 〜頻度主義的考え方〜

Slide 35

Slide 35 text

● 統計的推測の課題は、「標本統計量の値をもとに、母数についてできるだけ正確な 推測をすること」(『心理統計学の基礎』) 頻度主義統計学の目的 データを抽出 母集団 標本 母数 (本当に知りたいもの) (標本から計算できるもの) 標本統計量 母平均 母分散 母相関係数 母比率 など 標本平均 標本分散 標本相関係数 標本比率 など 推定 頻度主義 点推定

Slide 36

Slide 36 text

今得られたサンプルの標本平均 データを抽出 母集団 標本 母平均μ 標本平均 頻度主義 点推定 問: たまたま得られたサンプルの標本平均 から母平均μをどのように推測するべきか? 標本統計量から母数を推測する方法

Slide 37

Slide 37 text

データを抽出 母集団 標本 母平均μ 標本平均 頻度主義 点推定 の値そのままでμを推測するのが直感的 問: たまたま得られたサンプルの標本平均 から母平均μをどのように推測するべきか? 標本統計量から母数を推測する方法 今得られたサンプルの標本平均

Slide 38

Slide 38 text

データを抽出 母集団 標本 母平均μ 標本平均 頻度主義 点推定 の値そのままでμを推測するのが直感的 なぜそのような推測が妥当なのかを数学的に説明でき るか? 問: たまたま得られたサンプルの標本平均 から母平均μをどのように推測するべきか? 標本統計量から母数を推測する方法 今得られたサンプルの標本平均

Slide 39

Slide 39 text

データを抽出 母集団 標本 標本平均 標本 標本 ・ ・ ・ 標本平均 標本平均 母平均μ 頻度主義 点推定 標本統計量から母数を推測する方法 問: たまたま得られたサンプルの標本平均 から母平均μをどのように推測するべきか? 今得られたサンプルの標本平均 は、 たまたまそのサンプルが選ばれたことに依 存する、一種の偶然の産物 (『心理統計学の基礎』)

Slide 40

Slide 40 text

データを抽出 母集団 標本 標本平均 標本 標本 ・ ・ ・ 標本平均 標本平均 母平均μ 頻度主義 点推定 標本統計量から母数を推測する方法 問: たまたま得られたサンプルの標本平均 から母平均μをどのように推測するべきか? 今得られたサンプルの標本平均 は、 たまたまそのサンプルが選ばれたことに依 存する、一種の偶然の産物 (『心理統計学の基礎』)

Slide 41

Slide 41 text

データを抽出 母集団 標本 標本平均 標本 標本 ・ ・ ・ 標本平均 標本平均 母平均μ 頻度主義 点推定 標本統計量から母数を推測する方法 問: たまたま得られたサンプルの標本平均 から母平均μをどのように推測するべきか? 標本統計量の値は サンプルごとに変動する 今得られたサンプルの標本平均 は、 たまたまそのサンプルが選ばれたことに依 存する、一種の偶然の産物 (『心理統計学の基礎』)

Slide 42

Slide 42 text

データを抽出 母集団 標本 標本平均 標本 標本 ・ ・ ・ 標本平均 標本平均 母平均μ 頻度主義 点推定 標本統計量から母数を推測する方法 問: たまたま得られたサンプルの標本平均 から母平均μをどのように推測するべきか? サンプル間でどのように 標本統計量が変動するのか? 今得られたサンプルの標本平均 は、 たまたまそのサンプルが選ばれたことに依 存する、一種の偶然の産物 (『心理統計学の基礎』)

Slide 43

Slide 43 text

データを抽出 母集団 標本 標本平均 標本 標本 ・ ・ ・ 標本平均 標本平均 母平均μ 頻度主義 点推定 標本統計量から母数を推測する方法 問: たまたま得られたサンプルの標本平均 から母平均μをどのように推測するべきか? サンプル間でどのように 標本統計量が変動するのか? 今得られたサンプルの標本平均 は、 たまたまそのサンプルが選ばれたことに依 存する、一種の偶然の産物 (『心理統計学の基礎』) どのように推定するのが リーズナブルか?

Slide 44

Slide 44 text

母集団が任意の分布の場合の標本平均の分布 母集団 「真の」確率モデル μ 母平均μ 母分散σ2

Slide 45

Slide 45 text

母集団 「真の」確率モデル データを抽出 n個 標本 μ 母集団が任意の分布の場合の標本平均の分布 母平均μ 母分散σ2

Slide 46

Slide 46 text

標本 母集団 「真の」確率モデル 確率的に発生している データを抽出 n個 μ 母集団が任意の分布の場合の標本平均の分布 母平均μ 母分散σ2

Slide 47

Slide 47 text

母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・ 標本の値 の分布 N回試行 μ 母集団が任意の分布の場合の標本平均の分布 母平均μ 母分散σ2

Slide 48

Slide 48 text

母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・ 標本の値 の分布 標本の値 の分布 μ 母集団が任意の分布の場合の標本平均の分布 母平均μ 母分散σ2

Slide 49

Slide 49 text

母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・ 標本の値 の分布 標本の値 の分布 μ 母集団が任意の分布の場合の標本平均の分布 母平均μ 母分散σ2

Slide 50

Slide 50 text

母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・ 標本の値 の分布 標本の値 の分布 標本平均 標本平均 の分布 μ 母集団が任意の分布の場合の標本平均の分布 母平均μ 母分散σ2

Slide 51

Slide 51 text

母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・ 標本の値 の分布 標本の値 の分布 標本平均 μ 母集団が任意の分布の場合の標本平均の分布 標本平均 の分布 母平均μ 母分散σ2

Slide 52

Slide 52 text

母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・ 標本の値 の分布 標本の値 の分布 標本平均 μ 母集団が任意の分布の場合の標本平均の分布 標本平均 の分布 母平均μ 母分散σ2 全くの別物

Slide 53

Slide 53 text

母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・ 標本の値 の分布 標本の値 の分布 標本平均 全くの別物 μ 母集団が任意の分布の場合の標本平均の分布 標本平均 の分布 母平均μ 母分散σ2

Slide 54

Slide 54 text

母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・ 標本の値 の分布 標本の値 の分布 標本平均 全くの別物 μ 母集団が任意の分布の場合の標本平均の分布 標本平均 の分布 母平均μ 母分散σ2

Slide 55

Slide 55 text

母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・ 標本の値 の分布 標本の値 の分布 標本平均 全くの別物 一致する μ 母集団が任意の分布の場合の標本平均の分布 標本平均 の分布 母平均μ 母分散σ2

Slide 56

Slide 56 text

母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・ 標本の値 の分布 標本の値 の分布 標本平均 全くの別物 一致する μ たまに母平均から大きくハズレてしまうことも あるが平均的には母平均に近い値をとる 母集団が任意の分布の場合の標本平均の分布 標本平均 の分布 母平均μ 母分散σ2

Slide 57

Slide 57 text

母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・ 標本の値 の分布 標本の値 の分布 標本平均 全くの別物 μ たまに母平均から大きくハズレてしまうことも あるが平均的には母平均に近い値をとる 今得られたサンプル 母集団が任意の分布の場合の標本平均の分布 標本平均 の分布 一致する 母平均μ 母分散σ2

Slide 58

Slide 58 text

母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・ 標本の値 の分布 標本の値 の分布 標本平均 全くの別物 たまに母平均から大きくハズレてしまうことも あるが平均的には母平均に近い値をとる 今得られたサンプル 母集団が任意の分布の場合の標本平均の分布 標本平均 の分布 一致する 母平均μ 母分散σ2 μ そのままの値で推定する

Slide 59

Slide 59 text

母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・ 標本の値 の分布 標本の値 の分布 標本平均 全くの別物 μ 今得られたサンプル 母集団が任意の分布の場合の標本平均の分布 標本平均 の分布 一致する 標本平均のように、期待値が推定したい母数に一 致する標本統計量を母数の 不偏推定量と呼ぶ 母平均μ 母分散σ2 そのままの値で推定する

Slide 60

Slide 60 text

母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・ 標本の値 の分布 標本の値 の分布 標本平均 全くの別物 μ 今得られたサンプル 母集団が任意の分布の場合の標本平均の分布 標本平均 の分布 一致する 標本平均のように、期待値が推定したい母数に一 致する標本統計量を母数の 不偏推定量と呼ぶ そのままの値で推定する (不偏推定) 母平均μ 母分散σ2

Slide 61

Slide 61 text

母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・ ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 母集団が任意の分布の場合の標本分散

Slide 62

Slide 62 text

母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・ ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 母集団が任意の分布の場合の標本分散

Slide 63

Slide 63 text

母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・ ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 標本分散 標本分散 の分布 母集団が任意の分布の場合の標本分散

Slide 64

Slide 64 text

母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・ ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 標本分散 標本分散 の分布 母集団が任意の分布の場合の標本分散

Slide 65

Slide 65 text

母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・ ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 標本分散 標本分散 の分布 母集団が任意の分布の場合の標本分散

Slide 66

Slide 66 text

母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・ ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 標本分散 標本分散 の分布 母集団が任意の分布の場合の標本分散

Slide 67

Slide 67 text

母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・ ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 標本分散 標本分散 の分布 一致しない 母集団が任意の分布の場合の標本分散

Slide 68

Slide 68 text

母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・ ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 標本分散 標本分散 の分布 一致しない 標本分散は母分散の 不偏推定量ではない 母集団が任意の分布の場合の標本分散

Slide 69

Slide 69 text

標本 標本 ・ ・ ・ 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本の値 の分布 標本の値 の分布 μ σ2 標本分散 標本分散 の分布 標本分散は母分散の 不偏推定量ではない 母集団が任意の分布の場合の標本分散 一致しない

Slide 70

Slide 70 text

標本 標本 ・ ・ ・ 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本の値 の分布 標本の値 の分布 μ σ2 標本分散 標本分散 の分布 標本分散は母分散の 不偏推定量ではない 母集団が任意の分布の場合の標本分散 標本分散で母分散を推測すると過小評価して しまう可能性がある 一致しない

Slide 71

Slide 71 text

母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・ ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 母集団が任意の分布の場合の不偏分散

Slide 72

Slide 72 text

母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・ ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 不偏分散 不偏分散 の分布 母集団が任意の分布の場合の不偏分散

Slide 73

Slide 73 text

母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・ ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 不偏分散 不偏分散 の分布 母集団が任意の分布の場合の不偏分散

Slide 74

Slide 74 text

母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・ ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 不偏分散 不偏分散 の分布 母集団が任意の分布の場合の不偏分散

Slide 75

Slide 75 text

母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・ ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 不偏分散 不偏分散 の分布 母集団が任意の分布の場合の不偏分散

Slide 76

Slide 76 text

母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・ ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 不偏分散 不偏分散 の分布 一致する 母集団が任意の分布の場合の不偏分散

Slide 77

Slide 77 text

母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・ ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 不偏分散 不偏分散 の分布 不偏分散は母分散の 不偏推定量になっている 一致する 母集団が任意の分布の場合の不偏分散

Slide 78

Slide 78 text

母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本の値 の分布 標本の値 の分布 μ σ2 不偏分散 不偏分散 の分布 不偏分散は母分散の 不偏推定量になっている 一致する 標本 標本 ・ ・ ・ 母集団が任意の分布の場合の不偏分散

Slide 79

Slide 79 text

母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本の値 の分布 標本の値 の分布 μ σ2 不偏分散 不偏分散 の分布 不偏分散は母分散の 不偏推定量になっている 一致する 標本 標本 ・ ・ ・ 母集団が任意の分布の場合の不偏分散 そのままの値で推定する (不偏推定)

Slide 80

Slide 80 text

母集団が任意の分布の標本分布 母集団 「真の」確率モデル μ 母平均μ 母分散σ2

Slide 81

Slide 81 text

母集団が任意の分布の標本分布 データを抽出 m個 母集団 ・ ・ ・ 「真の」確率モデル μ 母平均μ 母分散σ2

Slide 82

Slide 82 text

データを抽出 m個 母集団 ・ ・ ・ 母集団が任意の分布の標本分布 「真の」確率モデル μ 母平均μ 母分散σ2

Slide 83

Slide 83 text

データを抽出 m個 母集団 ・ ・ ・ 標本平均 母集団が任意の分布の標本分布 「真の」確率モデル μ 母平均μ 母分散σ2

Slide 84

Slide 84 text

データを抽出 m個 母集団 ・ ・ ・ μ 標本平均 一致する 母集団が任意の分布の標本分布 「真の」確率モデル μ 母平均μ 母分散σ2

Slide 85

Slide 85 text

データを抽出 m個 母集団 ・ ・ ・ μ 標本平均 ・ ・ ・ データを抽出 n個 m << n 一致する 母集団が任意の分布の標本分布 「真の」確率モデル μ 母平均μ 母分散σ2

Slide 86

Slide 86 text

データを抽出 m個 母集団 ・ ・ ・ μ 標本平均 ・ ・ ・ データを抽出 n個 m << n 一致する 母集団が任意の分布の標本分布 「真の」確率モデル μ 母平均μ 母分散σ2

Slide 87

Slide 87 text

データを抽出 m個 母集団 ・ ・ ・ μ 標本平均 ・ ・ ・ データを抽出 n個 m << n 一致する 母集団が任意の分布の標本分布 「真の」確率モデル μ 母平均μ 母分散σ2

Slide 88

Slide 88 text

データを抽出 m個 母集団 ・ ・ ・ μ 標本平均 ・ ・ ・ データを抽出 n個 m << n 一致する xxxxxxxのとき、正規分布xxxxxxxxに近づく 中心極限定理 母集団が任意の分布の標本分布 「真の」確率モデル μ 母平均μ 母分散σ2

Slide 89

Slide 89 text

データを抽出 m個 母集団 ・ ・ ・ μ 標本平均 ・ ・ ・ データを抽出 n個 m << n 一致する xxxxxxxのとき、正規分布xxxxxxxxに近づく 中心極限定理 母集団が任意の分布の標本分布 サンプル数nが大きくなるほど、 標本平均は母平均に 近い値を取る確率が大きくなる 「真の」確率モデル μ 母平均μ 母分散σ2

Slide 90

Slide 90 text

頻度主義統計学の推測に対する考え方まとめ ● 「母集団を真の確率分布を持つデータ発生装置とみなし、 真の確率分布から一個一個のデータ が発生してサンプルが構成されるという見方」=「頻度主義的統計モデリング」を導入した ○ サンプルは確率的に変動すると見なす一方で、母集団と母数は 実際に観測可能かどうかに関わら ず一意に決まるものと考える ● このような統計モデリングを導入した上で、標本統計量の性質を導くことで、標本統計量から母 数を推定するリーズナブルな推定方法(不偏推定や最尤推定法等)を提示する ○ 標本統計量から母数を推定する方法を提示するのに、先に母数と標本統計量の数学的な関係性を 熟知しておかなければならない

Slide 91

Slide 91 text

点推定 区間推定 記述統計学 ベイズ統計学 推 測 し な い 推 測 す る 統計学の分類 仮説検定 頻度主義統計学 統計的推定 推測統計学 ここを中心に 見てきた

Slide 92

Slide 92 text

点推定 区間推定 記述統計学 ベイズ統計学 推 測 し な い 推 測 す る 統計学の分類 仮説検定 頻度主義統計学 統計的推定 推測統計学 次はここを 見ていく

Slide 93

Slide 93 text

母集団が正規分布の場合の区間推定 母集団 「真の」確率モデル 正規分布xxxxxx μ σ2 母平均μ 頻度主義 区間推定

Slide 94

Slide 94 text

データを抽出 母集団 標本 標本 標本 ・ ・ ・ 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 標本平均 今得られたサンプルの標本平均 母集団が正規分布の場合の区間推定

Slide 95

Slide 95 text

データを抽出 母集団 標本 標本 標本 ・ ・ ・ 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 標本平均 今得られたサンプルの標本平均 μ 使って推定 母集団が正規分布の場合の区間推定

Slide 96

Slide 96 text

データを抽出 母集団 標本 標本 標本 ・ ・ ・ 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 標本平均 今得られたサンプルの標本平均 母集団が正規分布の場合の区間推定 μ 使って推定

Slide 97

Slide 97 text

データを抽出 母集団 標本 標本 標本 ・ ・ ・ 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 標本平均 今得られたサンプルの標本平均 点推定では、たまに真の μから 大きく外れてしまう 母集団が正規分布の場合の区間推定 μ 使って推定

Slide 98

Slide 98 text

データを抽出 母集団 標本 標本 標本 ・ ・ ・ 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 標本平均 今得られたサンプルの標本平均 この区間にならおそらく真の母平均が 入っていそうという区間を推定する 母集団が正規分布の場合の区間推定 区間推定で幅を持って推定する μ 使って推定

Slide 99

Slide 99 text

データを抽出 母集団 標本 標本 標本 ・ ・ ・ 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 標本平均 今得られたサンプルの標本平均 この区間にならおそらく真の母平均が 入っていそうという区間を推定する 母集団が正規分布の場合の区間推定 区間推定で幅を持って推定する μ 使って推定 95%の確率で母平均が含まれるような 区間を95%信頼区間という

Slide 100

Slide 100 text

母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 信頼度95%で μを推定せよ 母集団が(母分散既知の)正規分布の場合の区間推定

Slide 101

Slide 101 text

母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 データを抽出 信頼度95%で μを推定せよ 母集団が(母分散既知の)正規分布の場合の区間推定

Slide 102

Slide 102 text

母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 データを抽出 信頼度95%で μを推定せよ 母集団が(母分散既知の)正規分布の場合の区間推定 μ σ2

Slide 103

Slide 103 text

母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 母集団が(母分散既知の)正規分布の場合の区間推定 データを抽出 μ σ2 信頼度95%で μを推定せよ 1.96σ 1.96σ 95%

Slide 104

Slide 104 text

母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 母集団が(母分散既知の)正規分布の場合の区間推定 データを抽出 μ σ2 信頼度95%で μを推定せよ 1.96σ 1.96σ 95% 95%の確率で成立

Slide 105

Slide 105 text

母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 母集団が(母分散既知の)正規分布の場合の区間推定 データを抽出 μ σ2 信頼度95%で μを推定せよ 1.96σ 1.96σ 95% 95%の確率で成立

Slide 106

Slide 106 text

母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 母集団が(母分散既知の)正規分布の場合の区間推定 データを抽出 μ σ2 信頼度95%で μを推定せよ 1.96σ 1.96σ 95% 信頼度95%の信頼区間 95%の確率で成立

Slide 107

Slide 107 text

母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 データを抽出 信頼度95%で μを推定せよ 母集団が(母分散既知の)正規分布の場合の区間推定 μ σ2 信頼度95%の信頼区間 95%の確率で成立

Slide 108

Slide 108 text

母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 データを抽出 信頼度95%で μを推定せよ 母集団が(母分散既知の)正規分布の場合の区間推定 μ σ2 信頼度95%の信頼区間 95%の確率で成立

Slide 109

Slide 109 text

母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 データを抽出 信頼度95%で μを推定せよ 母集団が(母分散既知の)正規分布の場合の区間推定 μ σ2 信頼度95%の信頼区間 95%の確率で成立 よくある間違った主張は、 「こうして求めた信頼区間 の間に95%の確率で母平均が含ま れる」という主張

Slide 110

Slide 110 text

母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 データを抽出 信頼度95%で μを推定せよ 母集団が(母分散既知の)正規分布の場合の区間推定 μ σ2 信頼度95%の信頼区間 95%の確率で成立 今回得られたxxから計算された 信頼区間でこのような主張は不可 よくある間違った主張は、 「こうして求めた信頼区間 の間に95%の確率で母平均が含ま れる」という主張

Slide 111

Slide 111 text

母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 データを抽出 信頼度95%で μを推定せよ 母集団が(母分散既知の)正規分布の場合の区間推定 μ σ2 信頼度95%の信頼区間 95%の確率で成立 今回得られたxxから計算された 信頼区間でこのような主張は不可 100回抽出したうち95回前後は成立 = よくある間違った主張は、 「こうして求めた信頼区間 の間に95%の確率で母平均が含ま れる」という主張

Slide 112

Slide 112 text

母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 データを抽出 信頼度95%で μを推定せよ 母集団が(母分散既知の)正規分布の場合の区間推定 μ σ2 信頼度95%の信頼区間 95%の確率で成立 今回得られたxxから計算された 信頼区間でこのような主張は不可 = 何度もデータを取り出しそのたびに 信頼区間を求めれば、そのうちの 95%は その区間内に母平均を含む 100回抽出したうち95回前後は成立 よくある間違った主張は、 「こうして求めた信頼区間 の間に95%の確率で母平均が含ま れる」という主張

Slide 113

Slide 113 text

母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 母集団が(母分散既知の)正規分布の場合の区間推定 信頼度95%で μを推定せよ データを抽出 信頼度95%の信頼区間 95%の確率で成立 100回抽出したうち95回前後は成立 = μ

Slide 114

Slide 114 text

母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 母集団が(母分散既知の)正規分布の場合の区間推定 信頼度95%で μを推定せよ データを抽出 信頼度95%の信頼区間 μ x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 95%の確率で成立 100回抽出したうち95回前後は成立 =

Slide 115

Slide 115 text

母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 母集団が(母分散既知の)正規分布の場合の区間推定 信頼度95%で μを推定せよ データを抽出 信頼度95%の信頼区間 たまに外す μ x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 95%の確率で成立 100回抽出したうち95回前後は成立 =

Slide 116

Slide 116 text

母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 母集団が(母分散既知の)正規分布の場合の区間推定 信頼度95%で μを推定せよ データを抽出 信頼度95%の信頼区間 たまに外す データを抽出するたびに 95%信頼区間を 計算すればそのうちの 95%は母平均を含む μ x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 95%の確率で成立 100回抽出したうち95回前後は成立 =

Slide 117

Slide 117 text

母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 母集団が(母分散既知の)正規分布の場合の区間推定 信頼度95%で μを推定せよ データを抽出 信頼度95%の信頼区間 たまに外す データを抽出するたびに 95%信頼区間を 計算すればそのうちの 95%は母平均を含む μ x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 一度のデータ抽出で計算された信頼区間が 実際に母平均を含むかどうかは分からない 95%の確率で成立 100回抽出したうち95回前後は成立 =

Slide 118

Slide 118 text

母集団が正規分布の場合の標本分布 母集団 「真の」確率モデル 正規分布xxxxxx μ σ2 母平均μ 頻度主義 区間推定

Slide 119

Slide 119 text

母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 μ σ2 母平均μ 「真の」確率モデル 正規分布xxxxxx 頻度主義 区間推定

Slide 120

Slide 120 text

母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 μ σ2 母平均μ 「真の」確率モデル 正規分布xxxxxx 確率的に発生している と見なす 頻度主義 区間推定

Slide 121

Slide 121 text

母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・ μ σ2 母平均μ 標本の値 の分布 N回試行 「真の」確率モデル 正規分布xxxxxx 頻度主義 区間推定

Slide 122

Slide 122 text

母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・ μ σ2 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 頻度主義 区間推定

Slide 123

Slide 123 text

母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・ μ σ2 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 頻度主義 区間推定

Slide 124

Slide 124 text

母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・ μ σ2 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 標本平均 標本分布 (標本平均 の分布) 頻度主義 区間推定

Slide 125

Slide 125 text

母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・ μ σ2 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 標本平均 標本分布 (標本平均 の分布) 頻度主義 区間推定

Slide 126

Slide 126 text

母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・ μ σ2 標本平均 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 標本分布 (標本平均 の分布) 頻度主義 区間推定

Slide 127

Slide 127 text

母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・ μ σ2 標本平均 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 標本分布 (標本平均 の分布) 頻度主義 区間推定

Slide 128

Slide 128 text

母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・ μ σ2 標本平均 母平均μ 標本分布 (標本平均 の分布) 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 頻度主義 区間推定

Slide 129

Slide 129 text

母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・ μ σ2 μ 標本平均 母平均μ 標本分布 (標本平均 の分布) 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 頻度主義 区間推定

Slide 130

Slide 130 text

母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・ μ σ2 μ 標本平均 一致する 母平均μ 標本分布 (標本平均 の分布) 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 頻度主義 区間推定

Slide 131

Slide 131 text

母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・ μ σ2 標本平均 母平均μ 標本分布 (標本平均 の分布) 「真の」確率モデル 正規分布xxxxxx μ 頻度主義 区間推定

Slide 132

Slide 132 text

1.96 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・ μ σ2 μ 標本平均 母平均μ 標本分布 (標本平均 の分布) 「真の」確率モデル 正規分布xxxxxx 1.96 95% 頻度主義 区間推定

Slide 133

Slide 133 text

1.96 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・ μ σ2 μ 標本平均 母平均μ 標本分布 (標本平均 の分布) 「真の」確率モデル 正規分布xxxxxx 1.96 95% 頻度主義 区間推定

Slide 134

Slide 134 text

1.96 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・ μ σ2 μ 標本平均 母平均μ 標本分布 (標本平均 の分布) 「真の」確率モデル 正規分布xxxxxx 1.96 95% 頻度主義 区間推定

Slide 135

Slide 135 text

1.96 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・ μ σ2 μ 標本平均 母平均μ 標本分布 (標本平均 の分布) 「真の」確率モデル 正規分布xxxxxx 1.96 95% 信頼度95%の信頼区間 頻度主義 区間推定

Slide 136

Slide 136 text

1.96 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・ μ σ2 μ 標本平均 母平均μ 標本分布 (標本平均 の分布) 「真の」確率モデル 正規分布xxxxxx 1.96 95% 信頼度95%の信頼区間 データ1つの時と比べて n 分の1だけ区間が狭くなっている 頻度主義 区間推定

Slide 137

Slide 137 text

母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・ μ σ2 μ 標本平均 母平均μ 標本分布 (標本平均 の分布) 「真の」確率モデル 正規分布xxxxxx 頻度主義 区間推定 狭い区間であっても 95%の確率で 母平均が含まれる

Slide 138

Slide 138 text

● 点推定にしろ、区間推定にしろ、今回の推定がどの程度正しいのかは分からない(のだから問題 せずに) ○ 不偏推定は、何度もデータ抽出を抽出し、同じ操作を繰り返せば 、平均的には母数と等しく なる推定 ○ 信頼度◯◯%の信頼区間は、何度もデータを抽出し、同じ操作を繰り返せば 、その間に母 数が◯◯%入る区間の推定 ● 頻度主義統計学では、推定手法の数学的に妥当である場合に、その推定は正当である=その 推定が正しいと考える根拠がある、とみなす ○ ここでいう妥当である、妥当性があるとは、その推定方法を何度も繰り返せば推定対象を 「よく」捉えられることが数学的に証明できていることを言う ○ 頻度主義統計学とは、今回の推定がどの程度正しいのかは誰にも分からないのだから、 せめてより妥当な推定手法を考案しようというある意味割り切った学問 頻度主義統計学の推測に対する考え方まとめ②

Slide 139

Slide 139 text

点推定 区間推定 記述統計学 ベイズ統計学 推 測 し な い 推 測 す る 統計学の分類 仮説検定 頻度主義統計学 統計的推定 推測統計学 ここも軽く触 れておく

Slide 140

Slide 140 text

普通のコイン 表が出る確率1/4 レアコイン 表が出る確率3/4 10回投げた結果から どちらかを判断する 問題 この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある 日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインで あると判断して、このコインを買い取るだろうか。

Slide 141

Slide 141 text

普通のコイン 表が出る確率1/4 レアコイン 表が出る確率3/4 10回投げた結果から どちらかを判断する 帰無仮説 対立仮説 問題 この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある 日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインで あると判断して、このコインを買い取るだろうか。

Slide 142

Slide 142 text

普通のコイン 表が出る確率1/4 レアコイン 表が出る確率3/4 帰無仮説 対立仮説 真 問題 この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある 日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインで あると判断して、このコインを買い取るだろうか。

Slide 143

Slide 143 text

第一種の誤り 帰無仮説が真であるにも関わらず、それを誤って棄却してしまう =普通のコインであるにも関わらず、レアコインであると判断してしまう 普通のコイン 表が出る確率1/4 レアコイン 表が出る確率3/4 帰無仮説 対立仮説 真 問題 この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある 日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインで あると判断して、このコインを買い取るだろうか。

Slide 144

Slide 144 text

第一種の誤り 帰無仮説が真であるにも関わらず、それを誤って棄却してしまう =普通のコインであるにも関わらず、レアコインであると判断してしまう 普通のコイン 表が出る確率1/4 レアコイン 表が出る確率3/4 帰無仮説 対立仮説 普通のコインを高値で買わされてしまう 真 問題 この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある 日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインで あると判断して、このコインを買い取るだろうか。

Slide 145

Slide 145 text

第一種の誤り 帰無仮説が真であるにも関わらず、それを誤って棄却してしまう =普通のコインであるにも関わらず、レアコインであると判断してしまう 普通のコイン 表が出る確率1/4 レアコイン 表が出る確率3/4 帰無仮説 対立仮説 普通のコインを高値で買わされてしまう 真 問題 この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある 日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインで あると判断して、このコインを買い取るだろうか。

Slide 146

Slide 146 text

第一種の誤り 帰無仮説が真であるにも関わらず、それを誤って棄却してしまう =普通のコインであるにも関わらず、レアコインであると判断してしまう 普通のコイン 表が出る確率1/4 レアコイン 表が出る確率3/4 帰無仮説 対立仮説 普通のコインを高値で買わされてしまう 真 第二種の誤り 帰無仮説が偽であるにも関わらず、それを棄却しそびれる =レアコインであるにも関わらず、普通のコインであると判断してしまう 問題 この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある 日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインで あると判断して、このコインを買い取るだろうか。

Slide 147

Slide 147 text

第一種の誤り 帰無仮説が真であるにも関わらず、それを誤って棄却してしまう =普通のコインであるにも関わらず、レアコインであると判断してしまう 普通のコイン 表が出る確率1/4 レアコイン 表が出る確率3/4 帰無仮説 対立仮説 普通のコインを高値で買わされてしまう 真 第二種の誤り 帰無仮説が偽であるにも関わらず、それを棄却しそびれる =レアコインであるにも関わらず、普通のコインであると判断してしまう レアコインを安値で買えるチャンスを逃す 問題 この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある 日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインで あると判断して、このコインを買い取るだろうか。

Slide 148

Slide 148 text

0 1 10 2 3 4 5 6 7 9 8 θ=0.25 0.0 0.1 0.2

Slide 149

Slide 149 text

0 1 10 2 3 4 5 6 7 9 8 θ=0.25 閾値 帰無仮説を棄却する 0.0 0.1 0.2

Slide 150

Slide 150 text

0 1 10 2 3 4 5 6 7 9 8 θ=0.25 閾値 帰無仮説が真である場合に も、ある程度の確率で発生す るのに切り捨ててしまう 帰無仮説を棄却する 0.0 0.1 0.2

Slide 151

Slide 151 text

0 1 10 2 3 4 5 6 7 9 8 θ=0.25 閾値 帰無仮説が真である場合に も、ある程度の確率で発生す るのに切り捨ててしまう 第一種の誤りの確率は、 閾値以上の回数表が出る 合計確率α 帰無仮説を棄却する 0.0 0.1 0.2

Slide 152

Slide 152 text

0 1 10 2 3 4 5 6 7 9 8 θ=0.25 閾値 帰無仮説が真である場合に も、ある程度の確率で発生す るのに切り捨ててしまう 第一種の誤りの確率は、 閾値以上の回数表が出る 合計確率α 有意水準 = 帰無仮説を棄却する 0.0 0.1 0.2

Slide 153

Slide 153 text

0 1 10 2 3 4 5 6 7 9 8 θ=0.25 閾値 第一種の誤りの確率は、 閾値以上の回数表が出る 合計確率α 有意水準 = 帰無仮説を棄却する 0.0 0.1 0.2 帰無仮説が真である場合に も、ある程度の確率で発生す るのに切り捨ててしまう 有意水準とは、この検定方法を用いて(この閾値を設定して)帰無仮説を棄却することを繰り返した場合に 第一種の誤りが起こる確率であり、言わばこの検定の性質のようなもの。

Slide 154

Slide 154 text

有意水準とは、この検定方法を用いて(この閾値を設定して)帰無仮説を棄却することを繰り返した場合に 第一種の誤りが起こる確率であり、言わばこの検定の性質のようなもの。 例えば、「有意水準5%で帰無仮説が棄却されたのだから、このコインが普通のコインである確率は 5%以 下だ」というのがよくある勘違いだが、そのような確率を考えることはできない。 0 1 10 2 3 4 5 6 7 9 8 θ=0.25 閾値 第一種の誤りの確率は、 閾値以上の回数表が出る 合計確率α 有意水準 = 帰無仮説を棄却する 0.0 0.1 0.2 帰無仮説が真である場合に も、ある程度の確率で発生す るのに切り捨ててしまう

Slide 155

Slide 155 text

0 1 10 2 3 4 5 6 7 9 8 θ=0.25 C A B 0.0 0.1 0.2 α9.5✕10−5 % α7.8% α2.0% A B C 全部表だったときのみ帰無仮説を棄却する場合、第二種の誤りの確率 αは9.5✕10−5% 6回以上表だったとき帰無仮説を棄却する場合、第二種の誤りの確率 αは2.0% 5回以上表だったとき帰無仮説を棄却する場合、第二種の誤りの確率 αは7.8%

Slide 156

Slide 156 text

A 全部表だったときのみ帰無仮説を棄却する場合、第二種の誤りの確率 αは9.5✕10−5% B 6回以上表だったとき帰無仮説を棄却する場合、第二種の誤りの確率 αは2.0% C 5回以上表だったとき帰無仮説を棄却する場合、第二種の誤りの確率 αは7.8% 0 1 10 2 3 4 5 6 7 9 8 θ=0.25 C A B 有意水準α 5%以下 0.0 0.1 0.2 α9.5✕10−5 % α7.8% α2.0%

Slide 157

Slide 157 text

A 全部表だったときのみ帰無仮説を棄却する場合、第二種の誤りの確率 αは9.5✕10−5% B 6回以上表だったとき帰無仮説を棄却する場合、第二種の誤りの確率 αは2.0% C 5回以上表だったとき帰無仮説を棄却する場合、第二種の誤りの確率 αは7.8% 0 1 10 2 3 4 5 6 7 9 8 θ=0.25 C A B 有意水準α 5%以下 0.0 0.1 0.2 α9.5✕10−5 % α7.8% α2.0% 帰無仮説が真だった場合に 誤って棄却してしまう確率は 小さくなっていくが、 帰無仮説が偽だった場合に 誤って棄却されない確率は 大きくなっていく

Slide 158

Slide 158 text

0 1 10 2 3 4 5 6 7 9 8 θ=0.25 θ=0.75 0.0 0.1 0.2 0.0 0.1 0.2

Slide 159

Slide 159 text

0 1 10 2 3 4 5 6 7 9 8 θ=0.25 θ=0.75 閾値 帰無仮説を棄却する 帰無仮説を棄却しない 0.0 0.1 0.2 0.0 0.1 0.2

Slide 160

Slide 160 text

0 1 10 2 3 4 5 6 7 9 8 θ=0.25 θ=0.75 閾値 帰無仮説を棄却する 帰無仮説を棄却しない 0.0 0.1 0.2 0.0 0.1 0.2 真

Slide 161

Slide 161 text

0 1 10 2 3 4 5 6 7 9 8 θ=0.25 θ=0.75 0.0 0.1 0.2 0.0 0.1 0.2 閾値 帰無仮説を棄却する 帰無仮説を棄却しない 第一種の誤りの確率は、 閾値以上の回数表が出る 合計確率α 真

Slide 162

Slide 162 text

0 1 10 2 3 4 5 6 7 9 8 θ=0.25 θ=0.75 0.0 0.1 0.2 0.0 0.1 0.2 閾値 帰無仮説を棄却する 帰無仮説を棄却しない 第一種の誤りの確率は、 閾値以上の回数表が出る 合計確率α 真

Slide 163

Slide 163 text

0 1 10 2 3 4 5 6 7 9 8 θ=0.25 θ=0.75 0.0 0.1 0.2 0.0 0.1 0.2 閾値 帰無仮説を棄却する 帰無仮説を棄却しない 第一種の誤りの確率は、 閾値以上の回数表が出る 合計確率α 第二種の誤りの確率は、 閾値以下の回数表が出る 合計確率β 真

Slide 164

Slide 164 text

0 1 10 2 3 4 5 6 7 9 8 θ=0.25 θ=0.75 0.0 0.1 0.2 0.0 0.1 0.2 C A B α9.5✕10−5 % α7.8% α2.0% 真

Slide 165

Slide 165 text

0 1 10 2 3 4 5 6 7 9 8 θ=0.25 θ=0.75 0.0 0.1 0.2 0.0 0.1 0.2 C A B A 全部表だったときのみ帰無仮説を棄却する場合、第二種の誤りの確率 βは94.4% B 6回以上表だったとき帰無仮説を棄却する場合、第二種の誤りの確率 βは7.8% C 5回以上表だったとき帰無仮説を棄却する場合、第二種の誤りの確率 βは2.0% 真 β94.4% β2.0% β7.8% α9.5✕10−5 % α7.8% α2.0%

Slide 166

Slide 166 text

0 1 10 2 3 4 5 6 7 9 8 θ=0.25 θ=0.75 0.0 0.1 0.2 0.0 0.1 0.2 C A B 真 β94.4% β2.0% β7.8% α9.5✕10−5 % α7.8% α2.0% 第一種の誤りの確率と第二種の誤りの確率は トレードオフの関係にある

Slide 167

Slide 167 text

普通のコイン 表が出る確率1/4 レアコイン 表が出る確率3/4 問題 この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある 日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインで あると判断して、このコインを買い取るだろうか。 10回投げた結果から どちらかを判断する 帰無仮説 対立仮説

Slide 168

Slide 168 text

普通のコイン 表が出る確率1/4 レアコイン 表が出る確率3/4 帰無仮説 対立仮説 実際の検定の流れ 20回に1回程度は誤って帰無仮説を棄却してしまっても仕方が ないと考えるということ ① 有意水準を設定する(5%に設定されることが多い) 問題 この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある 日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインで あると判断して、このコインを買い取るだろうか。

Slide 169

Slide 169 text

このように得られたデータと同等かそれ以上に極端な値が得ら れる確率をp値と呼ぶ ある意味、得られたデータのあり得なさそうな程度を表す 普通のコイン 表が出る確率1/4 レアコイン 表が出る確率3/4 帰無仮説 対立仮説 実際の検定の流れ 20回に1回程度は誤って帰無仮説を棄却してしまっても仕方が ないと考えるということ ① 有意水準を設定する(5%に設定されることが多い) ② 今、コインを投げたところ6回表が出たとする 帰無仮説が正しいと仮定して、コインが 6回以上表が出る確率を計 算すると2.0%となる 問題 この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある 日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインで あると判断して、このコインを買い取るだろうか。

Slide 170

Slide 170 text

このように得られたデータと同等かそれ以上に極端な値が得ら れる確率をp値と呼ぶ ある意味、得られたデータのあり得なさそうな程度を表す 普通のコイン 表が出る確率1/4 レアコイン 表が出る確率3/4 帰無仮説 対立仮説 実際の検定の流れ 20回に1回程度は誤って帰無仮説を棄却してしまっても仕方が ないと考えるということ ① 有意水準を設定する(5%に設定されることが多い) ② 今、コインを投げたところ6回表が出たとする 帰無仮説が正しいと仮定して、コインが 6回以上表が出る確率を計 算すると2.0%となる ③ p値がαよりも小さいので、帰無仮説を棄却する 問題 この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある 日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインで あると判断して、このコインを買い取るだろうか。 帰無仮説が正しいとしたときには、あまり起こりにくいようなこと が今起こっていると考えていると言える

Slide 171

Slide 171 text

● 有意水準5%で帰無仮説が棄却されたということは、証明したい仮説が正しい確率が 95%である ということを意味しないし、仮説検定それ自体は、当該仮説の真偽について、直接的には何も判 断を下さない ○ 同じ状況に対して同じ検定を適用した時に、どの程度の割合で正しい答えを出すのかの頻度を表す にすぎない ● 有意水準や検出力といった確率はあくまで、仮説検定という手法自身の性質(「どれくらいの割 合で間違うか」)であって、 その適用対象である仮説の性質(「仮説の確からしさ」)や、 その個別な適用結果である判断の性質(「判断の確からしさ」)ではない ○ 頻度主義では「このコインを次投げて表が出る確率は 1/2である」という命題が意味をなさないのと同 様に、今まさに帰無仮説を棄却したという結果の正答率なるものを考えることはできない 頻度主義統計学の推測に対する考え方まとめ③:仮説検定

Slide 172

Slide 172 text

● 頻度主義統計学が主張するのは、あくまで推定手法の妥当性であるにも関わらず、それらの手 法によって推定された結果を我々人類は根拠あるものとして受け入れてきた ○ 点推定の結果は今回どの程度母数に近いのかは分からず、 区間推定によって推定された信頼区間は実際に母数を含んでいるのかは保証せず、 仮説検定それ自体は、当該仮説の真偽について、直接的には何も判断を下さないが、 統計学推定の推定結果を我々は意思決定に使っている ■ 例:統計的仮説検定に基づいて効果があると認識された医薬品薬を我々は飲んでいる ● これは、(意識しているかどうかに関わらず、)妥当な推定手法によって推定された結果には、 正しいと信じるべき一定の根拠があると了解しているということになる ○ 推定手法やプロセスが正しければ、真理に近づくことができるという共通認識を持っている (いい道具を使っていれば推定結果もある程度正しいはず) 頻度主義の正当化概念

Slide 173

Slide 173 text

頻度主義統計学の考え方・論理展開まとめ ● 頻度主義統計学は、確率をあくまで頻度として扱う ○ パラメータについての仮説・命題がどの程度正しそうかを確率的に表すことはできない ■ 「例:平均身長が170cm以上である確率、A群の平均の重さよりも B群の平均の重さの方が 大きい確率」といった確率を表すことはできない ● 「母集団を真の確率分布を持つデータ発生装置とみなし、真の確率分布から一個一個のデータ が発生してサンプルが構成されるという見方」=「頻度主義的統計モデリング」を導入する ○ サンプルは確率的に変動すると見なす一方で、母集団と母数は実際に観測可能かどうかに関わら ず一意に決まるものと考える ● 推定を行うのに、事前に推定方法の確率的・統計的な性質を知っておく必要がある ○ 今の推定が当たっているかではなく、何度もその推定方法を繰り返した時に妥当な推定できいる か?を主張するのが頻度主義統計学という学問

Slide 174

Slide 174 text

頻度主義が批判されているポイント ● 論理体系が回りくどくて分かりにくい(でしょ?) ● そもそも一意に定まる母集団なんてものが存在するの?パラメータも一意の値を取 るものなの? ○ サニーレタスの母集団って何?未来永劫サニーレタスは生まれ続けるけど? ○ 研究中の〇〇という肥料を与えたサニーレタスの母集団って何? ● パラメータについての仮説・命題がどの程度正しそうかを確率的に表すことはでき ない ○ 「例:平均身長が170cm以上である確率、A群の平均の重さよりもB群の平均の重さの方 が大きい確率」といった確率を表すことはできない

Slide 175

Slide 175 text

まとめ

Slide 176

Slide 176 text

● 頻度主義では、確率は客観的な頻度として捉え、「仮説が正しい確率」というものを考えることは できない ○ 「例:平均身長が170cm以上である確率、A群の平均の重さよりもB群の平均の重さの方 が大きい確率」といった確率を表すことはできない ● 頻度主義統計学の推測に対する考え方まとめ②

Slide 177

Slide 177 text

● そもそも、観察・実験・調査を用いた経験主義的な科学の限界は、(全体から見た 時に)一部の標本での結果しか得られないこと ○ 例えば、薬の臨床試験では、限られた人間でしか実験できず、「誰がやっても」「他の人間でも」「将 来に渡って」同様の効果を得られるかどうかは極論分からない = 科学の本質である、客観性・普 遍性・再現性は本質的には担保され得ない ● だからこそ、確率論的にデータの背後に潜む規則や構造を推察することで、帰納的 推論を可能にするために統計学という学問は存在している ● 統計学は、科学的手法を確率論的に正当化することで、19世紀後半〜20世紀以 降の科学の発展を支えてきた「縁の下の力持ち的学問」=近代科学を科学たらし めてきた ○ 現代統計学の金字塔となったR.A.Fisherの著書の名は『研究者のための統計的方法』 ○ 例えば、実験心理学の父ヴィルヘルム・ヴントは、心理学に実験と統計学的分析を導入するこ とで、それまでの哲学的な心理学とは異なる実証的な心理学という境地を拓いた なぜ統計学が必要とされるのか? ?

Slide 178

Slide 178 text

● そもそも、観察・実験・調査を用いた経験主義的な科学の限界は、(全体から見た 時に)一部の標本での結果しか得られないこと ○ 例えば、薬の臨床試験では、限られた人間でしか実験できず、「誰がやっても」「他の人間でも」「将 来に渡って」同様の効果を得られるかどうかは極論分からない = 科学の本質である、客観性・普 遍性・再現性は本質的には担保され得ない ● だからこそ、確率論的にデータの背後に潜む規則や構造を推察することで、帰納的 推論を可能にするために統計学という学問は存在している ● 統計学は、科学的手法を確率論的に正当化することで、19世紀後半〜20世紀以 降の科学の発展を支えてきた「縁の下の力持ち的学問」=近代科学を科学たらし めてきた ○ 現代統計学の金字塔となったR.A.Fisherの著書の名は『研究者のための統計的方法』 ○ 例えば、実験心理学の父ヴィルヘルム・ヴントは、心理学に実験と統計学的分析を導入するこ とで、それまでの哲学的な心理学とは異なる実証的な心理学という境地を拓いた なぜ統計学が必要とされるのか?

Slide 179

Slide 179 text

● そもそも、観察・実験・調査を用いた経験主義的な科学の限界は、(全体から見た 時に)一部の標本での結果しか得られないこと ○ 例えば、薬の臨床試験では、限られた人間でしか実験できず、「誰がやっても」「他の人間でも」「将 来に渡って」同様の効果を得られるかどうかは極論分からない = 科学の本質である、客観性・普 遍性・再現性は本質的には担保され得ない ● だからこそ、「観察されたデータに数学を応用」し、帰納的推論を可能にするために 統計学という学問は存在している ● 統計学は、科学的手法を確率論的に正当化することで、19世紀後半〜20世紀以 降の科学の発展を支えてきた「縁の下の力持ち的学問」=近代科学を科学たらし めてきた ○ 現代統計学の金字塔となったR.A.Fisherの著書の名は『研究者のための統計的方法』 ○ 例えば、実験心理学の父ヴィルヘルム・ヴントは、心理学に実験と統計学的分析を導入するこ とで、それまでの哲学的な心理学とは異なる実証的な心理学という境地を拓いた なぜ統計学が必要とされるのか?

Slide 180

Slide 180 text

「我々はどのようにして真なる知識を獲得できるのか?」 なぜ統計学が必要とされるのか?

Slide 181

Slide 181 text

「我々はどのようにして真なる知識を獲得できるのか?」 なぜ統計学が必要とされるのか? というソクラテスの時代から続く哲学的問題に人類は、

Slide 182

Slide 182 text

「我々はどのようにして真なる知識を獲得できるのか?」 なぜ統計学が必要とされるのか? というソクラテスの時代から続く哲学的問題に人類は、 「適切な統計処理によって結論が証明※されているのであれば、正しいだろう、科学的 知識と認めてよいだろう」という共通認識を得ることで、 心の安寧を得て、科学的進歩に邁進することができるようになった

Slide 183

Slide 183 text

● 帰納推論が、「知っていることを元手に知らないことを推測する」という非演繹的推論である以上、 疑いの余地のない論理的な推論を行うことは不可能 ○ 統計学にできるのは、あくまで推論を正当化しようする試みでしかない ● 帰納推論を「どのように正当化することが正しいのか」=「どのように正当化すべきか」という問い が決着することはおそらく永遠にない ○ 自分の行なっている正当化手法が哲学的問題を孕むことに自覚的になり、展開している議論が真理 促進的かに厳しい批判の目を向け続ける必要がある ● 統計学は帰納推論に確率論的思考の枠組みを与えたことで、帰納推論の正当化の ための議論を簡単にした一方で、本質的な危うさに無自覚にした 最後に〜統計学に関する哲学的諸注意

Slide 184

Slide 184 text

Appendix

Slide 185

Slide 185 text

母集団が正規分布の場合の標本分布 母集団 「真の」確率モデル 正規分布xxxxxx μ σ2 母平均μ

Slide 186

Slide 186 text

母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 μ σ2 母平均μ 「真の」確率モデル 正規分布xxxxxx

Slide 187

Slide 187 text

母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 μ σ2 母平均μ 「真の」確率モデル 正規分布xxxxxx 確率的に発生している と見なす

Slide 188

Slide 188 text

母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・ μ σ2 母平均μ 標本の値 の分布 N回試行 「真の」確率モデル 正規分布xxxxxx

Slide 189

Slide 189 text

母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・ μ σ2 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx

Slide 190

Slide 190 text

母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・ μ σ2 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx

Slide 191

Slide 191 text

母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・ μ σ2 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 標本平均 標本分布 (標本平均 の分布)

Slide 192

Slide 192 text

母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・ μ σ2 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 標本平均 標本分布 (標本平均 の分布) 全くの別物

Slide 193

Slide 193 text

母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・ μ σ2 標本平均 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 標本分布 (標本平均 の分布) 全くの別物

Slide 194

Slide 194 text

母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・ μ σ2 標本平均 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 標本分布 (標本平均 の分布) 全くの別物

Slide 195

Slide 195 text

母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・ μ σ2 標本平均 母平均μ 標本分布 (標本平均 の分布) 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 全くの別物

Slide 196

Slide 196 text

母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・ μ σ2 μ 標本平均 母平均μ 標本分布 (標本平均 の分布) 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 全くの別物

Slide 197

Slide 197 text

母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・ μ σ2 μ 標本平均 一致する 母平均μ 標本分布 (標本平均 の分布) 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 全くの別物

Slide 198

Slide 198 text

母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・ μ σ2 μ 標本平均 一致する 母平均μ 標本分布 (標本平均 の分布) 標本の値 の分布 標本分布の平均(期待値)が、 その統計量によって推定しようとしている母数の値に一 致する時、その統計量は 不偏性を持つという また、普遍性をもつ統計量を母数の 不偏推定量という 「真の」確率モデル 正規分布xxxxxx 全くの別物

Slide 199

Slide 199 text

母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 μ σ2 μ 標本平均 母平均μ 標本分布 (標本平均 の分布) 標本の値 の分布 標本 標本 ・ ・ ・ 一致する 母集団の分布を正規分布だと仮定したときに、 標本平均は母平均の 不偏推定量になっているという性 質を利用して、 たまたま得られたサンプルの標本平均から母平均を推 定することを不偏推定という 「真の」確率モデル 正規分布xxxxxx 全くの別物

Slide 200

Slide 200 text

母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 μ σ2 μ 標本平均 母平均μ 標本分布 (標本平均 の分布) 標本の値 の分布 標本 標本 ・ ・ ・ 一致する そのままの値で推定する 母集団の分布を正規分布だと仮定したときに、 標本平均は母平均の 不偏推定量になっているという性 質を利用して、 たまたま得られたサンプルの標本平均から母平均を推 定することを不偏推定という 「真の」確率モデル 正規分布xxxxxx 全くの別物

Slide 201

Slide 201 text

母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 μ σ2 μ 標本平均 母平均μ 標本分布 (標本平均 の分布) 標本の値 の分布 標本 標本 ・ ・ ・ 一致する 母集団の分布を正規分布だと仮定したときに、 標本平均は母平均の 不偏推定量になっているという性 質を利用して、 たまたま得られたサンプルの標本平均から母平均を推 定することを不偏推定という 「真の」確率モデル 正規分布xxxxxx そのままの値で推定する 全くの別物

Slide 202

Slide 202 text

母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 μ σ2 μ 標本平均 母平均μ 標本分布 (標本平均 の分布) 標本の値 の分布 標本 標本 ・ ・ ・ 一致する 母集団の分布を正規分布だと仮定したときに、 標本平均は母平均の 不偏推定量になっているという性 質を利用して、 たまたま得られたサンプルの標本平均から母平均を推 定することを不偏推定という たまに母平均から大きくハズレてしまうこともあるが 平均的には母平均に近い値をとるはずであると見なす 「真の」確率モデル 正規分布xxxxxx そのままの値で推定する

Slide 203

Slide 203 text

母集団が正規分布の場合の標本分布 データを抽出 m個 母集団 ・ ・ ・ μ σ2 母平均μ 「真の」確率モデル 正規分布xxxxxx

Slide 204

Slide 204 text

母集団が正規分布の場合の標本分布 データを抽出 m個 母集団 ・ ・ ・ μ σ2 標本平均 母平均μ 「真の」確率モデル 正規分布xxxxxx

Slide 205

Slide 205 text

母集団が正規分布の場合の標本分布 データを抽出 m個 母集団 ・ ・ ・ μ σ2 μ 標本平均 母平均μ 「真の」確率モデル 正規分布xxxxxx

Slide 206

Slide 206 text

母集団が正規分布の場合の標本分布 データを抽出 m個 母集団 ・ ・ ・ μ σ2 μ 標本平均 ・ ・ ・ データを抽出 n個 母平均μ m << n 「真の」確率モデル 正規分布xxxxxx

Slide 207

Slide 207 text

母集団が正規分布の場合の標本分布 データを抽出 m個 母集団 ・ ・ ・ μ σ2 μ 標本平均 ・ ・ ・ データを抽出 n個 母平均μ m << n 「真の」確率モデル 正規分布xxxxxx

Slide 208

Slide 208 text

母集団が正規分布の場合の標本分布 データを抽出 m個 母集団 ・ ・ ・ μ σ2 μ 標本平均 ・ ・ ・ データを抽出 n個 母平均μ m << n 「真の」確率モデル 正規分布xxxxxx

Slide 209

Slide 209 text

母集団が正規分布の場合の標本分布 データを抽出 m個 母集団 ・ ・ ・ μ σ2 μ 標本平均 ・ ・ ・ データを抽出 n個 母平均μ m << n サンプル数nが大きくなるほど、標本平均は母平均に 近い値を取る確率が大きくなる 「真の」確率モデル 正規分布xxxxxx

Slide 210

Slide 210 text

母集団が任意の分布の標本分布 母集団 「真の」確率モデル 母平均μ μ

Slide 211

Slide 211 text

母集団が任意の分布の標本分布 データを抽出 m個 母集団 ・ ・ ・ 「真の」確率モデル 母平均μ μ

Slide 212

Slide 212 text

データを抽出 m個 母集団 ・ ・ ・ 「真の」確率モデル 母平均μ μ 母集団が任意の分布の標本分布

Slide 213

Slide 213 text

データを抽出 m個 母集団 ・ ・ ・ 「真の」確率モデル 標本平均 母平均μ μ 母集団が任意の分布の標本分布

Slide 214

Slide 214 text

データを抽出 m個 母集団 ・ ・ ・ 「真の」確率モデル μ 標本平均 母平均μ μ 一致する 母集団が任意の分布の標本分布

Slide 215

Slide 215 text

データを抽出 m個 母集団 ・ ・ ・ 「真の」確率モデル μ 標本平均 母平均μ μ ・ ・ ・ データを抽出 n個 m << n 一致する 母集団が任意の分布の標本分布

Slide 216

Slide 216 text

データを抽出 m個 母集団 ・ ・ ・ 「真の」確率モデル μ 標本平均 母平均μ μ ・ ・ ・ データを抽出 n個 m << n 一致する 母集団が任意の分布の標本分布

Slide 217

Slide 217 text

データを抽出 m個 母集団 ・ ・ ・ 「真の」確率モデル μ 標本平均 母平均μ μ ・ ・ ・ データを抽出 n個 m << n 一致する 母集団が任意の分布の標本分布

Slide 218

Slide 218 text

データを抽出 m個 母集団 ・ ・ ・ 「真の」確率モデル μ 標本平均 母平均μ μ ・ ・ ・ データを抽出 n個 m << n 一致する xxxxxxxのとき、正規分布xxxxxxxxに近づく 中心極限定理 母集団が任意の分布の標本分布

Slide 219

Slide 219 text

フリースローをθの確率で入れることができるSさん が、今10回フリースローを行うとする 例えば、10回中7回入る確率は 二項分布によるモデリング 10 C 7 θ7(1−θ)3 出典:『SLAM DUNK』

Slide 220

Slide 220 text

フリースローをθの確率で入れることができるSさん が、今10回フリースローを行うとする 例えば、10回中7回入る確率は 二項分布によるモデリング 10 C 7 θ7(1−θ)3 回数 10 9 8 7 6 5 4 3 2 1 0 二項分布Bin(x|10,θ)= 10 C x θx(1−θ)n−x 出典:『SLAM DUNK』

Slide 221

Slide 221 text

母集団がベルヌーイ分布の場合の標本分布 母集団 母比率θ 1.0 0.5 0 θ 1−θ 1 0

Slide 222

Slide 222 text

母集団がベルヌーイ分布の場合の標本分布 データを抽出 n個 母集団 標本 母比率θ 1.0 0.5 0 θ 1−θ 1 0 =

Slide 223

Slide 223 text

母集団がベルヌーイ分布の場合の標本分布 データを抽出 n個 母集団 標本 母比率θ 1.0 0.5 0 θ 1−θ 1 0 = n C x1 θx1(1−θ)n−x1

Slide 224

Slide 224 text

母集団がベルヌーイ分布の場合の標本分布 データを抽出 n個 母集団 標本 母比率θ 1.0 0.5 0 θ 1−θ 1 0 = n C x1 θx1(1−θ)n−x1

Slide 225

Slide 225 text

母集団がベルヌーイ分布の場合の標本分布 データを抽出 n個 母集団 標本 母比率θ 1.0 0.5 0 θ 1−θ 1 0 = n C x1 θx1(1−θ)n−x1 どのように推定するのが リーズナブルか?

Slide 226

Slide 226 text

母集団がベルヌーイ分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・ 母比率θ 標本比率 1.0 0.5 0 θ 1−θ 1 0 = = =

Slide 227

Slide 227 text

母集団がベルヌーイ分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・ 母比率θ 標本分布 (標本比率 の分布) 標本比率 = = = 1.0 0.5 0 θ 1−θ 1 0

Slide 228

Slide 228 text

母集団がベルヌーイ分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・ 母比率θ 標本分布 (標本比率 の分布) 標本比率 = = = Bin(x|n,θ)= n C x θx(1−θ)n−x 1.0 0.5 0 θ 1−θ 1 0

Slide 229

Slide 229 text

母集団がベルヌーイ分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・ 母比率θ 標本分布 (標本比率 の分布) 標本比率 = = = 1.0 0.5 0 θ 1−θ 1 0 平均θ Bin(x|n,θ)= n C x θx(1−θ)n−x

Slide 230

Slide 230 text

母集団がベルヌーイ分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・ 母比率θ 標本分布 (標本比率 の分布) 標本比率 = = = 1.0 0.5 0 θ 1−θ 1 0 一致する 母比率θの不偏推定量 Bin(x|n,θ)= n C x θx(1−θ)n−x 平均θ

Slide 231

Slide 231 text

母集団がベルヌーイ分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・ 母比率θ 標本分布 (標本比率 の分布) 標本比率 = = = 1.0 0.5 0 θ 1−θ 1 0 一致する 母比率θの不偏推定量 Bin(x|n,θ)= n C x θx(1−θ)n−x 平均θ

Slide 232

Slide 232 text

母集団がベルヌーイ分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・ 母比率θ 標本分布 (標本比率 の分布) 標本比率 = = = 1.0 0.5 0 θ 1−θ 1 0 一致する 母比率θの不偏推定量 Bin(x|n,θ)= n C x θx(1−θ)n−x そのままの値で推定する 平均θ

Slide 233

Slide 233 text

帰納推論と統計学 ● 我々は、帰納推論を行うとき、推論の対象となっている未観測の事象は、推論の前提となっているこ れまで観測されてきた事象と同様だろう、と無意識に想定している(『統計学を哲学する』)=自然の 斉一性仮定 ● データは、背後にある確率モデルからランダムに抽出されるので、サンプルごとに変わるが、そのも ととなる確率モデル自体は推論過程、あるいは未来を通じて同一に留まると仮定することで、 データから確率モデルを推論することが可能であり、 推論された確率モデルをもとに未来のデータも予測可能である という形で、自然の斉一性を定式化している ● 統計学の本領は、確率を用いて自然の斉一性を定式化することによって、限られたデータから帰納 推論を正確に行い、さらにその推論の確からしさや信頼性を評価する枠組みを与えることである ○ 統計学的議論の中では、統計モデリングはあくまで近似のための道具であると認めている が、自然の斉一性は真なるものとして仮定されていることには注意

Slide 234

Slide 234 text

● (①、②)頻度主義統計学における統計モデリングとは、得られたサンプルが、特定 の確率分布にしたがう母集団から確率的に(たまたま)発生したと考えること ● (③、④)統計モデリングに基づき、母集団の統計量(平均、分散、相関係数etc…) を統計的に推定することで母集団同士の比較や未知のデータの予測が可能になる ○ 母集団の統計量(平均、分散、相関係数 etc…)を母数またはパラメータと呼ぶ 頻度主義統計学における統計モデリングと点推定

Slide 235

Slide 235 text

頻度主義統計学における統計モデリングと点推定 ● (①、②)頻度主義統計学における統計モデリングとは、得られたサンプルが、特定 の確率分布にしたがう母集団から確率的に(たまたま)発生したと考えること →→ どのように統計モデリングをすればいいのか? ● (③、④)統計モデリングに基づき、母集団の統計量(平均、分散、相関係数etc…) を統計的に点推定することで母集団同士の比較や未知のデータの予測が可能に なる ○ 母集団の統計量(平均、分散、相関係数 etc…)を母数またはパラメータと呼ぶ →→ どのように母数を推定するのか?

Slide 236

Slide 236 text

頻度主義統計学における統計モデリングと点推定 ● (①、②)頻度主義統計学における統計モデリングとは、得られたサンプルが、特定 の確率分布にしたがう母集団から確率的に(たまたま)発生したと考えること →→ どのように統計モデリングをすればいいのか? ● (③、④)統計モデリングに基づき、母集団の統計量(平均、分散、相関係数etc…) を統計的に点推定することで母集団同士の比較や未知のデータの予測が可能に なる ○ 母集団の統計量(平均、分散、相関係数 etc…)を母数またはパラメータと呼ぶ →→ どのように母数を推定するのか? すでに論じてきた

Slide 237

Slide 237 text

対象の事象の性質に基づく分布族の当てはめ ● 日本の中学生の男子の身長・体重 ● 全国統一小学生テストの点数 正規分布 1.0 0.5 0 θ 1−θ 1 0 ベルヌーイ分布 二項分布 θ ● コインを投げて裏表 ● 靴を投げて裏表 ● くじを引いて当たるか外れるか ● フリースローを投げて入るか入らないか 例えば、コイン投げであれば、コインが立つという第3の可 能性を捨象している 例えば、中学生男子の身長は、どこまでも大きい / 小さい値 を取ることはないということを捨象している

Slide 238

Slide 238 text

頻度主義統計学における統計モデリングと点推定 ● 推測統計では、大抵の場合、対象となる確率分布は、特定の関数形で与えられる 分布(正規分布、二項分布、ポアソン分布、etc…)になると仮定する ○ これらの分布は有限個のパラメータでその関数形が決定される ○ このような対象の確率分布が特定の分布で与えられるとする考え方をパラメトリックと言う ● パラメトリックな推測統計では、モデリングの対象を一定の範囲の分布(要は有名 で性質がよく知られた分布)に絞ることが一般的 ● このようなモデリングを分析者が自らの考察・経験に基づき、主観的に行うことが統 計学の難しさ ○ 当然、分析者のモデリングがリーズナブルであるかは査定されるべき ○ モデルの選択を定量的に行う手法も存在する

Slide 239

Slide 239 text

点推定 区間推定 記述統計学 ベイズ統計学 推 測 し な い 推 測 す る 統計学の分類 仮説検定 頻度主義統計学 統計的推定 推測統計学 ここも軽く触 れておく

Slide 240

Slide 240 text

統計的仮説検定の考え方のイメージ 10回中9回表が出た 本物のコイン イカサマのコイン 10回中7回表が出た 0.879% 24.2% 11.7% 20.1%

Slide 241

Slide 241 text

統計的仮説検定の考え方のイメージ 10回中9回表が出た 本物のコイン イカサマのコイン 10回中7回表が出た 0.879% 24.2% 11.7% 20.1% 本物のコインだと仮定するとかなり奇跡 的なことが起こっているが、イカサマのコ インだと仮定すれば、十分起こり得そう どちらのコインだと仮定してもあり得ない というほどのことが起こっているわけでは ない

Slide 242

Slide 242 text

統計的仮説検定の考え方のイメージ 10回中9回表が出た 本物のコイン イカサマのコイン 10回中7回表が出た 0.879% 24.2% 11.7% 20.1% 本物のコインだと仮定するとかなり奇跡 的なことが起こっているが、イカサマのコ インだと仮定すれば、十分起こり得そう どちらのコインだと仮定してもあり得ない というほどのことが起こっているわけでは ない 本物のコインであるという仮説を棄却し、 イカサマのコインであるという仮説を選択 した方が妥当 どちらの仮説も捨て去るほどでもなく、結 果どちらの仮説を選択する方が妥当とい うのも言えない

Slide 243

Slide 243 text

データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 頻度主義 A:弱い光を当てて育てた植物の重さ B:強い光を当てて育てた植物の重さ

Slide 244

Slide 244 text

サンプルにどれだけ差があるのか にはあまり興味がない データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 頻度主義 A:弱い光を当てて育てた植物の重さ B:強い光を当てて育てた植物の重さ 本当に知りたいのは、 母集団に差があるのか

Slide 245

Slide 245 text

データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 頻度主義 A:弱い光を当てて育てた植物の重さ B:強い光を当てて育てた植物の重さ

Slide 246

Slide 246 text

頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ A 2 μ B σ B 2 母集団に差があるのか

Slide 247

Slide 247 text

頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ A 2 μ B σ B 2 平均値差 μ A-B

Slide 248

Slide 248 text

頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ A 2 μ B σ B 2 平均値差 μ A-B −

Slide 249

Slide 249 text

頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ A 2 μ B σ B 2 平均値差 μ A-B −

Slide 250

Slide 250 text

頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ A 2 μ B σ B 2 平均値差 μ A-B − 0 帰無仮説

Slide 251

Slide 251 text

頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ A 2 μ B σ B 2 平均値差 μ A-B − 0 帰無仮説 2.5%棄却域 2.5%棄却域

Slide 252

Slide 252 text

頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ A 2 μ B σ B 2 平均値差 μ A-B − 0 帰無仮説 2.5%棄却域 2.5%棄却域 帰無仮説を支持するには、 あまりにも(?)起きづらい確率

Slide 253

Slide 253 text

頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ A 2 μ B σ B 2 平均値差 μ A-B − 0 帰無仮説 2.5%棄却域 2.5%棄却域 棄却する 帰無仮説を支持するには、 あまりにも(?)起きづらい確率

Slide 254

Slide 254 text

● 知りたいのは、サンプルではなく、あくまで母集団に差があるのか ● 2つの母集団が正規分布のとき、母集団の平均値差/平均値差の標準偏差の分布 はt分布になる ● サンプルの標本平均値差が、母集団の平均値差を0とした時のt分布から発生した と仮定した時(帰無仮説)、その発生確率をp値と呼ぶ ● p値 < 5%(1%)のとき、今得られたサンプルの標本平均値差は、非常に「珍しい」も のだと考え、元の帰無仮説を棄却する ○ 帰無仮説が正しくない確率が 5%というわけでも、 2群の平均値差の検定

Slide 255

Slide 255 text

統計的仮説検定の考え方のイメージ 10回中9回表が出た 本物のコイン イカサマのコイン 10回中7回表が出た 0.879% 24.2% 11.7% 20.1%

Slide 256

Slide 256 text

統計的仮説検定の考え方のイメージ 10回中9回表が出た 本物のコイン イカサマのコイン 10回中7回表が出た 0.879% 24.2% 11.7% 20.1% 本物のコインだと仮定するとかなり奇跡 的なことが起こっているが、イカサマのコ インだと仮定すれば、十分起こり得そう どちらのコインだと仮定してもあり得ない というほどのことが起こっているわけでは ない

Slide 257

Slide 257 text

統計的仮説検定の考え方のイメージ 10回中9回表が出た 本物のコイン イカサマのコイン 10回中7回表が出た 0.879% 24.2% 11.7% 20.1% 本物のコインだと仮定するとかなり奇跡 的なことが起こっているが、イカサマのコ インだと仮定すれば、十分起こり得そう どちらのコインだと仮定してもあり得ない というほどのことが起こっているわけでは ない 本物のコインであるという仮説を棄却し、 イカサマのコインであるという仮説を選択 した方が妥当 どちらの仮説も捨て去るほどでもなく、結 果どちらの仮説を選択する方が妥当とい うのも言えない

Slide 258

Slide 258 text

データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 頻度主義 A:弱い光を当てて育てた植物の重さ B:強い光を当てて育てた植物の重さ

Slide 259

Slide 259 text

サンプルにどれだけ差があるのか にはあまり興味がない データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 頻度主義 A:弱い光を当てて育てた植物の重さ B:強い光を当てて育てた植物の重さ 本当に知りたいのは、 母集団に差があるのか

Slide 260

Slide 260 text

データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 頻度主義 A:弱い光を当てて育てた植物の重さ B:強い光を当てて育てた植物の重さ

Slide 261

Slide 261 text

頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ A 2 μ B σ B 2 母集団に差があるのか

Slide 262

Slide 262 text

頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ A 2 μ B σ B 2 平均値差 μ A-B

Slide 263

Slide 263 text

頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ A 2 μ B σ B 2 平均値差 μ A-B −

Slide 264

Slide 264 text

頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ A 2 μ B σ B 2 平均値差 μ A-B −

Slide 265

Slide 265 text

頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ A 2 μ B σ B 2 平均値差 μ A-B − 0 帰無仮説

Slide 266

Slide 266 text

頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ A 2 μ B σ B 2 平均値差 μ A-B − 0 帰無仮説 2.5%棄却域 2.5%棄却域

Slide 267

Slide 267 text

頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ A 2 μ B σ B 2 平均値差 μ A-B − 0 帰無仮説 2.5%棄却域 2.5%棄却域 帰無仮説を支持するには、 あまりにも(?)起きづらい確率

Slide 268

Slide 268 text

頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ A 2 μ B σ B 2 平均値差 μ A-B − 0 帰無仮説 2.5%棄却域 2.5%棄却域 棄却する 帰無仮説を支持するには、 あまりにも(?)起きづらい確率

Slide 269

Slide 269 text

● 知りたいのは、サンプルではなく、あくまで母集団に差があるのか ● 2つの母集団が正規分布のとき、母集団の平均値差/平均値差の標準偏差の分布 はt分布になる ● サンプルの標本平均値差が、母集団の平均値差を0とした時のt分布から発生した と仮定した時(帰無仮説)、その発生確率をp値と呼ぶ ● p値 < 5%(1%)のとき、今得られたサンプルの標本平均値差は、非常に「珍しい」も のだと考え、元の帰無仮説を棄却する ○ 帰無仮説が正しくない確率が 5%というわけでも、 2群の平均値差の検定