頻度主義統計学を「完全に理解」しよう

Slide 1

Slide 1 text

頻度主義統計学を「完全に理解」しよう

Slide 2

Slide 2 text

上野彰大大阪府堺市生まれ・育ち東京大学大学院農学生命科学研究科卒 PharmaX取締役・エンジニア責任者（旧YOJO Technologies）自己紹介 Twitter：@ueeeeniki

Slide 3

Slide 3 text

（C）PharmaX Inc. 2022 All Rights Reserve 3 会社名変更&プレスリリースのお知らせ

Slide 4

Slide 4 text

（C）PharmaX Inc. 2022 All Rights Reserve 4 カジュアルにお話しませんか？

Slide 5

Slide 5 text

● この勉強会のモチベーションとゴール ● 統計学入門〜統計学・統計モデリングとは何か？〜 ● 頻度主義統計学入門〜頻度主義的考え方〜 ○ 点推定 ○ 区間推定 ○ 統計的仮説検定 ● まとめアジェンダ

Slide 6

Slide 6 text

参考・オススメ文献 ● 頻度主義統計学 ○ 心理統計学の基礎 ○ Rによるやさしい統計学 ○ データ分析に必須の知識・考え方統計学入門仮説検定から統計モデリングまで重要トピックを完全網羅 ● 統計学の哲学 ○ 統計学を哲学する

Slide 7

Slide 7 text

推奨する前提知識 ● 下記については補足をするが、ある程度の知識があることが望ましい ○ 頻度主義統計学の基礎知識（母集団の推定、検定など用語を知っていている程度） ○ 高校程度の数学知識（簡単な確率計算にアレルギーを感じない程度） ● 仮に詳細が理解できない箇所があったとしても、議論の大枠を理解することは可能です

Slide 8

Slide 8 text

この勉強会のモチベーションとゴール

Slide 9

Slide 9 text

統計学史上最大の論争頻度主義統計学（古典統計学）ベイズ統計学 VS

Slide 10

Slide 10 text

統計学的主義を巡る150年以上に渡る論争 ● 頻度主義統計学者たちは、徹底的にベイズ統計学を批判してきた（「頻度主義にあらずんば統計学にあらず」） ● （頻度主義vsベイズ主義の）論争の中で人類が向き合ったのは、「人は証拠をどのように分析し、（中略）不確かな状況下でいかに合理的な決定を下すのか」という問題（『異端の統計学ベイズ』） ● 両者では、 ①何に確率を適用しているのか（確率とは何か） ② どのように推論を行うのか、何を持って推論できていると見なすのか（推論するとはどういういことか）が異なる参考：『統計初心者がベイズ統計学に入門するまでの勉強法』（私記事）

Slide 11

Slide 11 text

頻度主義への批判とベイズ主義の台頭 ● 頻度主義統計学の最も便利なツールである「統計学的仮説検定」の「p値」「有意性」が批判にさらされており、ベイズ統計学が見直されてきた ○ 科学的な結論やビジネス・政策上の決定は、「 p値が特定の閾値を超えたかどうか」だけに基づいて行われるべきではない（『 The ASA Statement on p-Values: Context, Process, and Purpose』） ● 頻度主義統計学は論理が回りくどく、本質を理解するのが非常に難しい（個人の感想） ○ 古典統計（＝頻度主義統計学）の核となる検定のロジックはやや込み入っており、直感的に理解しにくい（『統計学を哲学する』） ● ベイズ統計学の台頭に伴い、「統計学といえば頻度主義統計学を指す」というほどの地位は失いつつあるが、今なお多くの学問分野で頻度主義統計学が使われ続けてる ○ 日本の大学でまず習うのは頻度主義統計学

Slide 12

Slide 12 text

● 一方で、どちらが正しい主義かという問いに意味はなく、好きな主義と好きな方法を使うことができる（『統計学入門「主義」を心配するみなさまに』） ○ 必要なときに必要な方の考え方を使えばいい（『「頻度論」の学者と「ベイズ論」の学者が対談したら』）統計学の主義論争についての注釈

Slide 13

Slide 13 text

この勉強会の目的・ゴール ● 頻度主義統計学であろうと、ベイズ統計学であろうと変わらない「統計学的な考え方」の本質を理解する ○ そもそも統計学とはどういう学問で、何のために学ぶのかを理解せずに数学的な理論だけを学ぶからツラくなる ● 頻度主義統計学の各推論手法の理論を「完全に理解する」 ○ 実際に使えるようになるにはプログラミングやデータの前処理などの知識も必要だが、まずは全体像をざっくり掴んで欲しい ● 頻度主義統計学のロジックの癖や落とし穴を丁寧に理解し、自学するのがグッと楽になる ○ どこが分かりにくく、勘違いしやすいポイントなのかを重点的に解説する

Slide 14

Slide 14 text

この勉強会の裏テーマ・思惑 ● データサイエンスの流行によって「機械学習は理解してるけど、統計学は理解していない」という人が多すぎて悲しい、もっと統計学の面白さを広めたい ● 個人的にはベイズ統計学が大好きだが、今の統計学教育の状況を鑑みるにベイズ統計学を勉強するのにも、頻度主義をきちんと勉強するのが効率がいい ○ 本来、統計学としてベイズ統計学から学び始めることは可能なはずだが、世の中に溢れている多くの「統計学入門」は頻度主義統計学を念頭に置いている ■ ベイズ統計学入門は、「統計入門」ではなく、あくまで「ベイズ統計学入門」と呼ばれる ○ 多くの「ベイズ統計学入門」の教科書・記事などは、頻度主義との違いについて書かれており、ベイズ主義を深く理解するためには、頻度主義との違いを意識しながら勉強していく方が効率がよい

Slide 15

Slide 15 text

記述統計学頻度主義統計学ベイズ統計学推測しない推測する統計学の分類得られたデータの統計的性質を分析・可視化することでデータの特徴を捉える得られたデータのみから、そのデータが発生したした背後のシステムを推測する推測統計学

Slide 16

Slide 16 text

統計学の分類（推測統計学を狭義に捉える場合もある）記述統計学頻度主義統計学ベイズ統計学推測しない推測する得られたデータの統計的性質を分析・可視化することでデータの特徴を捉える得られたデータのみから、そのデータが発生したした背後のシステムを推測する推測統計学

Slide 17

Slide 17 text

記述統計学頻度主義統計学ベイズ統計学推測しない推測する統計学の分類（今回はこちらの定義を採用）統計学の本丸推測統計学得られたデータの統計的性質を分析・可視化することでデータの特徴を捉える得られたデータのみから、そのデータが発生したした背後のシステムを推測する

Slide 18

Slide 18 text

● この勉強会のモチベーションとゴール ● 統計学入門〜統計学・統計モデリングとは何か？〜 ● 頻度主義統計学入門〜頻度主義的考え方〜 ● ベイズ統計学入門〜ベイズ主義と頻度主義との違い〜アジェンダ

Slide 19

Slide 19 text

統計学入門〜統計学・統計モデリングとは何か？〜

Slide 20

Slide 20 text

統計学とは何か？ ● データの背後に潜む規則や構造を抽出する（モデリングする）ことによって、現象の理解や未知の現象に対する予測を行う

Slide 21

Slide 21 text

統計学とは何か？ ● データの背後に潜む規則や構造を抽出する（モデリングする）ことによって、現象の理解や未知の現象に対する予測を行う規則や構造を抽出 ②未知の現象に対する予測を行う統計モデリング & パラメータの推定 ① 現象を理解する ● 確率分布を用いてデータの背後に潜む規則や構造を抽出する（= 統計モデリングとパラメータの推定を行う）ことによって、現象の理解や未知の現象に対する予測を行う

Slide 22

Slide 22 text

データを抽出母集団標本頻度主義

Slide 23

Slide 23 text

データを抽出母集団標本頻度主義

Slide 24

Slide 24 text

「真の」確率モデル正規分布データを抽出母集団標本頻度主義 μ σ2 ① 母集団の分布が正規分布なのではないかと仮定する

Slide 25

Slide 25 text

「真の」確率モデル正規分布データを抽出母集団標本頻度主義 μ σ2 統計モデリング ①’ 母集団から確率的に発生したと見なす ① 母集団の分布が正規分布なのではないかと仮定する S2

Slide 26

Slide 26 text

「真の」確率モデル正規分布データを抽出母集団標本頻度主義 μ σ2 ① 母集団の分布が正規分布なのではないかと仮定する推定された確率モデル正規分布 μ* σ*2 統計モデリング ①’ 母集団から確率的に発生したと見なす ② 標本統計量（標本平均と標本分散）から母集団の確率モデル＝母集団分布のパラメータ（母平均と母分散）を推定 S2

Slide 27

Slide 27 text

「真の」確率モデル正規分布データを抽出母集団標本頻度主義 μ σ2 ① 母集団の分布が正規分布なのではないかと仮定する推定された確率モデル正規分布 μ* σ*2 完全に一致はしない統計モデリング ①’ 母集団から確率的に発生したと見なす S2 ② 標本統計量（標本平均と標本分散）から母集団の確率モデル＝母集団分布のパラメータ（母平均と母分散）を推定

Slide 28

Slide 28 text

「真の」確率モデル正規分布推定された確率モデル正規分布母集団予測完全に一致はしない頻度主義 μ* σ*2 μ σ2 ③ データを予測＝確率的に発生させる

Slide 29

Slide 29 text

● （①）「今観測された事象（サンプル）は、背後にある確率モデルから確率的に発生したと考える枠組み」＝「統計モデリング」を導入し、 ● （②）その上で、背後にある確率モデルのパラメータをリーズナブルに推定する方法を明らかにし、 ● （③）パラメータを推測した確率モデルを元に、新たな事象の「確率的な予測を行う」＝「予測分布を生成する」統計学とは何をしてくれる学問なのか？確率モデル ①サンプリング ③予測 ②推定データD 未来のデータD’

Slide 30

Slide 30 text

記述統計学頻度主義統計学ベイズ統計学推測しない推測する統計学の分類推測統計学

Slide 31

Slide 31 text

記述統計学ベイズ統計学推測しない推測する統計学の分類統計的推定仮説検定頻度主義統計学推測統計学

Slide 32

Slide 32 text

点推定区間推定記述統計学ベイズ統計学推測しない推測する統計学の分類仮説検定頻度主義統計学統計的推定推測統計学まずはここを中心に

Slide 33

Slide 33 text

Slide 34

Slide 34 text

頻度主義統計学入門〜頻度主義的考え方〜

Slide 35

Slide 35 text

● 統計的推測の課題は、「標本統計量の値をもとに、母数についてできるだけ正確な推測をすること」（『心理統計学の基礎』）頻度主義統計学の目的データを抽出母集団標本母数（本当に知りたいもの）（標本から計算できるもの）標本統計量母平均母分散母相関係数母比率など標本平均標本分散標本相関係数標本比率など推定頻度主義点推定

Slide 36

Slide 36 text

今得られたサンプルの標本平均データを抽出母集団標本母平均μ 標本平均頻度主義点推定問: たまたま得られたサンプルの標本平均から母平均μをどのように推測するべきか？標本統計量から母数を推測する方法

Slide 37

Slide 37 text

データを抽出母集団標本母平均μ 標本平均頻度主義点推定の値そのままでμを推測するのが直感的問: たまたま得られたサンプルの標本平均から母平均μをどのように推測するべきか？標本統計量から母数を推測する方法今得られたサンプルの標本平均

Slide 38

Slide 38 text

データを抽出母集団標本母平均μ 標本平均頻度主義点推定の値そのままでμを推測するのが直感的なぜそのような推測が妥当なのかを数学的に説明できるか？問: たまたま得られたサンプルの標本平均から母平均μをどのように推測するべきか？標本統計量から母数を推測する方法今得られたサンプルの標本平均

Slide 39

Slide 39 text

データを抽出母集団標本標本平均標本標本・・・標本平均標本平均母平均μ 頻度主義点推定標本統計量から母数を推測する方法問: たまたま得られたサンプルの標本平均から母平均μをどのように推測するべきか？今得られたサンプルの標本平均は、たまたまそのサンプルが選ばれたことに依存する、一種の偶然の産物（『心理統計学の基礎』）

Slide 40

Slide 40 text

Slide 41

Slide 41 text

データを抽出母集団標本標本平均標本標本・・・標本平均標本平均母平均μ 頻度主義点推定標本統計量から母数を推測する方法問: たまたま得られたサンプルの標本平均から母平均μをどのように推測するべきか？標本統計量の値はサンプルごとに変動する今得られたサンプルの標本平均は、たまたまそのサンプルが選ばれたことに依存する、一種の偶然の産物（『心理統計学の基礎』）

Slide 42

Slide 42 text

データを抽出母集団標本標本平均標本標本・・・標本平均標本平均母平均μ 頻度主義点推定標本統計量から母数を推測する方法問: たまたま得られたサンプルの標本平均から母平均μをどのように推測するべきか？サンプル間でどのように標本統計量が変動するのか？今得られたサンプルの標本平均は、たまたまそのサンプルが選ばれたことに依存する、一種の偶然の産物（『心理統計学の基礎』）

Slide 43

Slide 43 text

Slide 44

Slide 44 text

母集団が任意の分布の場合の標本平均の分布母集団「真の」確率モデル μ 母平均μ 母分散σ2

Slide 45

Slide 45 text

母集団「真の」確率モデルデータを抽出 n個標本 μ 母集団が任意の分布の場合の標本平均の分布母平均μ 母分散σ2

Slide 46

Slide 46 text

標本母集団「真の」確率モデル確率的に発生しているデータを抽出 n個 μ 母集団が任意の分布の場合の標本平均の分布母平均μ 母分散σ2

Slide 47

Slide 47 text

母集団「真の」確率モデルデータを抽出 n個標本標本標本・・・標本の値の分布 N回試行 μ 母集団が任意の分布の場合の標本平均の分布母平均μ 母分散σ2

Slide 48

Slide 48 text

母集団「真の」確率モデルデータを抽出 n個標本標本標本・・・標本の値の分布標本の値の分布 μ 母集団が任意の分布の場合の標本平均の分布母平均μ 母分散σ2

Slide 49

Slide 49 text

Slide 50

Slide 50 text

母集団「真の」確率モデルデータを抽出 n個標本標本標本・・・標本の値の分布標本の値の分布標本平均標本平均の分布 μ 母集団が任意の分布の場合の標本平均の分布母平均μ 母分散σ2

Slide 51

Slide 51 text

母集団「真の」確率モデルデータを抽出 n個標本標本標本・・・標本の値の分布標本の値の分布標本平均 μ 母集団が任意の分布の場合の標本平均の分布標本平均の分布母平均μ 母分散σ2

Slide 52

Slide 52 text

母集団「真の」確率モデルデータを抽出 n個標本標本標本・・・標本の値の分布標本の値の分布標本平均 μ 母集団が任意の分布の場合の標本平均の分布標本平均の分布母平均μ 母分散σ2 全くの別物

Slide 53

Slide 53 text

母集団「真の」確率モデルデータを抽出 n個標本標本標本・・・標本の値の分布標本の値の分布標本平均全くの別物 μ 母集団が任意の分布の場合の標本平均の分布標本平均の分布母平均μ 母分散σ2

Slide 54

Slide 54 text

Slide 55

Slide 55 text

母集団「真の」確率モデルデータを抽出 n個標本標本標本・・・標本の値の分布標本の値の分布標本平均全くの別物一致する μ 母集団が任意の分布の場合の標本平均の分布標本平均の分布母平均μ 母分散σ2

Slide 56

Slide 56 text

母集団「真の」確率モデルデータを抽出 n個標本標本標本・・・標本の値の分布標本の値の分布標本平均全くの別物一致する μ たまに母平均から大きくハズレてしまうこともあるが平均的には母平均に近い値をとる母集団が任意の分布の場合の標本平均の分布標本平均の分布母平均μ 母分散σ2

Slide 57

Slide 57 text

母集団「真の」確率モデルデータを抽出 n個標本標本標本・・・標本の値の分布標本の値の分布標本平均全くの別物 μ たまに母平均から大きくハズレてしまうこともあるが平均的には母平均に近い値をとる今得られたサンプル母集団が任意の分布の場合の標本平均の分布標本平均の分布一致する母平均μ 母分散σ2

Slide 58

Slide 58 text

母集団「真の」確率モデルデータを抽出 n個標本標本標本・・・標本の値の分布標本の値の分布標本平均全くの別物たまに母平均から大きくハズレてしまうこともあるが平均的には母平均に近い値をとる今得られたサンプル母集団が任意の分布の場合の標本平均の分布標本平均の分布一致する母平均μ 母分散σ2 μ そのままの値で推定する

Slide 59

Slide 59 text

母集団「真の」確率モデルデータを抽出 n個標本標本標本・・・標本の値の分布標本の値の分布標本平均全くの別物 μ 今得られたサンプル母集団が任意の分布の場合の標本平均の分布標本平均の分布一致する標本平均のように、期待値が推定したい母数に一致する標本統計量を母数の不偏推定量と呼ぶ母平均μ 母分散σ2 そのままの値で推定する

Slide 60

Slide 60 text

母集団「真の」確率モデルデータを抽出 n個標本標本標本・・・標本の値の分布標本の値の分布標本平均全くの別物 μ 今得られたサンプル母集団が任意の分布の場合の標本平均の分布標本平均の分布一致する標本平均のように、期待値が推定したい母数に一致する標本統計量を母数の不偏推定量と呼ぶそのままの値で推定する（不偏推定）母平均μ 母分散σ2

Slide 61

Slide 61 text

母集団「真の」確率モデル母平均μ 母分散σ2 データを抽出 n個標本標本標本・・・標本の値の分布標本の値の分布 μ σ2 母集団が任意の分布の場合の標本分散

Slide 62

Slide 62 text

Slide 63

Slide 63 text

母集団「真の」確率モデル母平均μ 母分散σ2 データを抽出 n個標本標本標本・・・標本の値の分布標本の値の分布 μ σ2 標本分散標本分散の分布母集団が任意の分布の場合の標本分散

Slide 64

Slide 64 text

Slide 65

Slide 65 text

Slide 66

Slide 66 text

Slide 67

Slide 67 text

母集団「真の」確率モデル母平均μ 母分散σ2 データを抽出 n個標本標本標本・・・標本の値の分布標本の値の分布 μ σ2 標本分散標本分散の分布一致しない母集団が任意の分布の場合の標本分散

Slide 68

Slide 68 text

母集団「真の」確率モデル母平均μ 母分散σ2 データを抽出 n個標本標本標本・・・標本の値の分布標本の値の分布 μ σ2 標本分散標本分散の分布一致しない標本分散は母分散の不偏推定量ではない母集団が任意の分布の場合の標本分散

Slide 69

Slide 69 text

標本標本・・・母集団「真の」確率モデル母平均μ 母分散σ2 データを抽出 n個標本標本の値の分布標本の値の分布 μ σ2 標本分散標本分散の分布標本分散は母分散の不偏推定量ではない母集団が任意の分布の場合の標本分散一致しない

Slide 70

Slide 70 text

標本標本・・・母集団「真の」確率モデル母平均μ 母分散σ2 データを抽出 n個標本標本の値の分布標本の値の分布 μ σ2 標本分散標本分散の分布標本分散は母分散の不偏推定量ではない母集団が任意の分布の場合の標本分散標本分散で母分散を推測すると過小評価してしまう可能性がある一致しない

Slide 71

Slide 71 text

母集団「真の」確率モデル母平均μ 母分散σ2 データを抽出 n個標本標本標本・・・標本の値の分布標本の値の分布 μ σ2 母集団が任意の分布の場合の不偏分散

Slide 72

Slide 72 text

母集団「真の」確率モデル母平均μ 母分散σ2 データを抽出 n個標本標本標本・・・標本の値の分布標本の値の分布 μ σ2 不偏分散不偏分散の分布母集団が任意の分布の場合の不偏分散

Slide 73

Slide 73 text

Slide 74

Slide 74 text

Slide 75

Slide 75 text

Slide 76

Slide 76 text

母集団「真の」確率モデル母平均μ 母分散σ2 データを抽出 n個標本標本標本・・・標本の値の分布標本の値の分布 μ σ2 不偏分散不偏分散の分布一致する母集団が任意の分布の場合の不偏分散

Slide 77

Slide 77 text

母集団「真の」確率モデル母平均μ 母分散σ2 データを抽出 n個標本標本標本・・・標本の値の分布標本の値の分布 μ σ2 不偏分散不偏分散の分布不偏分散は母分散の不偏推定量になっている一致する母集団が任意の分布の場合の不偏分散

Slide 78

Slide 78 text

母集団「真の」確率モデル母平均μ 母分散σ2 データを抽出 n個標本標本の値の分布標本の値の分布 μ σ2 不偏分散不偏分散の分布不偏分散は母分散の不偏推定量になっている一致する標本標本・・・母集団が任意の分布の場合の不偏分散

Slide 79

Slide 79 text

母集団「真の」確率モデル母平均μ 母分散σ2 データを抽出 n個標本標本の値の分布標本の値の分布 μ σ2 不偏分散不偏分散の分布不偏分散は母分散の不偏推定量になっている一致する標本標本・・・母集団が任意の分布の場合の不偏分散そのままの値で推定する（不偏推定）

Slide 80

Slide 80 text

母集団が任意の分布の標本分布母集団「真の」確率モデル μ 母平均μ 母分散σ2

Slide 81

Slide 81 text

母集団が任意の分布の標本分布データを抽出 m個母集団・・・「真の」確率モデル μ 母平均μ 母分散σ2

Slide 82

Slide 82 text

データを抽出 m個母集団・・・母集団が任意の分布の標本分布「真の」確率モデル μ 母平均μ 母分散σ2

Slide 83

Slide 83 text

データを抽出 m個母集団・・・標本平均母集団が任意の分布の標本分布「真の」確率モデル μ 母平均μ 母分散σ2

Slide 84

Slide 84 text

データを抽出 m個母集団・・・ μ 標本平均一致する母集団が任意の分布の標本分布「真の」確率モデル μ 母平均μ 母分散σ2

Slide 85

Slide 85 text

データを抽出 m個母集団・・・ μ 標本平均・・・データを抽出 n個 m << n 一致する母集団が任意の分布の標本分布「真の」確率モデル μ 母平均μ 母分散σ2

Slide 86

Slide 86 text

Slide 87

Slide 87 text

Slide 88

Slide 88 text

データを抽出 m個母集団・・・ μ 標本平均・・・データを抽出 n個 m << n 一致する xxxxxxxのとき、正規分布xxxxxxxxに近づく中心極限定理母集団が任意の分布の標本分布「真の」確率モデル μ 母平均μ 母分散σ2

Slide 89

Slide 89 text

データを抽出 m個母集団・・・ μ 標本平均・・・データを抽出 n個 m << n 一致する xxxxxxxのとき、正規分布xxxxxxxxに近づく中心極限定理母集団が任意の分布の標本分布サンプル数nが大きくなるほど、標本平均は母平均に近い値を取る確率が大きくなる「真の」確率モデル μ 母平均μ 母分散σ2

Slide 90

Slide 90 text

頻度主義統計学の推測に対する考え方まとめ ● 「母集団を真の確率分布を持つデータ発生装置とみなし、真の確率分布から一個一個のデータが発生してサンプルが構成されるという見方」＝「頻度主義的統計モデリング」を導入した ○ サンプルは確率的に変動すると見なす一方で、母集団と母数は実際に観測可能かどうかに関わらず一意に決まるものと考える ● このような統計モデリングを導入した上で、標本統計量の性質を導くことで、標本統計量から母数を推定するリーズナブルな推定方法（不偏推定や最尤推定法等）を提示する ○ 標本統計量から母数を推定する方法を提示するのに、先に母数と標本統計量の数学的な関係性を熟知しておかなければならない

Slide 91

Slide 91 text

点推定区間推定記述統計学ベイズ統計学推測しない推測する統計学の分類仮説検定頻度主義統計学統計的推定推測統計学ここを中心に見てきた

Slide 92

Slide 92 text

点推定区間推定記述統計学ベイズ統計学推測しない推測する統計学の分類仮説検定頻度主義統計学統計的推定推測統計学次はここを見ていく

Slide 93

Slide 93 text

母集団が正規分布の場合の区間推定母集団「真の」確率モデル正規分布xxxxxx μ σ2 母平均μ 頻度主義区間推定

Slide 94

Slide 94 text

データを抽出母集団標本標本標本・・・母平均μ 頻度主義区間推定「真の」確率モデル正規分布xxxxxx μ σ2 標本平均今得られたサンプルの標本平均母集団が正規分布の場合の区間推定

Slide 95

Slide 95 text

データを抽出母集団標本標本標本・・・母平均μ 頻度主義区間推定「真の」確率モデル正規分布xxxxxx μ σ2 標本平均今得られたサンプルの標本平均 μ 使って推定母集団が正規分布の場合の区間推定

Slide 96

Slide 96 text

データを抽出母集団標本標本標本・・・母平均μ 頻度主義区間推定「真の」確率モデル正規分布xxxxxx μ σ2 標本平均今得られたサンプルの標本平均母集団が正規分布の場合の区間推定 μ 使って推定

Slide 97

Slide 97 text

データを抽出母集団標本標本標本・・・母平均μ 頻度主義区間推定「真の」確率モデル正規分布xxxxxx μ σ2 標本平均今得られたサンプルの標本平均点推定では、たまに真の μから大きく外れてしまう母集団が正規分布の場合の区間推定 μ 使って推定

Slide 98

Slide 98 text

データを抽出母集団標本標本標本・・・母平均μ 頻度主義区間推定「真の」確率モデル正規分布xxxxxx μ σ2 標本平均今得られたサンプルの標本平均この区間にならおそらく真の母平均が入っていそうという区間を推定する母集団が正規分布の場合の区間推定区間推定で幅を持って推定する μ 使って推定

Slide 99

Slide 99 text

データを抽出母集団標本標本標本・・・母平均μ 頻度主義区間推定「真の」確率モデル正規分布xxxxxx μ σ2 標本平均今得られたサンプルの標本平均この区間にならおそらく真の母平均が入っていそうという区間を推定する母集団が正規分布の場合の区間推定区間推定で幅を持って推定する μ 使って推定 95%の確率で母平均が含まれるような区間を95%信頼区間という

Slide 100

Slide 100 text

母集団母平均μ 頻度主義区間推定「真の」確率モデル正規分布xxxxxx μ σ2 信頼度95%で μを推定せよ母集団が（母分散既知の）正規分布の場合の区間推定

Slide 101

Slide 101 text

母集団母平均μ 頻度主義区間推定「真の」確率モデル正規分布xxxxxx μ σ2 データを抽出信頼度95%で μを推定せよ母集団が（母分散既知の）正規分布の場合の区間推定

Slide 102

Slide 102 text

母集団母平均μ 頻度主義区間推定「真の」確率モデル正規分布xxxxxx μ σ2 データを抽出信頼度95%で μを推定せよ母集団が（母分散既知の）正規分布の場合の区間推定 μ σ2

Slide 103

Slide 103 text

母集団母平均μ 頻度主義区間推定「真の」確率モデル正規分布xxxxxx μ σ2 母集団が（母分散既知の）正規分布の場合の区間推定データを抽出 μ σ2 信頼度95%で μを推定せよ 1.96σ 1.96σ 95%

Slide 104

Slide 104 text

母集団母平均μ 頻度主義区間推定「真の」確率モデル正規分布xxxxxx μ σ2 母集団が（母分散既知の）正規分布の場合の区間推定データを抽出 μ σ2 信頼度95%で μを推定せよ 1.96σ 1.96σ 95% 95%の確率で成立

Slide 105

Slide 105 text

Slide 106

Slide 106 text

母集団母平均μ 頻度主義区間推定「真の」確率モデル正規分布xxxxxx μ σ2 母集団が（母分散既知の）正規分布の場合の区間推定データを抽出 μ σ2 信頼度95%で μを推定せよ 1.96σ 1.96σ 95% 信頼度95%の信頼区間 95%の確率で成立

Slide 107

Slide 107 text

母集団母平均μ 頻度主義区間推定「真の」確率モデル正規分布xxxxxx μ σ2 データを抽出信頼度95%で μを推定せよ母集団が（母分散既知の）正規分布の場合の区間推定 μ σ2 信頼度95%の信頼区間 95%の確率で成立

Slide 108

Slide 108 text

Slide 109

Slide 109 text

母集団母平均μ 頻度主義区間推定「真の」確率モデル正規分布xxxxxx μ σ2 データを抽出信頼度95%で μを推定せよ母集団が（母分散既知の）正規分布の場合の区間推定 μ σ2 信頼度95%の信頼区間 95%の確率で成立よくある間違った主張は、「こうして求めた信頼区間の間に95%の確率で母平均が含まれる」という主張

Slide 110

Slide 110 text

母集団母平均μ 頻度主義区間推定「真の」確率モデル正規分布xxxxxx μ σ2 データを抽出信頼度95%で μを推定せよ母集団が（母分散既知の）正規分布の場合の区間推定 μ σ2 信頼度95%の信頼区間 95%の確率で成立今回得られたxxから計算された信頼区間でこのような主張は不可よくある間違った主張は、「こうして求めた信頼区間の間に95%の確率で母平均が含まれる」という主張

Slide 111

Slide 111 text

母集団母平均μ 頻度主義区間推定「真の」確率モデル正規分布xxxxxx μ σ2 データを抽出信頼度95%で μを推定せよ母集団が（母分散既知の）正規分布の場合の区間推定 μ σ2 信頼度95%の信頼区間 95%の確率で成立今回得られたxxから計算された信頼区間でこのような主張は不可 100回抽出したうち95回前後は成立＝よくある間違った主張は、「こうして求めた信頼区間の間に95%の確率で母平均が含まれる」という主張

Slide 112

Slide 112 text

母集団母平均μ 頻度主義区間推定「真の」確率モデル正規分布xxxxxx μ σ2 データを抽出信頼度95%で μを推定せよ母集団が（母分散既知の）正規分布の場合の区間推定 μ σ2 信頼度95%の信頼区間 95%の確率で成立今回得られたxxから計算された信頼区間でこのような主張は不可＝何度もデータを取り出しそのたびに信頼区間を求めれば、そのうちの 95%はその区間内に母平均を含む 100回抽出したうち95回前後は成立よくある間違った主張は、「こうして求めた信頼区間の間に95%の確率で母平均が含まれる」という主張

Slide 113

Slide 113 text

母集団母平均μ 頻度主義区間推定「真の」確率モデル正規分布xxxxxx μ σ2 母集団が（母分散既知の）正規分布の場合の区間推定信頼度95%で μを推定せよデータを抽出信頼度95%の信頼区間 95%の確率で成立 100回抽出したうち95回前後は成立＝ μ

Slide 114

Slide 114 text

母集団母平均μ 頻度主義区間推定「真の」確率モデル正規分布xxxxxx μ σ2 母集団が（母分散既知の）正規分布の場合の区間推定信頼度95%で μを推定せよデータを抽出信頼度95%の信頼区間 μ x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 95%の確率で成立 100回抽出したうち95回前後は成立＝

Slide 115

Slide 115 text

母集団母平均μ 頻度主義区間推定「真の」確率モデル正規分布xxxxxx μ σ2 母集団が（母分散既知の）正規分布の場合の区間推定信頼度95%で μを推定せよデータを抽出信頼度95%の信頼区間たまに外す μ x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 95%の確率で成立 100回抽出したうち95回前後は成立＝

Slide 116

Slide 116 text

母集団母平均μ 頻度主義区間推定「真の」確率モデル正規分布xxxxxx μ σ2 母集団が（母分散既知の）正規分布の場合の区間推定信頼度95%で μを推定せよデータを抽出信頼度95%の信頼区間たまに外すデータを抽出するたびに 95%信頼区間を計算すればそのうちの 95%は母平均を含む μ x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 95%の確率で成立 100回抽出したうち95回前後は成立＝

Slide 117

Slide 117 text

母集団母平均μ 頻度主義区間推定「真の」確率モデル正規分布xxxxxx μ σ2 母集団が（母分散既知の）正規分布の場合の区間推定信頼度95%で μを推定せよデータを抽出信頼度95%の信頼区間たまに外すデータを抽出するたびに 95%信頼区間を計算すればそのうちの 95%は母平均を含む μ x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 一度のデータ抽出で計算された信頼区間が実際に母平均を含むかどうかは分からない 95%の確率で成立 100回抽出したうち95回前後は成立＝

Slide 118

Slide 118 text

母集団が正規分布の場合の標本分布母集団「真の」確率モデル正規分布xxxxxx μ σ2 母平均μ 頻度主義区間推定

Slide 119

Slide 119 text

母集団が正規分布の場合の標本分布データを抽出 n個母集団標本 μ σ2 母平均μ 「真の」確率モデル正規分布xxxxxx 頻度主義区間推定

Slide 120

Slide 120 text

母集団が正規分布の場合の標本分布データを抽出 n個母集団標本 μ σ2 母平均μ 「真の」確率モデル正規分布xxxxxx 確率的に発生していると見なす頻度主義区間推定

Slide 121

Slide 121 text

母集団が正規分布の場合の標本分布データを抽出 n個母集団標本標本標本・・・ μ σ2 母平均μ 標本の値の分布 N回試行「真の」確率モデル正規分布xxxxxx 頻度主義区間推定

Slide 122

Slide 122 text

母集団が正規分布の場合の標本分布データを抽出 n個母集団標本標本標本・・・ μ σ2 母平均μ 標本の値の分布「真の」確率モデル正規分布xxxxxx 頻度主義区間推定

Slide 123

Slide 123 text

Slide 124

Slide 124 text

母集団が正規分布の場合の標本分布データを抽出 n個母集団標本標本標本・・・ μ σ2 母平均μ 標本の値の分布「真の」確率モデル正規分布xxxxxx 標本平均標本分布（標本平均の分布）頻度主義区間推定

Slide 125

Slide 125 text

Slide 126

Slide 126 text

母集団が正規分布の場合の標本分布データを抽出 n個母集団標本標本標本・・・ μ σ2 標本平均母平均μ 標本の値の分布「真の」確率モデル正規分布xxxxxx 標本分布（標本平均の分布）頻度主義区間推定

Slide 127

Slide 127 text

Slide 128

Slide 128 text

母集団が正規分布の場合の標本分布データを抽出 n個母集団標本標本標本・・・ μ σ2 標本平均母平均μ 標本分布（標本平均の分布）標本の値の分布「真の」確率モデル正規分布xxxxxx 頻度主義区間推定

Slide 129

Slide 129 text

母集団が正規分布の場合の標本分布データを抽出 n個母集団標本標本標本・・・ μ σ2 μ 標本平均母平均μ 標本分布（標本平均の分布）標本の値の分布「真の」確率モデル正規分布xxxxxx 頻度主義区間推定

Slide 130

Slide 130 text

母集団が正規分布の場合の標本分布データを抽出 n個母集団標本標本標本・・・ μ σ2 μ 標本平均一致する母平均μ 標本分布（標本平均の分布）標本の値の分布「真の」確率モデル正規分布xxxxxx 頻度主義区間推定

Slide 131

Slide 131 text

母集団が正規分布の場合の標本分布データを抽出 n個母集団標本標本標本・・・ μ σ2 標本平均母平均μ 標本分布（標本平均の分布）「真の」確率モデル正規分布xxxxxx μ 頻度主義区間推定

Slide 132

Slide 132 text

1.96 母集団が正規分布の場合の標本分布データを抽出 n個母集団標本標本標本・・・ μ σ2 μ 標本平均母平均μ 標本分布（標本平均の分布）「真の」確率モデル正規分布xxxxxx 1.96 95% 頻度主義区間推定

Slide 133

Slide 133 text

Slide 134

Slide 134 text

Slide 135

Slide 135 text

1.96 母集団が正規分布の場合の標本分布データを抽出 n個母集団標本標本標本・・・ μ σ2 μ 標本平均母平均μ 標本分布（標本平均の分布）「真の」確率モデル正規分布xxxxxx 1.96 95% 信頼度95%の信頼区間頻度主義区間推定

Slide 136

Slide 136 text

1.96 母集団が正規分布の場合の標本分布データを抽出 n個母集団標本標本標本・・・ μ σ2 μ 標本平均母平均μ 標本分布（標本平均の分布）「真の」確率モデル正規分布xxxxxx 1.96 95% 信頼度95%の信頼区間データ1つの時と比べて n 分の1だけ区間が狭くなっている頻度主義区間推定

Slide 137

Slide 137 text

母集団が正規分布の場合の標本分布データを抽出 n個母集団標本標本標本・・・ μ σ2 μ 標本平均母平均μ 標本分布（標本平均の分布）「真の」確率モデル正規分布xxxxxx 頻度主義区間推定狭い区間であっても 95%の確率で母平均が含まれる

Slide 138

Slide 138 text

● 点推定にしろ、区間推定にしろ、今回の推定がどの程度正しいのかは分からない（のだから問題せずに） ○ 不偏推定は、何度もデータ抽出を抽出し、同じ操作を繰り返せば、平均的には母数と等しくなる推定 ○ 信頼度◯◯%の信頼区間は、何度もデータを抽出し、同じ操作を繰り返せば、その間に母数が◯◯%入る区間の推定 ● 頻度主義統計学では、推定手法の数学的に妥当である場合に、その推定は正当である＝その推定が正しいと考える根拠がある、とみなす ○ ここでいう妥当である、妥当性があるとは、その推定方法を何度も繰り返せば推定対象を「よく」捉えられることが数学的に証明できていることを言う ○ 頻度主義統計学とは、今回の推定がどの程度正しいのかは誰にも分からないのだから、せめてより妥当な推定手法を考案しようというある意味割り切った学問頻度主義統計学の推測に対する考え方まとめ②

Slide 139

Slide 139 text

点推定区間推定記述統計学ベイズ統計学推測しない推測する統計学の分類仮説検定頻度主義統計学統計的推定推測統計学ここも軽く触れておく

Slide 140

Slide 140 text

普通のコイン表が出る確率1/4 レアコイン表が出る確率3/4 10回投げた結果からどちらかを判断する問題この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインであると判断して、このコインを買い取るだろうか。

Slide 141

Slide 141 text

普通のコイン表が出る確率1/4 レアコイン表が出る確率3/4 10回投げた結果からどちらかを判断する帰無仮説対立仮説問題この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインであると判断して、このコインを買い取るだろうか。

Slide 142

Slide 142 text

普通のコイン表が出る確率1/4 レアコイン表が出る確率3/4 帰無仮説対立仮説真問題この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインであると判断して、このコインを買い取るだろうか。

Slide 143

Slide 143 text

第一種の誤り帰無仮説が真であるにも関わらず、それを誤って棄却してしまう＝普通のコインであるにも関わらず、レアコインであると判断してしまう普通のコイン表が出る確率1/4 レアコイン表が出る確率3/4 帰無仮説対立仮説真問題この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインであると判断して、このコインを買い取るだろうか。

Slide 144

Slide 144 text

第一種の誤り帰無仮説が真であるにも関わらず、それを誤って棄却してしまう＝普通のコインであるにも関わらず、レアコインであると判断してしまう普通のコイン表が出る確率1/4 レアコイン表が出る確率3/4 帰無仮説対立仮説普通のコインを高値で買わされてしまう真問題この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインであると判断して、このコインを買い取るだろうか。

Slide 145

Slide 145 text

Slide 146

Slide 146 text

第一種の誤り帰無仮説が真であるにも関わらず、それを誤って棄却してしまう＝普通のコインであるにも関わらず、レアコインであると判断してしまう普通のコイン表が出る確率1/4 レアコイン表が出る確率3/4 帰無仮説対立仮説普通のコインを高値で買わされてしまう真第二種の誤り帰無仮説が偽であるにも関わらず、それを棄却しそびれる＝レアコインであるにも関わらず、普通のコインであると判断してしまう問題この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインであると判断して、このコインを買い取るだろうか。

Slide 147

Slide 147 text

第一種の誤り帰無仮説が真であるにも関わらず、それを誤って棄却してしまう＝普通のコインであるにも関わらず、レアコインであると判断してしまう普通のコイン表が出る確率1/4 レアコイン表が出る確率3/4 帰無仮説対立仮説普通のコインを高値で買わされてしまう真第二種の誤り帰無仮説が偽であるにも関わらず、それを棄却しそびれる＝レアコインであるにも関わらず、普通のコインであると判断してしまうレアコインを安値で買えるチャンスを逃す問題この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインであると判断して、このコインを買い取るだろうか。

Slide 148

Slide 148 text

0 1 10 2 3 4 5 6 7 9 8 θ＝0.25 0.0 0.1 0.2

Slide 149

Slide 149 text

0 1 10 2 3 4 5 6 7 9 8 θ＝0.25 閾値帰無仮説を棄却する 0.0 0.1 0.2

Slide 150

Slide 150 text

0 1 10 2 3 4 5 6 7 9 8 θ＝0.25 閾値帰無仮説が真である場合にも、ある程度の確率で発生するのに切り捨ててしまう帰無仮説を棄却する 0.0 0.1 0.2

Slide 151

Slide 151 text

0 1 10 2 3 4 5 6 7 9 8 θ＝0.25 閾値帰無仮説が真である場合にも、ある程度の確率で発生するのに切り捨ててしまう第一種の誤りの確率は、閾値以上の回数表が出る合計確率α 帰無仮説を棄却する 0.0 0.1 0.2

Slide 152

Slide 152 text

0 1 10 2 3 4 5 6 7 9 8 θ＝0.25 閾値帰無仮説が真である場合にも、ある程度の確率で発生するのに切り捨ててしまう第一種の誤りの確率は、閾値以上の回数表が出る合計確率α 有意水準＝帰無仮説を棄却する 0.0 0.1 0.2

Slide 153

Slide 153 text

0 1 10 2 3 4 5 6 7 9 8 θ＝0.25 閾値第一種の誤りの確率は、閾値以上の回数表が出る合計確率α 有意水準＝帰無仮説を棄却する 0.0 0.1 0.2 帰無仮説が真である場合にも、ある程度の確率で発生するのに切り捨ててしまう有意水準とは、この検定方法を用いて（この閾値を設定して）帰無仮説を棄却することを繰り返した場合に第一種の誤りが起こる確率であり、言わばこの検定の性質のようなもの。

Slide 154

Slide 154 text

有意水準とは、この検定方法を用いて（この閾値を設定して）帰無仮説を棄却することを繰り返した場合に第一種の誤りが起こる確率であり、言わばこの検定の性質のようなもの。例えば、「有意水準5%で帰無仮説が棄却されたのだから、このコインが普通のコインである確率は 5%以下だ」というのがよくある勘違いだが、そのような確率を考えることはできない。 0 1 10 2 3 4 5 6 7 9 8 θ＝0.25 閾値第一種の誤りの確率は、閾値以上の回数表が出る合計確率α 有意水準＝帰無仮説を棄却する 0.0 0.1 0.2 帰無仮説が真である場合にも、ある程度の確率で発生するのに切り捨ててしまう

Slide 155

Slide 155 text

0 1 10 2 3 4 5 6 7 9 8 θ＝0.25 C A B 0.0 0.1 0.2 α9.5✕10−5 % α7.8% α2.0% A B C 全部表だったときのみ帰無仮説を棄却する場合、第二種の誤りの確率 αは9.5✕10−5% 6回以上表だったとき帰無仮説を棄却する場合、第二種の誤りの確率 αは2.0% 5回以上表だったとき帰無仮説を棄却する場合、第二種の誤りの確率 αは7.8%

Slide 156

Slide 156 text

Slide 157

Slide 157 text

A 全部表だったときのみ帰無仮説を棄却する場合、第二種の誤りの確率 αは9.5✕10−5% B 6回以上表だったとき帰無仮説を棄却する場合、第二種の誤りの確率 αは2.0% C 5回以上表だったとき帰無仮説を棄却する場合、第二種の誤りの確率 αは7.8% 0 1 10 2 3 4 5 6 7 9 8 θ＝0.25 C A B 有意水準α 5%以下 0.0 0.1 0.2 α9.5✕10−5 % α7.8% α2.0% 帰無仮説が真だった場合に誤って棄却してしまう確率は小さくなっていくが、帰無仮説が偽だった場合に誤って棄却されない確率は大きくなっていく

Slide 158

Slide 158 text

0 1 10 2 3 4 5 6 7 9 8 θ＝0.25 θ＝0.75 0.0 0.1 0.2 0.0 0.1 0.2

Slide 159

Slide 159 text

0 1 10 2 3 4 5 6 7 9 8 θ＝0.25 θ＝0.75 閾値帰無仮説を棄却する帰無仮説を棄却しない 0.0 0.1 0.2 0.0 0.1 0.2

Slide 160

Slide 160 text

0 1 10 2 3 4 5 6 7 9 8 θ＝0.25 θ＝0.75 閾値帰無仮説を棄却する帰無仮説を棄却しない 0.0 0.1 0.2 0.0 0.1 0.2 真

Slide 161

Slide 161 text

0 1 10 2 3 4 5 6 7 9 8 θ＝0.25 θ＝0.75 0.0 0.1 0.2 0.0 0.1 0.2 閾値帰無仮説を棄却する帰無仮説を棄却しない第一種の誤りの確率は、閾値以上の回数表が出る合計確率α 真

Slide 162

Slide 162 text

Slide 163

Slide 163 text

0 1 10 2 3 4 5 6 7 9 8 θ＝0.25 θ＝0.75 0.0 0.1 0.2 0.0 0.1 0.2 閾値帰無仮説を棄却する帰無仮説を棄却しない第一種の誤りの確率は、閾値以上の回数表が出る合計確率α 第二種の誤りの確率は、閾値以下の回数表が出る合計確率β 真

Slide 164

Slide 164 text

0 1 10 2 3 4 5 6 7 9 8 θ＝0.25 θ＝0.75 0.0 0.1 0.2 0.0 0.1 0.2 C A B α9.5✕10−5 % α7.8% α2.0% 真

Slide 165

Slide 165 text

0 1 10 2 3 4 5 6 7 9 8 θ＝0.25 θ＝0.75 0.0 0.1 0.2 0.0 0.1 0.2 C A B A 全部表だったときのみ帰無仮説を棄却する場合、第二種の誤りの確率 βは94.4% B 6回以上表だったとき帰無仮説を棄却する場合、第二種の誤りの確率 βは7.8% C 5回以上表だったとき帰無仮説を棄却する場合、第二種の誤りの確率 βは2.0% 真 β94.4% β2.0% β7.8% α9.5✕10−5 % α7.8% α2.0%

Slide 166

Slide 166 text

0 1 10 2 3 4 5 6 7 9 8 θ＝0.25 θ＝0.75 0.0 0.1 0.2 0.0 0.1 0.2 C A B 真 β94.4% β2.0% β7.8% α9.5✕10−5 % α7.8% α2.0% 第一種の誤りの確率と第二種の誤りの確率はトレードオフの関係にある

Slide 167

Slide 167 text

普通のコイン表が出る確率1/4 レアコイン表が出る確率3/4 問題この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインであると判断して、このコインを買い取るだろうか。 10回投げた結果からどちらかを判断する帰無仮説対立仮説

Slide 168

Slide 168 text

普通のコイン表が出る確率1/4 レアコイン表が出る確率3/4 帰無仮説対立仮説実際の検定の流れ 20回に1回程度は誤って帰無仮説を棄却してしまっても仕方がないと考えるということ ① 有意水準を設定する（5%に設定されることが多い）問題この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインであると判断して、このコインを買い取るだろうか。

Slide 169

Slide 169 text

このように得られたデータと同等かそれ以上に極端な値が得られる確率をp値と呼ぶある意味、得られたデータのあり得なさそうな程度を表す普通のコイン表が出る確率1/4 レアコイン表が出る確率3/4 帰無仮説対立仮説実際の検定の流れ 20回に1回程度は誤って帰無仮説を棄却してしまっても仕方がないと考えるということ ① 有意水準を設定する（5%に設定されることが多い） ② 今、コインを投げたところ6回表が出たとする帰無仮説が正しいと仮定して、コインが 6回以上表が出る確率を計算すると2.0%となる問題この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインであると判断して、このコインを買い取るだろうか。

Slide 170

Slide 170 text

このように得られたデータと同等かそれ以上に極端な値が得られる確率をp値と呼ぶある意味、得られたデータのあり得なさそうな程度を表す普通のコイン表が出る確率1/4 レアコイン表が出る確率3/4 帰無仮説対立仮説実際の検定の流れ 20回に1回程度は誤って帰無仮説を棄却してしまっても仕方がないと考えるということ ① 有意水準を設定する（5%に設定されることが多い） ② 今、コインを投げたところ6回表が出たとする帰無仮説が正しいと仮定して、コインが 6回以上表が出る確率を計算すると2.0%となる ③ p値がαよりも小さいので、帰無仮説を棄却する問題この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインであると判断して、このコインを買い取るだろうか。帰無仮説が正しいとしたときには、あまり起こりにくいようなことが今起こっていると考えていると言える

Slide 171

Slide 171 text

● 有意水準5%で帰無仮説が棄却されたということは、証明したい仮説が正しい確率が 95%であるということを意味しないし、仮説検定それ自体は、当該仮説の真偽について、直接的には何も判断を下さない ○ 同じ状況に対して同じ検定を適用した時に、どの程度の割合で正しい答えを出すのかの頻度を表すにすぎない ● 有意水準や検出力といった確率はあくまで、仮説検定という手法自身の性質（「どれくらいの割合で間違うか」）であって、その適用対象である仮説の性質（「仮説の確からしさ」）や、その個別な適用結果である判断の性質（「判断の確からしさ」）ではない ○ 頻度主義では「このコインを次投げて表が出る確率は 1/2である」という命題が意味をなさないのと同様に、今まさに帰無仮説を棄却したという結果の正答率なるものを考えることはできない頻度主義統計学の推測に対する考え方まとめ③：仮説検定

Slide 172

Slide 172 text

● 頻度主義統計学が主張するのは、あくまで推定手法の妥当性であるにも関わらず、それらの手法によって推定された結果を我々人類は根拠あるものとして受け入れてきた ○ 点推定の結果は今回どの程度母数に近いのかは分からず、区間推定によって推定された信頼区間は実際に母数を含んでいるのかは保証せず、仮説検定それ自体は、当該仮説の真偽について、直接的には何も判断を下さないが、統計学推定の推定結果を我々は意思決定に使っている ■ 例：統計的仮説検定に基づいて効果があると認識された医薬品薬を我々は飲んでいる ● これは、（意識しているかどうかに関わらず、）妥当な推定手法によって推定された結果には、正しいと信じるべき一定の根拠があると了解しているということになる ○ 推定手法やプロセスが正しければ、真理に近づくことができるという共通認識を持っている（いい道具を使っていれば推定結果もある程度正しいはず）頻度主義の正当化概念

Slide 173

Slide 173 text

頻度主義統計学の考え方・論理展開まとめ ● 頻度主義統計学は、確率をあくまで頻度として扱う ○ パラメータについての仮説・命題がどの程度正しそうかを確率的に表すことはできない ■ 「例：平均身長が170cm以上である確率、A群の平均の重さよりも B群の平均の重さの方が大きい確率」といった確率を表すことはできない ● 「母集団を真の確率分布を持つデータ発生装置とみなし、真の確率分布から一個一個のデータが発生してサンプルが構成されるという見方」＝「頻度主義的統計モデリング」を導入する ○ サンプルは確率的に変動すると見なす一方で、母集団と母数は実際に観測可能かどうかに関わらず一意に決まるものと考える ● 推定を行うのに、事前に推定方法の確率的・統計的な性質を知っておく必要がある ○ 今の推定が当たっているかではなく、何度もその推定方法を繰り返した時に妥当な推定できいるか？を主張するのが頻度主義統計学という学問

Slide 174

Slide 174 text

頻度主義が批判されているポイント ● 論理体系が回りくどくて分かりにくい（でしょ？） ● そもそも一意に定まる母集団なんてものが存在するの？パラメータも一意の値を取るものなの？ ○ サニーレタスの母集団って何？未来永劫サニーレタスは生まれ続けるけど？ ○ 研究中の〇〇という肥料を与えたサニーレタスの母集団って何？ ● パラメータについての仮説・命題がどの程度正しそうかを確率的に表すことはできない ○ 「例：平均身長が170cm以上である確率、A群の平均の重さよりもB群の平均の重さの方が大きい確率」といった確率を表すことはできない

Slide 175

Slide 175 text

まとめ

Slide 176

Slide 176 text

● 頻度主義では、確率は客観的な頻度として捉え、「仮説が正しい確率」というものを考えることはできない ○ 「例：平均身長が170cm以上である確率、A群の平均の重さよりもB群の平均の重さの方が大きい確率」といった確率を表すことはできない ● 頻度主義統計学の推測に対する考え方まとめ②

Slide 177

Slide 177 text

● そもそも、観察・実験・調査を用いた経験主義的な科学の限界は、（全体から見た時に）一部の標本での結果しか得られないこと ○ 例えば、薬の臨床試験では、限られた人間でしか実験できず、「誰がやっても」「他の人間でも」「将来に渡って」同様の効果を得られるかどうかは極論分からない＝科学の本質である、客観性・普遍性・再現性は本質的には担保され得ない ● だからこそ、確率論的にデータの背後に潜む規則や構造を推察することで、帰納的推論を可能にするために統計学という学問は存在している ● 統計学は、科学的手法を確率論的に正当化することで、19世紀後半〜20世紀以降の科学の発展を支えてきた「縁の下の力持ち的学問」＝近代科学を科学たらしめてきた ○ 現代統計学の金字塔となったR.A.Fisherの著書の名は『研究者のための統計的方法』 ○ 例えば、実験心理学の父ヴィルヘルム・ヴントは、心理学に実験と統計学的分析を導入することで、それまでの哲学的な心理学とは異なる実証的な心理学という境地を拓いたなぜ統計学が必要とされるのか？ ?

Slide 178

Slide 178 text

Slide 179

Slide 179 text

● そもそも、観察・実験・調査を用いた経験主義的な科学の限界は、（全体から見た時に）一部の標本での結果しか得られないこと ○ 例えば、薬の臨床試験では、限られた人間でしか実験できず、「誰がやっても」「他の人間でも」「将来に渡って」同様の効果を得られるかどうかは極論分からない＝科学の本質である、客観性・普遍性・再現性は本質的には担保され得ない ● だからこそ、「観察されたデータに数学を応用」し、帰納的推論を可能にするために統計学という学問は存在している ● 統計学は、科学的手法を確率論的に正当化することで、19世紀後半〜20世紀以降の科学の発展を支えてきた「縁の下の力持ち的学問」＝近代科学を科学たらしめてきた ○ 現代統計学の金字塔となったR.A.Fisherの著書の名は『研究者のための統計的方法』 ○ 例えば、実験心理学の父ヴィルヘルム・ヴントは、心理学に実験と統計学的分析を導入することで、それまでの哲学的な心理学とは異なる実証的な心理学という境地を拓いたなぜ統計学が必要とされるのか？

Slide 180

Slide 180 text

「我々はどのようにして真なる知識を獲得できるのか？」なぜ統計学が必要とされるのか？

Slide 181

Slide 181 text

「我々はどのようにして真なる知識を獲得できるのか？」なぜ統計学が必要とされるのか？というソクラテスの時代から続く哲学的問題に人類は、

Slide 182

Slide 182 text

「我々はどのようにして真なる知識を獲得できるのか？」なぜ統計学が必要とされるのか？というソクラテスの時代から続く哲学的問題に人類は、「適切な統計処理によって結論が証明※されているのであれば、正しいだろう、科学的知識と認めてよいだろう」という共通認識を得ることで、心の安寧を得て、科学的進歩に邁進することができるようになった

Slide 183

Slide 183 text

● 帰納推論が、「知っていることを元手に知らないことを推測する」という非演繹的推論である以上、疑いの余地のない論理的な推論を行うことは不可能 ○ 統計学にできるのは、あくまで推論を正当化しようする試みでしかない ● 帰納推論を「どのように正当化することが正しいのか」＝「どのように正当化すべきか」という問いが決着することはおそらく永遠にない ○ 自分の行なっている正当化手法が哲学的問題を孕むことに自覚的になり、展開している議論が真理促進的かに厳しい批判の目を向け続ける必要がある ● 統計学は帰納推論に確率論的思考の枠組みを与えたことで、帰納推論の正当化のための議論を簡単にした一方で、本質的な危うさに無自覚にした最後に〜統計学に関する哲学的諸注意

Slide 184

Slide 184 text

Appendix

Slide 185

Slide 185 text

母集団が正規分布の場合の標本分布母集団「真の」確率モデル正規分布xxxxxx μ σ2 母平均μ

Slide 186

Slide 186 text

母集団が正規分布の場合の標本分布データを抽出 n個母集団標本 μ σ2 母平均μ 「真の」確率モデル正規分布xxxxxx

Slide 187

Slide 187 text

母集団が正規分布の場合の標本分布データを抽出 n個母集団標本 μ σ2 母平均μ 「真の」確率モデル正規分布xxxxxx 確率的に発生していると見なす

Slide 188

Slide 188 text

母集団が正規分布の場合の標本分布データを抽出 n個母集団標本標本標本・・・ μ σ2 母平均μ 標本の値の分布 N回試行「真の」確率モデル正規分布xxxxxx

Slide 189

Slide 189 text

母集団が正規分布の場合の標本分布データを抽出 n個母集団標本標本標本・・・ μ σ2 母平均μ 標本の値の分布「真の」確率モデル正規分布xxxxxx

Slide 190

Slide 190 text

母集団が正規分布の場合の標本分布データを抽出 n個母集団標本標本標本・・・ μ σ2 母平均μ 標本の値の分布「真の」確率モデル正規分布xxxxxx

Slide 191

Slide 191 text

母集団が正規分布の場合の標本分布データを抽出 n個母集団標本標本標本・・・ μ σ2 母平均μ 標本の値の分布「真の」確率モデル正規分布xxxxxx 標本平均標本分布（標本平均の分布）

Slide 192

Slide 192 text

母集団が正規分布の場合の標本分布データを抽出 n個母集団標本標本標本・・・ μ σ2 母平均μ 標本の値の分布「真の」確率モデル正規分布xxxxxx 標本平均標本分布（標本平均の分布）全くの別物

Slide 193

Slide 193 text

母集団が正規分布の場合の標本分布データを抽出 n個母集団標本標本標本・・・ μ σ2 標本平均母平均μ 標本の値の分布「真の」確率モデル正規分布xxxxxx 標本分布（標本平均の分布）全くの別物

Slide 194

Slide 194 text

Slide 195

Slide 195 text

母集団が正規分布の場合の標本分布データを抽出 n個母集団標本標本標本・・・ μ σ2 標本平均母平均μ 標本分布（標本平均の分布）標本の値の分布「真の」確率モデル正規分布xxxxxx 全くの別物

Slide 196

Slide 196 text

母集団が正規分布の場合の標本分布データを抽出 n個母集団標本標本標本・・・ μ σ2 μ 標本平均母平均μ 標本分布（標本平均の分布）標本の値の分布「真の」確率モデル正規分布xxxxxx 全くの別物

Slide 197

Slide 197 text

母集団が正規分布の場合の標本分布データを抽出 n個母集団標本標本標本・・・ μ σ2 μ 標本平均一致する母平均μ 標本分布（標本平均の分布）標本の値の分布「真の」確率モデル正規分布xxxxxx 全くの別物

Slide 198

Slide 198 text

母集団が正規分布の場合の標本分布データを抽出 n個母集団標本標本標本・・・ μ σ2 μ 標本平均一致する母平均μ 標本分布（標本平均の分布）標本の値の分布標本分布の平均（期待値）が、その統計量によって推定しようとしている母数の値に一致する時、その統計量は不偏性を持つというまた、普遍性をもつ統計量を母数の不偏推定量という「真の」確率モデル正規分布xxxxxx 全くの別物

Slide 199

Slide 199 text

母集団が正規分布の場合の標本分布データを抽出 n個母集団標本 μ σ2 μ 標本平均母平均μ 標本分布（標本平均の分布）標本の値の分布標本標本・・・一致する母集団の分布を正規分布だと仮定したときに、標本平均は母平均の不偏推定量になっているという性質を利用して、たまたま得られたサンプルの標本平均から母平均を推定することを不偏推定という「真の」確率モデル正規分布xxxxxx 全くの別物

Slide 200

Slide 200 text

母集団が正規分布の場合の標本分布データを抽出 n個母集団標本 μ σ2 μ 標本平均母平均μ 標本分布（標本平均の分布）標本の値の分布標本標本・・・一致するそのままの値で推定する母集団の分布を正規分布だと仮定したときに、標本平均は母平均の不偏推定量になっているという性質を利用して、たまたま得られたサンプルの標本平均から母平均を推定することを不偏推定という「真の」確率モデル正規分布xxxxxx 全くの別物

Slide 201

Slide 201 text

Slide 202

Slide 202 text

母集団が正規分布の場合の標本分布データを抽出 n個母集団標本 μ σ2 μ 標本平均母平均μ 標本分布（標本平均の分布）標本の値の分布標本標本・・・一致する母集団の分布を正規分布だと仮定したときに、標本平均は母平均の不偏推定量になっているという性質を利用して、たまたま得られたサンプルの標本平均から母平均を推定することを不偏推定というたまに母平均から大きくハズレてしまうこともあるが平均的には母平均に近い値をとるはずであると見なす「真の」確率モデル正規分布xxxxxx そのままの値で推定する

Slide 203

Slide 203 text

母集団が正規分布の場合の標本分布データを抽出 m個母集団・・・ μ σ2 母平均μ 「真の」確率モデル正規分布xxxxxx

Slide 204

Slide 204 text

母集団が正規分布の場合の標本分布データを抽出 m個母集団・・・ μ σ2 標本平均母平均μ 「真の」確率モデル正規分布xxxxxx

Slide 205

Slide 205 text

母集団が正規分布の場合の標本分布データを抽出 m個母集団・・・ μ σ2 μ 標本平均母平均μ 「真の」確率モデル正規分布xxxxxx

Slide 206

Slide 206 text

母集団が正規分布の場合の標本分布データを抽出 m個母集団・・・ μ σ2 μ 標本平均・・・データを抽出 n個母平均μ m << n 「真の」確率モデル正規分布xxxxxx

Slide 207

Slide 207 text

Slide 208

Slide 208 text

Slide 209

Slide 209 text

母集団が正規分布の場合の標本分布データを抽出 m個母集団・・・ μ σ2 μ 標本平均・・・データを抽出 n個母平均μ m << n サンプル数nが大きくなるほど、標本平均は母平均に近い値を取る確率が大きくなる「真の」確率モデル正規分布xxxxxx

Slide 210

Slide 210 text

母集団が任意の分布の標本分布母集団「真の」確率モデル母平均μ μ

Slide 211

Slide 211 text

母集団が任意の分布の標本分布データを抽出 m個母集団・・・「真の」確率モデル母平均μ μ

Slide 212

Slide 212 text

データを抽出 m個母集団・・・「真の」確率モデル母平均μ μ 母集団が任意の分布の標本分布

Slide 213

Slide 213 text

データを抽出 m個母集団・・・「真の」確率モデル標本平均母平均μ μ 母集団が任意の分布の標本分布

Slide 214

Slide 214 text

データを抽出 m個母集団・・・「真の」確率モデル μ 標本平均母平均μ μ 一致する母集団が任意の分布の標本分布

Slide 215

Slide 215 text

データを抽出 m個母集団・・・「真の」確率モデル μ 標本平均母平均μ μ ・・・データを抽出 n個 m << n 一致する母集団が任意の分布の標本分布

Slide 216

Slide 216 text

データを抽出 m個母集団・・・「真の」確率モデル μ 標本平均母平均μ μ ・・・データを抽出 n個 m << n 一致する母集団が任意の分布の標本分布

Slide 217

Slide 217 text

データを抽出 m個母集団・・・「真の」確率モデル μ 標本平均母平均μ μ ・・・データを抽出 n個 m << n 一致する母集団が任意の分布の標本分布

Slide 218

Slide 218 text

データを抽出 m個母集団・・・「真の」確率モデル μ 標本平均母平均μ μ ・・・データを抽出 n個 m << n 一致する xxxxxxxのとき、正規分布xxxxxxxxに近づく中心極限定理母集団が任意の分布の標本分布

Slide 219

Slide 219 text

フリースローをθの確率で入れることができるSさんが、今10回フリースローを行うとする例えば、10回中7回入る確率は二項分布によるモデリング 10 C 7 θ7(1−θ)3 出典：『SLAM DUNK』

Slide 220

Slide 220 text

フリースローをθの確率で入れることができるSさんが、今10回フリースローを行うとする例えば、10回中7回入る確率は二項分布によるモデリング 10 C 7 θ7(1−θ)3 回数 10 9 8 7 6 5 4 3 2 1 0 二項分布Bin(x|10,θ)＝ 10 C x θx(1−θ)n−x 出典：『SLAM DUNK』

Slide 221

Slide 221 text

母集団がベルヌーイ分布の場合の標本分布母集団母比率θ 1.0 0.5 0 θ 1−θ 1 0

Slide 222

Slide 222 text

母集団がベルヌーイ分布の場合の標本分布データを抽出 n個母集団標本母比率θ 1.0 0.5 0 θ 1−θ 1 0 ＝

Slide 223

Slide 223 text

母集団がベルヌーイ分布の場合の標本分布データを抽出 n個母集団標本母比率θ 1.0 0.5 0 θ 1−θ 1 0 ＝ n C x1 θx1(1−θ)n−x1

Slide 224

Slide 224 text

母集団がベルヌーイ分布の場合の標本分布データを抽出 n個母集団標本母比率θ 1.0 0.5 0 θ 1−θ 1 0 ＝ n C x1 θx1(1−θ)n−x1

Slide 225

Slide 225 text

母集団がベルヌーイ分布の場合の標本分布データを抽出 n個母集団標本母比率θ 1.0 0.5 0 θ 1−θ 1 0 ＝ n C x1 θx1(1−θ)n−x1 どのように推定するのがリーズナブルか？

Slide 226

Slide 226 text

母集団がベルヌーイ分布の場合の標本分布データを抽出 n個母集団標本標本標本・・・母比率θ 標本比率 1.0 0.5 0 θ 1−θ 1 0 ＝＝＝

Slide 227

Slide 227 text

母集団がベルヌーイ分布の場合の標本分布データを抽出 n個母集団標本標本標本・・・母比率θ 標本分布（標本比率の分布）標本比率＝＝＝ 1.0 0.5 0 θ 1−θ 1 0

Slide 228

Slide 228 text

母集団がベルヌーイ分布の場合の標本分布データを抽出 n個母集団標本標本標本・・・母比率θ 標本分布（標本比率の分布）標本比率＝＝＝ Bin(x|n,θ)= n C x θx(1−θ)n−x 1.0 0.5 0 θ 1−θ 1 0

Slide 229

Slide 229 text

母集団がベルヌーイ分布の場合の標本分布データを抽出 n個母集団標本標本標本・・・母比率θ 標本分布（標本比率の分布）標本比率＝＝＝ 1.0 0.5 0 θ 1−θ 1 0 平均θ Bin(x|n,θ)= n C x θx(1−θ)n−x

Slide 230

Slide 230 text

母集団がベルヌーイ分布の場合の標本分布データを抽出 n個母集団標本標本標本・・・母比率θ 標本分布（標本比率の分布）標本比率＝＝＝ 1.0 0.5 0 θ 1−θ 1 0 一致する母比率θの不偏推定量 Bin(x|n,θ)= n C x θx(1−θ)n−x 平均θ

Slide 231

Slide 231 text

Slide 232

Slide 232 text

母集団がベルヌーイ分布の場合の標本分布データを抽出 n個母集団標本標本標本・・・母比率θ 標本分布（標本比率の分布）標本比率＝＝＝ 1.0 0.5 0 θ 1−θ 1 0 一致する母比率θの不偏推定量 Bin(x|n,θ)= n C x θx(1−θ)n−x そのままの値で推定する平均θ

Slide 233

Slide 233 text

帰納推論と統計学 ● 我々は、帰納推論を行うとき、推論の対象となっている未観測の事象は、推論の前提となっているこれまで観測されてきた事象と同様だろう、と無意識に想定している（『統計学を哲学する』）＝自然の斉一性仮定 ● データは、背後にある確率モデルからランダムに抽出されるので、サンプルごとに変わるが、そのもととなる確率モデル自体は推論過程、あるいは未来を通じて同一に留まると仮定することで、データから確率モデルを推論することが可能であり、推論された確率モデルをもとに未来のデータも予測可能であるという形で、自然の斉一性を定式化している ● 統計学の本領は、確率を用いて自然の斉一性を定式化することによって、限られたデータから帰納推論を正確に行い、さらにその推論の確からしさや信頼性を評価する枠組みを与えることである ○ 統計学的議論の中では、統計モデリングはあくまで近似のための道具であると認めているが、自然の斉一性は真なるものとして仮定されていることには注意

Slide 234

Slide 234 text

● （①、②）頻度主義統計学における統計モデリングとは、得られたサンプルが、特定の確率分布にしたがう母集団から確率的に（たまたま）発生したと考えること ● （③、④）統計モデリングに基づき、母集団の統計量（平均、分散、相関係数etc…）を統計的に推定することで母集団同士の比較や未知のデータの予測が可能になる ○ 母集団の統計量（平均、分散、相関係数 etc…）を母数またはパラメータと呼ぶ頻度主義統計学における統計モデリングと点推定

Slide 235

Slide 235 text

頻度主義統計学における統計モデリングと点推定 ● （①、②）頻度主義統計学における統計モデリングとは、得られたサンプルが、特定の確率分布にしたがう母集団から確率的に（たまたま）発生したと考えること →→ どのように統計モデリングをすればいいのか？ ● （③、④）統計モデリングに基づき、母集団の統計量（平均、分散、相関係数etc…）を統計的に点推定することで母集団同士の比較や未知のデータの予測が可能になる ○ 母集団の統計量（平均、分散、相関係数 etc…）を母数またはパラメータと呼ぶ →→ どのように母数を推定するのか？

Slide 236

Slide 236 text

Slide 237

Slide 237 text

対象の事象の性質に基づく分布族の当てはめ ● 日本の中学生の男子の身長・体重 ● 全国統一小学生テストの点数正規分布 1.0 0.5 0 θ 1−θ 1 0 ベルヌーイ分布二項分布 θ ● コインを投げて裏表 ● 靴を投げて裏表 ● くじを引いて当たるか外れるか ● フリースローを投げて入るか入らないか例えば、コイン投げであれば、コインが立つという第3の可能性を捨象している例えば、中学生男子の身長は、どこまでも大きい / 小さい値を取ることはないということを捨象している

Slide 238

Slide 238 text

頻度主義統計学における統計モデリングと点推定 ● 推測統計では、大抵の場合、対象となる確率分布は、特定の関数形で与えられる分布（正規分布、二項分布、ポアソン分布、etc…）になると仮定する ○ これらの分布は有限個のパラメータでその関数形が決定される ○ このような対象の確率分布が特定の分布で与えられるとする考え方をパラメトリックと言う ● パラメトリックな推測統計では、モデリングの対象を一定の範囲の分布（要は有名で性質がよく知られた分布）に絞ることが一般的 ● このようなモデリングを分析者が自らの考察・経験に基づき、主観的に行うことが統計学の難しさ ○ 当然、分析者のモデリングがリーズナブルであるかは査定されるべき ○ モデルの選択を定量的に行う手法も存在する

Slide 239

Slide 239 text

点推定区間推定記述統計学ベイズ統計学推測しない推測する統計学の分類仮説検定頻度主義統計学統計的推定推測統計学ここも軽く触れておく

Slide 240

Slide 240 text

統計的仮説検定の考え方のイメージ 10回中9回表が出た本物のコインイカサマのコイン 10回中7回表が出た 0.879% 24.2% 11.7% 20.1%

Slide 241

Slide 241 text

Slide 242

Slide 242 text

統計的仮説検定の考え方のイメージ 10回中9回表が出た本物のコインイカサマのコイン 10回中7回表が出た 0.879% 24.2% 11.7% 20.1% 本物のコインだと仮定するとかなり奇跡的なことが起こっているが、イカサマのコインだと仮定すれば、十分起こり得そうどちらのコインだと仮定してもあり得ないというほどのことが起こっているわけではない本物のコインであるという仮説を棄却し、イカサマのコインであるという仮説を選択した方が妥当どちらの仮説も捨て去るほどでもなく、結果どちらの仮説を選択する方が妥当というのも言えない

Slide 243

Slide 243 text

データを抽出母集団A Aの標本データを抽出母集団B Bの標本頻度主義 A：弱い光を当てて育てた植物の重さ B：強い光を当てて育てた植物の重さ

Slide 244

Slide 244 text

サンプルにどれだけ差があるのかにはあまり興味がないデータを抽出母集団A Aの標本データを抽出母集団B Bの標本頻度主義 A：弱い光を当てて育てた植物の重さ B：強い光を当てて育てた植物の重さ本当に知りたいのは、母集団に差があるのか

Slide 245

Slide 245 text

データを抽出母集団A Aの標本データを抽出母集団B Bの標本頻度主義 A：弱い光を当てて育てた植物の重さ B：強い光を当てて育てた植物の重さ

Slide 246

Slide 246 text

頻度主義データを抽出母集団A Aの標本データを抽出母集団B Bの標本 μ A σ A 2 μ B σ B 2 母集団に差があるのか

Slide 247

Slide 247 text

頻度主義データを抽出母集団A Aの標本データを抽出母集団B Bの標本 μ A σ A 2 μ B σ B 2 平均値差 μ A-B

Slide 248

Slide 248 text

頻度主義データを抽出母集団A Aの標本データを抽出母集団B Bの標本 μ A σ A 2 μ B σ B 2 平均値差 μ A-B −

Slide 249

Slide 249 text

頻度主義データを抽出母集団A Aの標本データを抽出母集団B Bの標本 μ A σ A 2 μ B σ B 2 平均値差 μ A-B −

Slide 250

Slide 250 text

頻度主義データを抽出母集団A Aの標本データを抽出母集団B Bの標本 μ A σ A 2 μ B σ B 2 平均値差 μ A-B − 0 帰無仮説

Slide 251

Slide 251 text

頻度主義データを抽出母集団A Aの標本データを抽出母集団B Bの標本 μ A σ A 2 μ B σ B 2 平均値差 μ A-B − 0 帰無仮説 2.5%棄却域 2.5%棄却域

Slide 252

Slide 252 text

頻度主義データを抽出母集団A Aの標本データを抽出母集団B Bの標本 μ A σ A 2 μ B σ B 2 平均値差 μ A-B − 0 帰無仮説 2.5%棄却域 2.5%棄却域帰無仮説を支持するには、あまりにも（？）起きづらい確率

Slide 253

Slide 253 text

頻度主義データを抽出母集団A Aの標本データを抽出母集団B Bの標本 μ A σ A 2 μ B σ B 2 平均値差 μ A-B − 0 帰無仮説 2.5%棄却域 2.5%棄却域棄却する帰無仮説を支持するには、あまりにも（？）起きづらい確率

Slide 254

Slide 254 text

● 知りたいのは、サンプルではなく、あくまで母集団に差があるのか ● 2つの母集団が正規分布のとき、母集団の平均値差/平均値差の標準偏差の分布はt分布になる ● サンプルの標本平均値差が、母集団の平均値差を0とした時のt分布から発生したと仮定した時（帰無仮説）、その発生確率をp値と呼ぶ ● p値 < 5%（1%）のとき、今得られたサンプルの標本平均値差は、非常に「珍しい」ものだと考え、元の帰無仮説を棄却する ○ 帰無仮説が正しくない確率が 5%というわけでも、 2群の平均値差の検定

Slide 255

Slide 255 text

統計的仮説検定の考え方のイメージ 10回中9回表が出た本物のコインイカサマのコイン 10回中7回表が出た 0.879% 24.2% 11.7% 20.1%

Slide 256

Slide 256 text

Slide 257

Slide 257 text

Slide 258

Slide 258 text

データを抽出母集団A Aの標本データを抽出母集団B Bの標本頻度主義 A：弱い光を当てて育てた植物の重さ B：強い光を当てて育てた植物の重さ

Slide 259

Slide 259 text

Slide 260

Slide 260 text

データを抽出母集団A Aの標本データを抽出母集団B Bの標本頻度主義 A：弱い光を当てて育てた植物の重さ B：強い光を当てて育てた植物の重さ

Slide 261

Slide 261 text

頻度主義データを抽出母集団A Aの標本データを抽出母集団B Bの標本 μ A σ A 2 μ B σ B 2 母集団に差があるのか

Slide 262

Slide 262 text

頻度主義データを抽出母集団A Aの標本データを抽出母集団B Bの標本 μ A σ A 2 μ B σ B 2 平均値差 μ A-B

Slide 263

Slide 263 text

頻度主義データを抽出母集団A Aの標本データを抽出母集団B Bの標本 μ A σ A 2 μ B σ B 2 平均値差 μ A-B −

Slide 264

Slide 264 text

頻度主義データを抽出母集団A Aの標本データを抽出母集団B Bの標本 μ A σ A 2 μ B σ B 2 平均値差 μ A-B −

Slide 265

Slide 265 text

頻度主義データを抽出母集団A Aの標本データを抽出母集団B Bの標本 μ A σ A 2 μ B σ B 2 平均値差 μ A-B − 0 帰無仮説

Slide 266

Slide 266 text

頻度主義データを抽出母集団A Aの標本データを抽出母集団B Bの標本 μ A σ A 2 μ B σ B 2 平均値差 μ A-B − 0 帰無仮説 2.5%棄却域 2.5%棄却域