Upgrade to Pro — share decks privately, control downloads, hide ads and more …

頻度主義統計学を「完全に理解」しよう

ueniki
September 22, 2022

 頻度主義統計学を「完全に理解」しよう

ueniki

September 22, 2022
Tweet

More Decks by ueniki

Other Decks in Technology

Transcript

  1. 参考・オススメ文献 • 頻度主義統計学 ◦ 心理統計学の基礎 ◦ Rによるやさしい統計学 ◦ データ分析に必須の知識・考え方 統計学入門

    仮説検定から統計モデリングまで重要トピックを完 全網羅 • 統計学の哲学 ◦ 統計学を哲学する
  2. 頻度主義への批判とベイズ主義の台頭 • 頻度主義統計学の最も便利なツールである「統計学的仮説検定」の「p値」「有意性」 が批判にさらされており、ベイズ統計学が見直されてきた ◦ 科学的な結論やビジネス・政策上の決定は、「 p値が特定の閾値を超えたかどうか」だけに基づいて 行われるべきではない(『 The ASA

    Statement on p-Values: Context, Process, and Purpose』) • 頻度主義統計学は論理が回りくどく、本質を理解するのが非常に難しい(個人の感 想) ◦ 古典統計(=頻度主義統計学)の核となる検定のロジックはやや込み入っており、直感的に理解しに くい(『統計学を哲学する』) • ベイズ統計学の台頭に伴い、「統計学といえば頻度主義統計学を指す」というほど の地位は失いつつあるが、今なお多くの学問分野で頻度主義統計学が使われ続け てる ◦ 日本の大学でまず習うのは頻度主義統計学
  3. この勉強会の目的・ゴール • 頻度主義統計学であろうと、ベイズ統計学であろうと変わらない「統計学的な考え方」 の本質を理解する ◦ そもそも統計学とはどういう学問で、何のために学ぶのか を理解せずに数学的な理論だ けを学ぶからツラくなる • 頻度主義統計学の各推論手法の理論を「完全に理解する」

    ◦ 実際に使えるようになるにはプログラミングやデータの前処理などの知識も必要だが、まず は全体像をざっくり掴んで欲しい • 頻度主義統計学のロジックの癖や落とし穴を丁寧に理解し、自学するのがグッと楽 になる ◦ どこが分かりにくく、勘違いしやすいポイントなのかを重点的に解説する
  4. 記述統計学 頻度主義統計学 ベイズ統計学 推 測 し な い 推 測

    す る 統計学の分類 得られたデータの 統計的性質を分 析・可視化するこ とでデータの特徴 を捉える 得られたデータの みから、そのデー タが発生したした 背後のシステムを 推測する 推測統計学
  5. 統計学の分類(推測統計学を狭義に捉える場合もある) 記述統計学 頻度主義統計学 ベイズ統計学 推 測 し な い 推

    測 す る 得られたデータの 統計的性質を分 析・可視化するこ とでデータの特徴 を捉える 得られたデータの みから、そのデー タが発生したした 背後のシステムを 推測する 推測統計学
  6. 記述統計学 頻度主義統計学 ベイズ統計学 推 測 し な い 推 測

    す る 統計学の分類(今回はこちらの定義を採用) 統計学の 本丸 推測統計学 得られたデータの 統計的性質を分 析・可視化するこ とでデータの特徴 を捉える 得られたデータの みから、そのデー タが発生したした 背後のシステムを 推測する
  7. 統計学とは何か? • データの背後に潜む規則や構造を抽出する(モデリングする)ことによって、現象の 理解や未知の現象に対する予測を行う 規則や構造を抽出 ②未知の現象に対する予測を行う 統計モデリング & パラメータの推定 ①

    現象を理解する • 確率分布を用いてデータの背後に潜む規則や構造を抽出する(= 統計モデリング とパラメータの推定を行う)ことによって、現象の理解や未知の現象に対する予測を 行う
  8. 「真の」確率モデル 正規分布 データを抽出 母集団 標本 頻度主義 μ σ2 統計モデリング ①’

    母集団から確率的に発生した と見なす ① 母集団の分布が正規分布なのでは ないかと仮定する S2
  9. 「真の」確率モデル 正規分布 データを抽出 母集団 標本 頻度主義 μ σ2 ① 母集団の分布が正規分布なのでは

    ないかと仮定する 推定された確率モデル 正規分布 μ* σ*2 統計モデリング ①’ 母集団から確率的に発生した と見なす ② 標本統計量(標本平均と標本分散)から母集団の確率モデル=母 集団分布のパラメータ(母平均と母分散)を推定 S2
  10. 「真の」確率モデル 正規分布 データを抽出 母集団 標本 頻度主義 μ σ2 ① 母集団の分布が正規分布なのでは

    ないかと仮定する 推定された確率モデル 正規分布 μ* σ*2 完 全 に 一 致 は し な い 統計モデリング ①’ 母集団から確率的に発生した と見なす S2 ② 標本統計量(標本平均と標本分散)から母集団の確率モデル=母 集団分布のパラメータ(母平均と母分散)を推定
  11. 「真の」確率モデル 正規分布 推定された確率モデル 正規分布 母集団 予測 完 全 に 一

    致 は し な い 頻度主義 μ* σ*2 μ σ2 ③ データを予測 =確率的に発生させる
  12. 記述統計学 ベイズ統計学 推 測 し な い 推 測 す

    る 統計学の分類 統計的推定 仮説検定 頻度主義統計学 推測統計学
  13. 点推定 区間推定 記述統計学 ベイズ統計学 推 測 し な い 推

    測 す る 統計学の分類 仮説検定 頻度主義統計学 統計的推定 推測統計学 まずはここを 中心に
  14. データを抽出 母集団 標本 母平均μ 標本平均 頻度主義 点推定 の値そのままでμを推測するのが直感的 問: たまたま得られたサンプルの標本平均

    から母平均μをどのように推測するべきか? 標本統計量から母数を推測する方法 今得られたサンプルの標本平均
  15. データを抽出 母集団 標本 母平均μ 標本平均 頻度主義 点推定 の値そのままでμを推測するのが直感的 なぜそのような推測が妥当なのかを数学的に説明でき るか?

    問: たまたま得られたサンプルの標本平均 から母平均μをどのように推測するべきか? 標本統計量から母数を推測する方法 今得られたサンプルの標本平均
  16. データを抽出 母集団 標本 標本平均 標本 標本 ・ ・ ・ 標本平均

    標本平均 母平均μ 頻度主義 点推定 標本統計量から母数を推測する方法 問: たまたま得られたサンプルの標本平均 から母平均μをどのように推測するべきか? 今得られたサンプルの標本平均 は、 たまたまそのサンプルが選ばれたことに依 存する、一種の偶然の産物 (『心理統計学の基礎』)
  17. データを抽出 母集団 標本 標本平均 標本 標本 ・ ・ ・ 標本平均

    標本平均 母平均μ 頻度主義 点推定 標本統計量から母数を推測する方法 問: たまたま得られたサンプルの標本平均 から母平均μをどのように推測するべきか? 今得られたサンプルの標本平均 は、 たまたまそのサンプルが選ばれたことに依 存する、一種の偶然の産物 (『心理統計学の基礎』)
  18. データを抽出 母集団 標本 標本平均 標本 標本 ・ ・ ・ 標本平均

    標本平均 母平均μ 頻度主義 点推定 標本統計量から母数を推測する方法 問: たまたま得られたサンプルの標本平均 から母平均μをどのように推測するべきか? 標本統計量の値は サンプルごとに変動する 今得られたサンプルの標本平均 は、 たまたまそのサンプルが選ばれたことに依 存する、一種の偶然の産物 (『心理統計学の基礎』)
  19. データを抽出 母集団 標本 標本平均 標本 標本 ・ ・ ・ 標本平均

    標本平均 母平均μ 頻度主義 点推定 標本統計量から母数を推測する方法 問: たまたま得られたサンプルの標本平均 から母平均μをどのように推測するべきか? サンプル間でどのように 標本統計量が変動するのか? 今得られたサンプルの標本平均 は、 たまたまそのサンプルが選ばれたことに依 存する、一種の偶然の産物 (『心理統計学の基礎』)
  20. データを抽出 母集団 標本 標本平均 標本 標本 ・ ・ ・ 標本平均

    標本平均 母平均μ 頻度主義 点推定 標本統計量から母数を推測する方法 問: たまたま得られたサンプルの標本平均 から母平均μをどのように推測するべきか? サンプル間でどのように 標本統計量が変動するのか? 今得られたサンプルの標本平均 は、 たまたまそのサンプルが選ばれたことに依 存する、一種の偶然の産物 (『心理統計学の基礎』) どのように推定するのが リーズナブルか?
  21. 母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・

    標本の値 の分布 N回試行 μ 母集団が任意の分布の場合の標本平均の分布 母平均μ 母分散σ2
  22. 母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・

    標本の値 の分布 標本の値 の分布 μ 母集団が任意の分布の場合の標本平均の分布 母平均μ 母分散σ2
  23. 母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・

    標本の値 の分布 標本の値 の分布 μ 母集団が任意の分布の場合の標本平均の分布 母平均μ 母分散σ2
  24. 母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・

    標本の値 の分布 標本の値 の分布 標本平均 標本平均 の分布 μ 母集団が任意の分布の場合の標本平均の分布 母平均μ 母分散σ2
  25. 母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・

    標本の値 の分布 標本の値 の分布 標本平均 μ 母集団が任意の分布の場合の標本平均の分布 標本平均 の分布 母平均μ 母分散σ2
  26. 母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・

    標本の値 の分布 標本の値 の分布 標本平均 μ 母集団が任意の分布の場合の標本平均の分布 標本平均 の分布 母平均μ 母分散σ2 全くの別物
  27. 母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・

    標本の値 の分布 標本の値 の分布 標本平均 全くの別物 μ 母集団が任意の分布の場合の標本平均の分布 標本平均 の分布 母平均μ 母分散σ2
  28. 母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・

    標本の値 の分布 標本の値 の分布 標本平均 全くの別物 μ 母集団が任意の分布の場合の標本平均の分布 標本平均 の分布 母平均μ 母分散σ2
  29. 母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・

    標本の値 の分布 標本の値 の分布 標本平均 全くの別物 一致する μ 母集団が任意の分布の場合の標本平均の分布 標本平均 の分布 母平均μ 母分散σ2
  30. 母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・

    標本の値 の分布 標本の値 の分布 標本平均 全くの別物 一致する μ たまに母平均から大きくハズレてしまうことも あるが平均的には母平均に近い値をとる 母集団が任意の分布の場合の標本平均の分布 標本平均 の分布 母平均μ 母分散σ2
  31. 母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・

    標本の値 の分布 標本の値 の分布 標本平均 全くの別物 μ たまに母平均から大きくハズレてしまうことも あるが平均的には母平均に近い値をとる 今得られたサンプル 母集団が任意の分布の場合の標本平均の分布 標本平均 の分布 一致する 母平均μ 母分散σ2
  32. 母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・

    標本の値 の分布 標本の値 の分布 標本平均 全くの別物 たまに母平均から大きくハズレてしまうことも あるが平均的には母平均に近い値をとる 今得られたサンプル 母集団が任意の分布の場合の標本平均の分布 標本平均 の分布 一致する 母平均μ 母分散σ2 μ そのままの値で推定する
  33. 母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・

    標本の値 の分布 標本の値 の分布 標本平均 全くの別物 μ 今得られたサンプル 母集団が任意の分布の場合の標本平均の分布 標本平均 の分布 一致する 標本平均のように、期待値が推定したい母数に一 致する標本統計量を母数の 不偏推定量と呼ぶ 母平均μ 母分散σ2 そのままの値で推定する
  34. 母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・

    標本の値 の分布 標本の値 の分布 標本平均 全くの別物 μ 今得られたサンプル 母集団が任意の分布の場合の標本平均の分布 標本平均 の分布 一致する 標本平均のように、期待値が推定したい母数に一 致する標本統計量を母数の 不偏推定量と呼ぶ そのままの値で推定する (不偏推定) 母平均μ 母分散σ2
  35. 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・

    ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 母集団が任意の分布の場合の標本分散
  36. 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・

    ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 母集団が任意の分布の場合の標本分散
  37. 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・

    ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 標本分散 標本分散 の分布 母集団が任意の分布の場合の標本分散
  38. 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・

    ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 標本分散 標本分散 の分布 母集団が任意の分布の場合の標本分散
  39. 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・

    ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 標本分散 標本分散 の分布 母集団が任意の分布の場合の標本分散
  40. 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・

    ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 標本分散 標本分散 の分布 母集団が任意の分布の場合の標本分散
  41. 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・

    ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 標本分散 標本分散 の分布 一致しない 母集団が任意の分布の場合の標本分散
  42. 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・

    ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 標本分散 標本分散 の分布 一致しない 標本分散は母分散の 不偏推定量ではない 母集団が任意の分布の場合の標本分散
  43. 標本 標本 ・ ・ ・ 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出

    n個 標本 標本の値 の分布 標本の値 の分布 μ σ2 標本分散 標本分散 の分布 標本分散は母分散の 不偏推定量ではない 母集団が任意の分布の場合の標本分散 一致しない
  44. 標本 標本 ・ ・ ・ 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出

    n個 標本 標本の値 の分布 標本の値 の分布 μ σ2 標本分散 標本分散 の分布 標本分散は母分散の 不偏推定量ではない 母集団が任意の分布の場合の標本分散 標本分散で母分散を推測すると過小評価して しまう可能性がある 一致しない
  45. 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・

    ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 母集団が任意の分布の場合の不偏分散
  46. 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・

    ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 不偏分散 不偏分散 の分布 母集団が任意の分布の場合の不偏分散
  47. 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・

    ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 不偏分散 不偏分散 の分布 母集団が任意の分布の場合の不偏分散
  48. 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・

    ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 不偏分散 不偏分散 の分布 母集団が任意の分布の場合の不偏分散
  49. 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・

    ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 不偏分散 不偏分散 の分布 母集団が任意の分布の場合の不偏分散
  50. 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・

    ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 不偏分散 不偏分散 の分布 一致する 母集団が任意の分布の場合の不偏分散
  51. 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・

    ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 不偏分散 不偏分散 の分布 不偏分散は母分散の 不偏推定量になっている 一致する 母集団が任意の分布の場合の不偏分散
  52. 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本の値 の分布 標本の値

    の分布 μ σ2 不偏分散 不偏分散 の分布 不偏分散は母分散の 不偏推定量になっている 一致する 標本 標本 ・ ・ ・ 母集団が任意の分布の場合の不偏分散
  53. 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本の値 の分布 標本の値

    の分布 μ σ2 不偏分散 不偏分散 の分布 不偏分散は母分散の 不偏推定量になっている 一致する 標本 標本 ・ ・ ・ 母集団が任意の分布の場合の不偏分散 そのままの値で推定する (不偏推定)
  54. データを抽出 m個 母集団 ・ ・ ・ μ 標本平均 ・ ・

    ・ データを抽出 n個 m << n 一致する 母集団が任意の分布の標本分布 「真の」確率モデル μ 母平均μ 母分散σ2
  55. データを抽出 m個 母集団 ・ ・ ・ μ 標本平均 ・ ・

    ・ データを抽出 n個 m << n 一致する 母集団が任意の分布の標本分布 「真の」確率モデル μ 母平均μ 母分散σ2
  56. データを抽出 m個 母集団 ・ ・ ・ μ 標本平均 ・ ・

    ・ データを抽出 n個 m << n 一致する 母集団が任意の分布の標本分布 「真の」確率モデル μ 母平均μ 母分散σ2
  57. データを抽出 m個 母集団 ・ ・ ・ μ 標本平均 ・ ・

    ・ データを抽出 n個 m << n 一致する xxxxxxxのとき、正規分布xxxxxxxxに近づく 中心極限定理 母集団が任意の分布の標本分布 「真の」確率モデル μ 母平均μ 母分散σ2
  58. データを抽出 m個 母集団 ・ ・ ・ μ 標本平均 ・ ・

    ・ データを抽出 n個 m << n 一致する xxxxxxxのとき、正規分布xxxxxxxxに近づく 中心極限定理 母集団が任意の分布の標本分布 サンプル数nが大きくなるほど、 標本平均は母平均に 近い値を取る確率が大きくなる 「真の」確率モデル μ 母平均μ 母分散σ2
  59. 頻度主義統計学の推測に対する考え方まとめ • 「母集団を真の確率分布を持つデータ発生装置とみなし、 真の確率分布から一個一個のデータ が発生してサンプルが構成されるという見方」=「頻度主義的統計モデリング」を導入した ◦ サンプルは確率的に変動すると見なす一方で、母集団と母数は 実際に観測可能かどうかに関わら ず一意に決まるものと考える •

    このような統計モデリングを導入した上で、標本統計量の性質を導くことで、標本統計量から母 数を推定するリーズナブルな推定方法(不偏推定や最尤推定法等)を提示する ◦ 標本統計量から母数を推定する方法を提示するのに、先に母数と標本統計量の数学的な関係性を 熟知しておかなければならない
  60. 点推定 区間推定 記述統計学 ベイズ統計学 推 測 し な い 推

    測 す る 統計学の分類 仮説検定 頻度主義統計学 統計的推定 推測統計学 ここを中心に 見てきた
  61. 点推定 区間推定 記述統計学 ベイズ統計学 推 測 し な い 推

    測 す る 統計学の分類 仮説検定 頻度主義統計学 統計的推定 推測統計学 次はここを 見ていく
  62. データを抽出 母集団 標本 標本 標本 ・ ・ ・ 母平均μ 頻度主義

    区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 標本平均 今得られたサンプルの標本平均 母集団が正規分布の場合の区間推定
  63. データを抽出 母集団 標本 標本 標本 ・ ・ ・ 母平均μ 頻度主義

    区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 標本平均 今得られたサンプルの標本平均 μ 使って推定 母集団が正規分布の場合の区間推定
  64. データを抽出 母集団 標本 標本 標本 ・ ・ ・ 母平均μ 頻度主義

    区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 標本平均 今得られたサンプルの標本平均 母集団が正規分布の場合の区間推定 μ 使って推定
  65. データを抽出 母集団 標本 標本 標本 ・ ・ ・ 母平均μ 頻度主義

    区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 標本平均 今得られたサンプルの標本平均 点推定では、たまに真の μから 大きく外れてしまう 母集団が正規分布の場合の区間推定 μ 使って推定
  66. データを抽出 母集団 標本 標本 標本 ・ ・ ・ 母平均μ 頻度主義

    区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 標本平均 今得られたサンプルの標本平均 この区間にならおそらく真の母平均が 入っていそうという区間を推定する 母集団が正規分布の場合の区間推定 区間推定で幅を持って推定する μ 使って推定
  67. データを抽出 母集団 標本 標本 標本 ・ ・ ・ 母平均μ 頻度主義

    区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 標本平均 今得られたサンプルの標本平均 この区間にならおそらく真の母平均が 入っていそうという区間を推定する 母集団が正規分布の場合の区間推定 区間推定で幅を持って推定する μ 使って推定 95%の確率で母平均が含まれるような 区間を95%信頼区間という
  68. 母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 データを抽出 信頼度95%で

    μを推定せよ 母集団が(母分散既知の)正規分布の場合の区間推定
  69. 母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 データを抽出 信頼度95%で

    μを推定せよ 母集団が(母分散既知の)正規分布の場合の区間推定 μ σ2
  70. 母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 データを抽出 信頼度95%で

    μを推定せよ 母集団が(母分散既知の)正規分布の場合の区間推定 μ σ2 信頼度95%の信頼区間 95%の確率で成立
  71. 母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 データを抽出 信頼度95%で

    μを推定せよ 母集団が(母分散既知の)正規分布の場合の区間推定 μ σ2 信頼度95%の信頼区間 95%の確率で成立
  72. 母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 データを抽出 信頼度95%で

    μを推定せよ 母集団が(母分散既知の)正規分布の場合の区間推定 μ σ2 信頼度95%の信頼区間 95%の確率で成立 よくある間違った主張は、 「こうして求めた信頼区間 の間に95%の確率で母平均が含ま れる」という主張
  73. 母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 データを抽出 信頼度95%で

    μを推定せよ 母集団が(母分散既知の)正規分布の場合の区間推定 μ σ2 信頼度95%の信頼区間 95%の確率で成立 今回得られたxxから計算された 信頼区間でこのような主張は不可 よくある間違った主張は、 「こうして求めた信頼区間 の間に95%の確率で母平均が含ま れる」という主張
  74. 母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 データを抽出 信頼度95%で

    μを推定せよ 母集団が(母分散既知の)正規分布の場合の区間推定 μ σ2 信頼度95%の信頼区間 95%の確率で成立 今回得られたxxから計算された 信頼区間でこのような主張は不可 100回抽出したうち95回前後は成立 = よくある間違った主張は、 「こうして求めた信頼区間 の間に95%の確率で母平均が含ま れる」という主張
  75. 母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 データを抽出 信頼度95%で

    μを推定せよ 母集団が(母分散既知の)正規分布の場合の区間推定 μ σ2 信頼度95%の信頼区間 95%の確率で成立 今回得られたxxから計算された 信頼区間でこのような主張は不可 = 何度もデータを取り出しそのたびに 信頼区間を求めれば、そのうちの 95%は その区間内に母平均を含む 100回抽出したうち95回前後は成立 よくある間違った主張は、 「こうして求めた信頼区間 の間に95%の確率で母平均が含ま れる」という主張
  76. 母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 母集団が(母分散既知の)正規分布の場合の区間推定 信頼度95%で

    μを推定せよ データを抽出 信頼度95%の信頼区間 95%の確率で成立 100回抽出したうち95回前後は成立 = μ
  77. 母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 母集団が(母分散既知の)正規分布の場合の区間推定 信頼度95%で

    μを推定せよ データを抽出 信頼度95%の信頼区間 μ x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 95%の確率で成立 100回抽出したうち95回前後は成立 =
  78. 母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 母集団が(母分散既知の)正規分布の場合の区間推定 信頼度95%で

    μを推定せよ データを抽出 信頼度95%の信頼区間 たまに外す μ x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 95%の確率で成立 100回抽出したうち95回前後は成立 =
  79. 母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 母集団が(母分散既知の)正規分布の場合の区間推定 信頼度95%で

    μを推定せよ データを抽出 信頼度95%の信頼区間 たまに外す データを抽出するたびに 95%信頼区間を 計算すればそのうちの 95%は母平均を含む μ x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 95%の確率で成立 100回抽出したうち95回前後は成立 =
  80. 母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 母集団が(母分散既知の)正規分布の場合の区間推定 信頼度95%で

    μを推定せよ データを抽出 信頼度95%の信頼区間 たまに外す データを抽出するたびに 95%信頼区間を 計算すればそのうちの 95%は母平均を含む μ x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 一度のデータ抽出で計算された信頼区間が 実際に母平均を含むかどうかは分からない 95%の確率で成立 100回抽出したうち95回前後は成立 =
  81. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 母平均μ 標本の値 の分布 N回試行 「真の」確率モデル 正規分布xxxxxx 頻度主義 区間推定
  82. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 頻度主義 区間推定
  83. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 頻度主義 区間推定
  84. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 標本平均 標本分布 (標本平均 の分布) 頻度主義 区間推定
  85. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 標本平均 標本分布 (標本平均 の分布) 頻度主義 区間推定
  86. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 標本平均 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 標本分布 (標本平均 の分布) 頻度主義 区間推定
  87. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 標本平均 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 標本分布 (標本平均 の分布) 頻度主義 区間推定
  88. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 標本平均 母平均μ 標本分布 (標本平均 の分布) 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 頻度主義 区間推定
  89. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 μ 標本平均 母平均μ 標本分布 (標本平均 の分布) 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 頻度主義 区間推定
  90. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 μ 標本平均 一致する 母平均μ 標本分布 (標本平均 の分布) 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 頻度主義 区間推定
  91. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 標本平均 母平均μ 標本分布 (標本平均 の分布) 「真の」確率モデル 正規分布xxxxxx μ 頻度主義 区間推定
  92. 1.96 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・

    ・ μ σ2 μ 標本平均 母平均μ 標本分布 (標本平均 の分布) 「真の」確率モデル 正規分布xxxxxx 1.96 95% 頻度主義 区間推定
  93. 1.96 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・

    ・ μ σ2 μ 標本平均 母平均μ 標本分布 (標本平均 の分布) 「真の」確率モデル 正規分布xxxxxx 1.96 95% 頻度主義 区間推定
  94. 1.96 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・

    ・ μ σ2 μ 標本平均 母平均μ 標本分布 (標本平均 の分布) 「真の」確率モデル 正規分布xxxxxx 1.96 95% 頻度主義 区間推定
  95. 1.96 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・

    ・ μ σ2 μ 標本平均 母平均μ 標本分布 (標本平均 の分布) 「真の」確率モデル 正規分布xxxxxx 1.96 95% 信頼度95%の信頼区間 頻度主義 区間推定
  96. 1.96 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・

    ・ μ σ2 μ 標本平均 母平均μ 標本分布 (標本平均 の分布) 「真の」確率モデル 正規分布xxxxxx 1.96 95% 信頼度95%の信頼区間 データ1つの時と比べて n 分の1だけ区間が狭くなっている 頻度主義 区間推定
  97. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 μ 標本平均 母平均μ 標本分布 (標本平均 の分布) 「真の」確率モデル 正規分布xxxxxx 頻度主義 区間推定 狭い区間であっても 95%の確率で 母平均が含まれる
  98. • 点推定にしろ、区間推定にしろ、今回の推定がどの程度正しいのかは分からない(のだから問題 せずに) ◦ 不偏推定は、何度もデータ抽出を抽出し、同じ操作を繰り返せば 、平均的には母数と等しく なる推定 ◦ 信頼度◯◯%の信頼区間は、何度もデータを抽出し、同じ操作を繰り返せば 、その間に母

    数が◯◯%入る区間の推定 • 頻度主義統計学では、推定手法の数学的に妥当である場合に、その推定は正当である=その 推定が正しいと考える根拠がある、とみなす ◦ ここでいう妥当である、妥当性があるとは、その推定方法を何度も繰り返せば推定対象を 「よく」捉えられることが数学的に証明できていることを言う ◦ 頻度主義統計学とは、今回の推定がどの程度正しいのかは誰にも分からないのだから、 せめてより妥当な推定手法を考案しようというある意味割り切った学問 頻度主義統計学の推測に対する考え方まとめ②
  99. 点推定 区間推定 記述統計学 ベイズ統計学 推 測 し な い 推

    測 す る 統計学の分類 仮説検定 頻度主義統計学 統計的推定 推測統計学 ここも軽く触 れておく
  100. 普通のコイン 表が出る確率1/4 レアコイン 表が出る確率3/4 10回投げた結果から どちらかを判断する 帰無仮説 対立仮説 問題 この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは

    3/4の確率で裏が出る。ある 日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインで あると判断して、このコインを買い取るだろうか。
  101. 普通のコイン 表が出る確率1/4 レアコイン 表が出る確率3/4 帰無仮説 対立仮説 真 問題 この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある

    日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインで あると判断して、このコインを買い取るだろうか。
  102. 第一種の誤り 帰無仮説が真であるにも関わらず、それを誤って棄却してしまう =普通のコインであるにも関わらず、レアコインであると判断してしまう 普通のコイン 表が出る確率1/4 レアコイン 表が出る確率3/4 帰無仮説 対立仮説 真

    問題 この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある 日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインで あると判断して、このコインを買い取るだろうか。
  103. 第一種の誤り 帰無仮説が真であるにも関わらず、それを誤って棄却してしまう =普通のコインであるにも関わらず、レアコインであると判断してしまう 普通のコイン 表が出る確率1/4 レアコイン 表が出る確率3/4 帰無仮説 対立仮説 普通のコインを高値で買わされてしまう

    真 問題 この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある 日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインで あると判断して、このコインを買い取るだろうか。
  104. 第一種の誤り 帰無仮説が真であるにも関わらず、それを誤って棄却してしまう =普通のコインであるにも関わらず、レアコインであると判断してしまう 普通のコイン 表が出る確率1/4 レアコイン 表が出る確率3/4 帰無仮説 対立仮説 普通のコインを高値で買わされてしまう

    真 問題 この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある 日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインで あると判断して、このコインを買い取るだろうか。
  105. 第一種の誤り 帰無仮説が真であるにも関わらず、それを誤って棄却してしまう =普通のコインであるにも関わらず、レアコインであると判断してしまう 普通のコイン 表が出る確率1/4 レアコイン 表が出る確率3/4 帰無仮説 対立仮説 普通のコインを高値で買わされてしまう

    真 第二種の誤り 帰無仮説が偽であるにも関わらず、それを棄却しそびれる =レアコインであるにも関わらず、普通のコインであると判断してしまう 問題 この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある 日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインで あると判断して、このコインを買い取るだろうか。
  106. 第一種の誤り 帰無仮説が真であるにも関わらず、それを誤って棄却してしまう =普通のコインであるにも関わらず、レアコインであると判断してしまう 普通のコイン 表が出る確率1/4 レアコイン 表が出る確率3/4 帰無仮説 対立仮説 普通のコインを高値で買わされてしまう

    真 第二種の誤り 帰無仮説が偽であるにも関わらず、それを棄却しそびれる =レアコインであるにも関わらず、普通のコインであると判断してしまう レアコインを安値で買えるチャンスを逃す 問題 この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある 日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインで あると判断して、このコインを買い取るだろうか。
  107. 0 1 10 2 3 4 5 6 7 9

    8 θ=0.25 0.0 0.1 0.2
  108. 0 1 10 2 3 4 5 6 7 9

    8 θ=0.25 閾値 帰無仮説を棄却する 0.0 0.1 0.2
  109. 0 1 10 2 3 4 5 6 7 9

    8 θ=0.25 閾値 帰無仮説が真である場合に も、ある程度の確率で発生す るのに切り捨ててしまう 帰無仮説を棄却する 0.0 0.1 0.2
  110. 0 1 10 2 3 4 5 6 7 9

    8 θ=0.25 閾値 帰無仮説が真である場合に も、ある程度の確率で発生す るのに切り捨ててしまう 第一種の誤りの確率は、 閾値以上の回数表が出る 合計確率α 帰無仮説を棄却する 0.0 0.1 0.2
  111. 0 1 10 2 3 4 5 6 7 9

    8 θ=0.25 閾値 帰無仮説が真である場合に も、ある程度の確率で発生す るのに切り捨ててしまう 第一種の誤りの確率は、 閾値以上の回数表が出る 合計確率α 有意水準 = 帰無仮説を棄却する 0.0 0.1 0.2
  112. 0 1 10 2 3 4 5 6 7 9

    8 θ=0.25 閾値 第一種の誤りの確率は、 閾値以上の回数表が出る 合計確率α 有意水準 = 帰無仮説を棄却する 0.0 0.1 0.2 帰無仮説が真である場合に も、ある程度の確率で発生す るのに切り捨ててしまう 有意水準とは、この検定方法を用いて(この閾値を設定して)帰無仮説を棄却することを繰り返した場合に 第一種の誤りが起こる確率であり、言わばこの検定の性質のようなもの。
  113. 0 1 10 2 3 4 5 6 7 9

    8 θ=0.25 C A B 0.0 0.1 0.2 α9.5✕10−5 % α7.8% α2.0% A B C 全部表だったときのみ帰無仮説を棄却する場合、第二種の誤りの確率 αは9.5✕10−5% 6回以上表だったとき帰無仮説を棄却する場合、第二種の誤りの確率 αは2.0% 5回以上表だったとき帰無仮説を棄却する場合、第二種の誤りの確率 αは7.8%
  114. A 全部表だったときのみ帰無仮説を棄却する場合、第二種の誤りの確率 αは9.5✕10−5% B 6回以上表だったとき帰無仮説を棄却する場合、第二種の誤りの確率 αは2.0% C 5回以上表だったとき帰無仮説を棄却する場合、第二種の誤りの確率 αは7.8% 0

    1 10 2 3 4 5 6 7 9 8 θ=0.25 C A B 有意水準α 5%以下 0.0 0.1 0.2 α9.5✕10−5 % α7.8% α2.0% 帰無仮説が真だった場合に 誤って棄却してしまう確率は 小さくなっていくが、 帰無仮説が偽だった場合に 誤って棄却されない確率は 大きくなっていく
  115. 0 1 10 2 3 4 5 6 7 9

    8 θ=0.25 θ=0.75 0.0 0.1 0.2 0.0 0.1 0.2
  116. 0 1 10 2 3 4 5 6 7 9

    8 θ=0.25 θ=0.75 閾値 帰無仮説を棄却する 帰無仮説を棄却しない 0.0 0.1 0.2 0.0 0.1 0.2
  117. 0 1 10 2 3 4 5 6 7 9

    8 θ=0.25 θ=0.75 閾値 帰無仮説を棄却する 帰無仮説を棄却しない 0.0 0.1 0.2 0.0 0.1 0.2 真
  118. 0 1 10 2 3 4 5 6 7 9

    8 θ=0.25 θ=0.75 0.0 0.1 0.2 0.0 0.1 0.2 閾値 帰無仮説を棄却する 帰無仮説を棄却しない 第一種の誤りの確率は、 閾値以上の回数表が出る 合計確率α 真
  119. 0 1 10 2 3 4 5 6 7 9

    8 θ=0.25 θ=0.75 0.0 0.1 0.2 0.0 0.1 0.2 閾値 帰無仮説を棄却する 帰無仮説を棄却しない 第一種の誤りの確率は、 閾値以上の回数表が出る 合計確率α 真
  120. 0 1 10 2 3 4 5 6 7 9

    8 θ=0.25 θ=0.75 0.0 0.1 0.2 0.0 0.1 0.2 閾値 帰無仮説を棄却する 帰無仮説を棄却しない 第一種の誤りの確率は、 閾値以上の回数表が出る 合計確率α 第二種の誤りの確率は、 閾値以下の回数表が出る 合計確率β 真
  121. 0 1 10 2 3 4 5 6 7 9

    8 θ=0.25 θ=0.75 0.0 0.1 0.2 0.0 0.1 0.2 C A B α9.5✕10−5 % α7.8% α2.0% 真
  122. 0 1 10 2 3 4 5 6 7 9

    8 θ=0.25 θ=0.75 0.0 0.1 0.2 0.0 0.1 0.2 C A B A 全部表だったときのみ帰無仮説を棄却する場合、第二種の誤りの確率 βは94.4% B 6回以上表だったとき帰無仮説を棄却する場合、第二種の誤りの確率 βは7.8% C 5回以上表だったとき帰無仮説を棄却する場合、第二種の誤りの確率 βは2.0% 真 β94.4% β2.0% β7.8% α9.5✕10−5 % α7.8% α2.0%
  123. 0 1 10 2 3 4 5 6 7 9

    8 θ=0.25 θ=0.75 0.0 0.1 0.2 0.0 0.1 0.2 C A B 真 β94.4% β2.0% β7.8% α9.5✕10−5 % α7.8% α2.0% 第一種の誤りの確率と第二種の誤りの確率は トレードオフの関係にある
  124. 普通のコイン 表が出る確率1/4 レアコイン 表が出る確率3/4 帰無仮説 対立仮説 実際の検定の流れ 20回に1回程度は誤って帰無仮説を棄却してしまっても仕方が ないと考えるということ ①

    有意水準を設定する(5%に設定されることが多い) 問題 この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある 日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインで あると判断して、このコインを買い取るだろうか。
  125. このように得られたデータと同等かそれ以上に極端な値が得ら れる確率をp値と呼ぶ ある意味、得られたデータのあり得なさそうな程度を表す 普通のコイン 表が出る確率1/4 レアコイン 表が出る確率3/4 帰無仮説 対立仮説 実際の検定の流れ

    20回に1回程度は誤って帰無仮説を棄却してしまっても仕方が ないと考えるということ ① 有意水準を設定する(5%に設定されることが多い) ② 今、コインを投げたところ6回表が出たとする 帰無仮説が正しいと仮定して、コインが 6回以上表が出る確率を計 算すると2.0%となる 問題 この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある 日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインで あると判断して、このコインを買い取るだろうか。
  126. このように得られたデータと同等かそれ以上に極端な値が得ら れる確率をp値と呼ぶ ある意味、得られたデータのあり得なさそうな程度を表す 普通のコイン 表が出る確率1/4 レアコイン 表が出る確率3/4 帰無仮説 対立仮説 実際の検定の流れ

    20回に1回程度は誤って帰無仮説を棄却してしまっても仕方が ないと考えるということ ① 有意水準を設定する(5%に設定されることが多い) ② 今、コインを投げたところ6回表が出たとする 帰無仮説が正しいと仮定して、コインが 6回以上表が出る確率を計 算すると2.0%となる ③ p値がαよりも小さいので、帰無仮説を棄却する 問題 この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある 日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインで あると判断して、このコインを買い取るだろうか。 帰無仮説が正しいとしたときには、あまり起こりにくいようなこと が今起こっていると考えていると言える
  127. • 有意水準5%で帰無仮説が棄却されたということは、証明したい仮説が正しい確率が 95%である ということを意味しないし、仮説検定それ自体は、当該仮説の真偽について、直接的には何も判 断を下さない ◦ 同じ状況に対して同じ検定を適用した時に、どの程度の割合で正しい答えを出すのかの頻度を表す にすぎない • 有意水準や検出力といった確率はあくまで、仮説検定という手法自身の性質(「どれくらいの割

    合で間違うか」)であって、 その適用対象である仮説の性質(「仮説の確からしさ」)や、 その個別な適用結果である判断の性質(「判断の確からしさ」)ではない ◦ 頻度主義では「このコインを次投げて表が出る確率は 1/2である」という命題が意味をなさないのと同 様に、今まさに帰無仮説を棄却したという結果の正答率なるものを考えることはできない 頻度主義統計学の推測に対する考え方まとめ③:仮説検定
  128. 頻度主義統計学の考え方・論理展開まとめ • 頻度主義統計学は、確率をあくまで頻度として扱う ◦ パラメータについての仮説・命題がどの程度正しそうかを確率的に表すことはできない ▪ 「例:平均身長が170cm以上である確率、A群の平均の重さよりも B群の平均の重さの方が 大きい確率」といった確率を表すことはできない •

    「母集団を真の確率分布を持つデータ発生装置とみなし、真の確率分布から一個一個のデータ が発生してサンプルが構成されるという見方」=「頻度主義的統計モデリング」を導入する ◦ サンプルは確率的に変動すると見なす一方で、母集団と母数は実際に観測可能かどうかに関わら ず一意に決まるものと考える • 推定を行うのに、事前に推定方法の確率的・統計的な性質を知っておく必要がある ◦ 今の推定が当たっているかではなく、何度もその推定方法を繰り返した時に妥当な推定できいる か?を主張するのが頻度主義統計学という学問
  129. 頻度主義が批判されているポイント • 論理体系が回りくどくて分かりにくい(でしょ?) • そもそも一意に定まる母集団なんてものが存在するの?パラメータも一意の値を取 るものなの? ◦ サニーレタスの母集団って何?未来永劫サニーレタスは生まれ続けるけど? ◦ 研究中の〇〇という肥料を与えたサニーレタスの母集団って何?

    • パラメータについての仮説・命題がどの程度正しそうかを確率的に表すことはでき ない ◦ 「例:平均身長が170cm以上である確率、A群の平均の重さよりもB群の平均の重さの方 が大きい確率」といった確率を表すことはできない
  130. • そもそも、観察・実験・調査を用いた経験主義的な科学の限界は、(全体から見た 時に)一部の標本での結果しか得られないこと ◦ 例えば、薬の臨床試験では、限られた人間でしか実験できず、「誰がやっても」「他の人間でも」「将 来に渡って」同様の効果を得られるかどうかは極論分からない = 科学の本質である、客観性・普 遍性・再現性は本質的には担保され得ない •

    だからこそ、確率論的にデータの背後に潜む規則や構造を推察することで、帰納的 推論を可能にするために統計学という学問は存在している • 統計学は、科学的手法を確率論的に正当化することで、19世紀後半〜20世紀以 降の科学の発展を支えてきた「縁の下の力持ち的学問」=近代科学を科学たらし めてきた ◦ 現代統計学の金字塔となったR.A.Fisherの著書の名は『研究者のための統計的方法』 ◦ 例えば、実験心理学の父ヴィルヘルム・ヴントは、心理学に実験と統計学的分析を導入するこ とで、それまでの哲学的な心理学とは異なる実証的な心理学という境地を拓いた なぜ統計学が必要とされるのか? ?
  131. • そもそも、観察・実験・調査を用いた経験主義的な科学の限界は、(全体から見た 時に)一部の標本での結果しか得られないこと ◦ 例えば、薬の臨床試験では、限られた人間でしか実験できず、「誰がやっても」「他の人間でも」「将 来に渡って」同様の効果を得られるかどうかは極論分からない = 科学の本質である、客観性・普 遍性・再現性は本質的には担保され得ない •

    だからこそ、確率論的にデータの背後に潜む規則や構造を推察することで、帰納的 推論を可能にするために統計学という学問は存在している • 統計学は、科学的手法を確率論的に正当化することで、19世紀後半〜20世紀以 降の科学の発展を支えてきた「縁の下の力持ち的学問」=近代科学を科学たらし めてきた ◦ 現代統計学の金字塔となったR.A.Fisherの著書の名は『研究者のための統計的方法』 ◦ 例えば、実験心理学の父ヴィルヘルム・ヴントは、心理学に実験と統計学的分析を導入するこ とで、それまでの哲学的な心理学とは異なる実証的な心理学という境地を拓いた なぜ統計学が必要とされるのか?
  132. • そもそも、観察・実験・調査を用いた経験主義的な科学の限界は、(全体から見た 時に)一部の標本での結果しか得られないこと ◦ 例えば、薬の臨床試験では、限られた人間でしか実験できず、「誰がやっても」「他の人間でも」「将 来に渡って」同様の効果を得られるかどうかは極論分からない = 科学の本質である、客観性・普 遍性・再現性は本質的には担保され得ない •

    だからこそ、「観察されたデータに数学を応用」し、帰納的推論を可能にするために 統計学という学問は存在している • 統計学は、科学的手法を確率論的に正当化することで、19世紀後半〜20世紀以 降の科学の発展を支えてきた「縁の下の力持ち的学問」=近代科学を科学たらし めてきた ◦ 現代統計学の金字塔となったR.A.Fisherの著書の名は『研究者のための統計的方法』 ◦ 例えば、実験心理学の父ヴィルヘルム・ヴントは、心理学に実験と統計学的分析を導入するこ とで、それまでの哲学的な心理学とは異なる実証的な心理学という境地を拓いた なぜ統計学が必要とされるのか?
  133. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 母平均μ 標本の値 の分布 N回試行 「真の」確率モデル 正規分布xxxxxx
  134. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx
  135. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx
  136. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 標本平均 標本分布 (標本平均 の分布)
  137. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 標本平均 標本分布 (標本平均 の分布) 全くの別物
  138. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 標本平均 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 標本分布 (標本平均 の分布) 全くの別物
  139. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 標本平均 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 標本分布 (標本平均 の分布) 全くの別物
  140. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 標本平均 母平均μ 標本分布 (標本平均 の分布) 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 全くの別物
  141. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 μ 標本平均 母平均μ 標本分布 (標本平均 の分布) 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 全くの別物
  142. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 μ 標本平均 一致する 母平均μ 標本分布 (標本平均 の分布) 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 全くの別物
  143. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 μ 標本平均 一致する 母平均μ 標本分布 (標本平均 の分布) 標本の値 の分布 標本分布の平均(期待値)が、 その統計量によって推定しようとしている母数の値に一 致する時、その統計量は 不偏性を持つという また、普遍性をもつ統計量を母数の 不偏推定量という 「真の」確率モデル 正規分布xxxxxx 全くの別物
  144. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 μ σ2 μ 標本平均 母平均μ

    標本分布 (標本平均 の分布) 標本の値 の分布 標本 標本 ・ ・ ・ 一致する 母集団の分布を正規分布だと仮定したときに、 標本平均は母平均の 不偏推定量になっているという性 質を利用して、 たまたま得られたサンプルの標本平均から母平均を推 定することを不偏推定という 「真の」確率モデル 正規分布xxxxxx 全くの別物
  145. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 μ σ2 μ 標本平均 母平均μ

    標本分布 (標本平均 の分布) 標本の値 の分布 標本 標本 ・ ・ ・ 一致する そのままの値で推定する 母集団の分布を正規分布だと仮定したときに、 標本平均は母平均の 不偏推定量になっているという性 質を利用して、 たまたま得られたサンプルの標本平均から母平均を推 定することを不偏推定という 「真の」確率モデル 正規分布xxxxxx 全くの別物
  146. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 μ σ2 μ 標本平均 母平均μ

    標本分布 (標本平均 の分布) 標本の値 の分布 標本 標本 ・ ・ ・ 一致する 母集団の分布を正規分布だと仮定したときに、 標本平均は母平均の 不偏推定量になっているという性 質を利用して、 たまたま得られたサンプルの標本平均から母平均を推 定することを不偏推定という 「真の」確率モデル 正規分布xxxxxx そのままの値で推定する 全くの別物
  147. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 μ σ2 μ 標本平均 母平均μ

    標本分布 (標本平均 の分布) 標本の値 の分布 標本 標本 ・ ・ ・ 一致する 母集団の分布を正規分布だと仮定したときに、 標本平均は母平均の 不偏推定量になっているという性 質を利用して、 たまたま得られたサンプルの標本平均から母平均を推 定することを不偏推定という たまに母平均から大きくハズレてしまうこともあるが 平均的には母平均に近い値をとるはずであると見なす 「真の」確率モデル 正規分布xxxxxx そのままの値で推定する
  148. 母集団が正規分布の場合の標本分布 データを抽出 m個 母集団 ・ ・ ・ μ σ2 μ

    標本平均 母平均μ 「真の」確率モデル 正規分布xxxxxx
  149. 母集団が正規分布の場合の標本分布 データを抽出 m個 母集団 ・ ・ ・ μ σ2 μ

    標本平均 ・ ・ ・ データを抽出 n個 母平均μ m << n 「真の」確率モデル 正規分布xxxxxx
  150. 母集団が正規分布の場合の標本分布 データを抽出 m個 母集団 ・ ・ ・ μ σ2 μ

    標本平均 ・ ・ ・ データを抽出 n個 母平均μ m << n 「真の」確率モデル 正規分布xxxxxx
  151. 母集団が正規分布の場合の標本分布 データを抽出 m個 母集団 ・ ・ ・ μ σ2 μ

    標本平均 ・ ・ ・ データを抽出 n個 母平均μ m << n 「真の」確率モデル 正規分布xxxxxx
  152. 母集団が正規分布の場合の標本分布 データを抽出 m個 母集団 ・ ・ ・ μ σ2 μ

    標本平均 ・ ・ ・ データを抽出 n個 母平均μ m << n サンプル数nが大きくなるほど、標本平均は母平均に 近い値を取る確率が大きくなる 「真の」確率モデル 正規分布xxxxxx
  153. データを抽出 m個 母集団 ・ ・ ・ 「真の」確率モデル μ 標本平均 母平均μ

    μ ・ ・ ・ データを抽出 n個 m << n 一致する 母集団が任意の分布の標本分布
  154. データを抽出 m個 母集団 ・ ・ ・ 「真の」確率モデル μ 標本平均 母平均μ

    μ ・ ・ ・ データを抽出 n個 m << n 一致する 母集団が任意の分布の標本分布
  155. データを抽出 m個 母集団 ・ ・ ・ 「真の」確率モデル μ 標本平均 母平均μ

    μ ・ ・ ・ データを抽出 n個 m << n 一致する 母集団が任意の分布の標本分布
  156. データを抽出 m個 母集団 ・ ・ ・ 「真の」確率モデル μ 標本平均 母平均μ

    μ ・ ・ ・ データを抽出 n個 m << n 一致する xxxxxxxのとき、正規分布xxxxxxxxに近づく 中心極限定理 母集団が任意の分布の標本分布
  157. 母集団がベルヌーイ分布の場合の標本分布 データを抽出 n個 母集団 標本 母比率θ 1.0 0.5 0 θ

    1−θ 1 0 = n C x1 θx1(1−θ)n−x1 どのように推定するのが リーズナブルか?
  158. 母集団がベルヌーイ分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    母比率θ 標本分布 (標本比率 の分布) 標本比率 = = = 1.0 0.5 0 θ 1−θ 1 0
  159. 母集団がベルヌーイ分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    母比率θ 標本分布 (標本比率 の分布) 標本比率 = = = Bin(x|n,θ)= n C x θx(1−θ)n−x 1.0 0.5 0 θ 1−θ 1 0
  160. 母集団がベルヌーイ分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    母比率θ 標本分布 (標本比率 の分布) 標本比率 = = = 1.0 0.5 0 θ 1−θ 1 0 平均θ Bin(x|n,θ)= n C x θx(1−θ)n−x
  161. 母集団がベルヌーイ分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    母比率θ 標本分布 (標本比率 の分布) 標本比率 = = = 1.0 0.5 0 θ 1−θ 1 0 一致する 母比率θの不偏推定量 Bin(x|n,θ)= n C x θx(1−θ)n−x 平均θ
  162. 母集団がベルヌーイ分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    母比率θ 標本分布 (標本比率 の分布) 標本比率 = = = 1.0 0.5 0 θ 1−θ 1 0 一致する 母比率θの不偏推定量 Bin(x|n,θ)= n C x θx(1−θ)n−x 平均θ
  163. 母集団がベルヌーイ分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    母比率θ 標本分布 (標本比率 の分布) 標本比率 = = = 1.0 0.5 0 θ 1−θ 1 0 一致する 母比率θの不偏推定量 Bin(x|n,θ)= n C x θx(1−θ)n−x そのままの値で推定する 平均θ
  164. 帰納推論と統計学 • 我々は、帰納推論を行うとき、推論の対象となっている未観測の事象は、推論の前提となっているこ れまで観測されてきた事象と同様だろう、と無意識に想定している(『統計学を哲学する』)=自然の 斉一性仮定 • データは、背後にある確率モデルからランダムに抽出されるので、サンプルごとに変わるが、そのも ととなる確率モデル自体は推論過程、あるいは未来を通じて同一に留まると仮定することで、 データから確率モデルを推論することが可能であり、 推論された確率モデルをもとに未来のデータも予測可能である

    という形で、自然の斉一性を定式化している • 統計学の本領は、確率を用いて自然の斉一性を定式化することによって、限られたデータから帰納 推論を正確に行い、さらにその推論の確からしさや信頼性を評価する枠組みを与えることである ◦ 統計学的議論の中では、統計モデリングはあくまで近似のための道具であると認めている が、自然の斉一性は真なるものとして仮定されていることには注意
  165. 対象の事象の性質に基づく分布族の当てはめ • 日本の中学生の男子の身長・体重 • 全国統一小学生テストの点数 正規分布 1.0 0.5 0 θ

    1−θ 1 0 ベルヌーイ分布 二項分布 θ • コインを投げて裏表 • 靴を投げて裏表 • くじを引いて当たるか外れるか • フリースローを投げて入るか入らないか 例えば、コイン投げであれば、コインが立つという第3の可 能性を捨象している 例えば、中学生男子の身長は、どこまでも大きい / 小さい値 を取ることはないということを捨象している
  166. 点推定 区間推定 記述統計学 ベイズ統計学 推 測 し な い 推

    測 す る 統計学の分類 仮説検定 頻度主義統計学 統計的推定 推測統計学 ここも軽く触 れておく
  167. 統計的仮説検定の考え方のイメージ 10回中9回表が出た 本物のコイン イカサマのコイン 10回中7回表が出た 0.879% 24.2% 11.7% 20.1% 本物のコインだと仮定するとかなり奇跡

    的なことが起こっているが、イカサマのコ インだと仮定すれば、十分起こり得そう どちらのコインだと仮定してもあり得ない というほどのことが起こっているわけでは ない
  168. 統計的仮説検定の考え方のイメージ 10回中9回表が出た 本物のコイン イカサマのコイン 10回中7回表が出た 0.879% 24.2% 11.7% 20.1% 本物のコインだと仮定するとかなり奇跡

    的なことが起こっているが、イカサマのコ インだと仮定すれば、十分起こり得そう どちらのコインだと仮定してもあり得ない というほどのことが起こっているわけでは ない 本物のコインであるという仮説を棄却し、 イカサマのコインであるという仮説を選択 した方が妥当 どちらの仮説も捨て去るほどでもなく、結 果どちらの仮説を選択する方が妥当とい うのも言えない
  169. 頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ

    A 2 μ B σ B 2 平均値差 μ A-B − 0 帰無仮説 2.5%棄却域 2.5%棄却域
  170. 頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ

    A 2 μ B σ B 2 平均値差 μ A-B − 0 帰無仮説 2.5%棄却域 2.5%棄却域 帰無仮説を支持するには、 あまりにも(?)起きづらい確率
  171. 頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ

    A 2 μ B σ B 2 平均値差 μ A-B − 0 帰無仮説 2.5%棄却域 2.5%棄却域 棄却する 帰無仮説を支持するには、 あまりにも(?)起きづらい確率
  172. 統計的仮説検定の考え方のイメージ 10回中9回表が出た 本物のコイン イカサマのコイン 10回中7回表が出た 0.879% 24.2% 11.7% 20.1% 本物のコインだと仮定するとかなり奇跡

    的なことが起こっているが、イカサマのコ インだと仮定すれば、十分起こり得そう どちらのコインだと仮定してもあり得ない というほどのことが起こっているわけでは ない
  173. 統計的仮説検定の考え方のイメージ 10回中9回表が出た 本物のコイン イカサマのコイン 10回中7回表が出た 0.879% 24.2% 11.7% 20.1% 本物のコインだと仮定するとかなり奇跡

    的なことが起こっているが、イカサマのコ インだと仮定すれば、十分起こり得そう どちらのコインだと仮定してもあり得ない というほどのことが起こっているわけでは ない 本物のコインであるという仮説を棄却し、 イカサマのコインであるという仮説を選択 した方が妥当 どちらの仮説も捨て去るほどでもなく、結 果どちらの仮説を選択する方が妥当とい うのも言えない
  174. 頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ

    A 2 μ B σ B 2 平均値差 μ A-B − 0 帰無仮説 2.5%棄却域 2.5%棄却域
  175. 頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ

    A 2 μ B σ B 2 平均値差 μ A-B − 0 帰無仮説 2.5%棄却域 2.5%棄却域 帰無仮説を支持するには、 あまりにも(?)起きづらい確率
  176. 頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ

    A 2 μ B σ B 2 平均値差 μ A-B − 0 帰無仮説 2.5%棄却域 2.5%棄却域 棄却する 帰無仮説を支持するには、 あまりにも(?)起きづらい確率