$30 off During Our Annual Pro Sale. View Details »

頻度主義統計学を「完全に理解」しよう

ueniki
September 22, 2022

 頻度主義統計学を「完全に理解」しよう

ueniki

September 22, 2022
Tweet

More Decks by ueniki

Other Decks in Technology

Transcript

  1. 頻度主義統計学を「完全に理解」しよう

  2. 上野彰大 大阪府堺市生まれ・育ち 東京大学大学院農学生命科学研究科卒 PharmaX取締役・エンジニア責任者 (旧YOJO Technologies) 自己紹介 Twitter:@ueeeeniki

  3. (C)PharmaX Inc. 2022 All Rights Reserve 3 会社名変更&プレスリリースのお知らせ

  4. (C)PharmaX Inc. 2022 All Rights Reserve 4 カジュアルにお話しませんか?

  5. • この勉強会のモチベーションとゴール • 統計学入門 〜統計学・統計モデリングとは何か?〜 • 頻度主義統計学入門 〜頻度主義的考え方〜 ◦ 点推定

    ◦ 区間推定 ◦ 統計的仮説検定 • まとめ アジェンダ
  6. 参考・オススメ文献 • 頻度主義統計学 ◦ 心理統計学の基礎 ◦ Rによるやさしい統計学 ◦ データ分析に必須の知識・考え方 統計学入門

    仮説検定から統計モデリングまで重要トピックを完 全網羅 • 統計学の哲学 ◦ 統計学を哲学する
  7. 推奨する前提知識 • 下記については補足をするが、ある程度の知識があることが望ましい ◦ 頻度主義統計学の基礎知識(母集団の推定、検定など用語を知っていている 程度) ◦ 高校程度の数学知識(簡単な確率計算にアレルギーを感じない程度) • 仮に詳細が理解できない箇所があったとしても、議論の大枠を理解することは可能

    です
  8. この勉強会のモチベーションとゴール

  9. 統計学史上最大の論争 頻度主義統計学 (古典統計学) ベイズ統計学 VS

  10. 統計学的主義を巡る150年以上に渡る論争 • 頻度主義統計学者たちは、徹底的にベイズ統計学を批判してきた(「頻度主義にあら ずんば統計学にあらず」) • (頻度主義vsベイズ主義の)論争の中で人類が向き合ったのは、「人は証拠をどのよ うに分析し、(中略)不確かな状況下でいかに合理的な決定を下すのか」という問題 (『異端の統計学ベイズ』) • 両者では、

    ①何に確率を適用しているのか(確率とは何か) ② どのように推論を行うのか、何を持って推論できていると見なすのか(推論すると はどういういことか) が異なる 参考:『統計初心者がベイズ統計学に入門するまでの勉強法 』(私記事)
  11. 頻度主義への批判とベイズ主義の台頭 • 頻度主義統計学の最も便利なツールである「統計学的仮説検定」の「p値」「有意性」 が批判にさらされており、ベイズ統計学が見直されてきた ◦ 科学的な結論やビジネス・政策上の決定は、「 p値が特定の閾値を超えたかどうか」だけに基づいて 行われるべきではない(『 The ASA

    Statement on p-Values: Context, Process, and Purpose』) • 頻度主義統計学は論理が回りくどく、本質を理解するのが非常に難しい(個人の感 想) ◦ 古典統計(=頻度主義統計学)の核となる検定のロジックはやや込み入っており、直感的に理解しに くい(『統計学を哲学する』) • ベイズ統計学の台頭に伴い、「統計学といえば頻度主義統計学を指す」というほど の地位は失いつつあるが、今なお多くの学問分野で頻度主義統計学が使われ続け てる ◦ 日本の大学でまず習うのは頻度主義統計学
  12. • 一方で、どちらが正しい主義かという問いに意味はなく、好きな主義と好きな方法を 使うことができる(『統計学入門 「主義」を心配するみなさまに』) ◦ 必要なときに必要な方の考え方を使えばいい(『 「頻度論」の学者と「ベイズ論」の学者が対 談したら』) 統計学の主義論争についての注釈

  13. この勉強会の目的・ゴール • 頻度主義統計学であろうと、ベイズ統計学であろうと変わらない「統計学的な考え方」 の本質を理解する ◦ そもそも統計学とはどういう学問で、何のために学ぶのか を理解せずに数学的な理論だ けを学ぶからツラくなる • 頻度主義統計学の各推論手法の理論を「完全に理解する」

    ◦ 実際に使えるようになるにはプログラミングやデータの前処理などの知識も必要だが、まず は全体像をざっくり掴んで欲しい • 頻度主義統計学のロジックの癖や落とし穴を丁寧に理解し、自学するのがグッと楽 になる ◦ どこが分かりにくく、勘違いしやすいポイントなのかを重点的に解説する
  14. この勉強会の裏テーマ・思惑 • データサイエンスの流行によって「機械学習は理解してるけど、統計学は理解してい ない」という人が多すぎて悲しい、もっと統計学の面白さを広めたい • 個人的にはベイズ統計学が大好きだが、今の統計学教育の状況を鑑みるにベイズ 統計学を勉強するのにも、頻度主義をきちんと勉強するのが効率がいい ◦ 本来、統計学としてベイズ統計学から学び始めることは可能なはずだが、世の中に溢れて いる多くの「統計学入門」は頻度主義統計学を念頭に置いている

    ▪ ベイズ統計学入門は、「統計入門」ではなく、あくまで「ベイズ統計学入門」と呼ばれる ◦ 多くの「ベイズ統計学入門」の教科書・記事などは、頻度主義との違いについて書かれてお り、ベイズ主義を深く理解するためには、頻度主義との違いを意識しながら勉強していく方 が効率がよい
  15. 記述統計学 頻度主義統計学 ベイズ統計学 推 測 し な い 推 測

    す る 統計学の分類 得られたデータの 統計的性質を分 析・可視化するこ とでデータの特徴 を捉える 得られたデータの みから、そのデー タが発生したした 背後のシステムを 推測する 推測統計学
  16. 統計学の分類(推測統計学を狭義に捉える場合もある) 記述統計学 頻度主義統計学 ベイズ統計学 推 測 し な い 推

    測 す る 得られたデータの 統計的性質を分 析・可視化するこ とでデータの特徴 を捉える 得られたデータの みから、そのデー タが発生したした 背後のシステムを 推測する 推測統計学
  17. 記述統計学 頻度主義統計学 ベイズ統計学 推 測 し な い 推 測

    す る 統計学の分類(今回はこちらの定義を採用) 統計学の 本丸 推測統計学 得られたデータの 統計的性質を分 析・可視化するこ とでデータの特徴 を捉える 得られたデータの みから、そのデー タが発生したした 背後のシステムを 推測する
  18. • この勉強会のモチベーションとゴール • 統計学入門 〜統計学・統計モデリングとは何か?〜 • 頻度主義統計学入門 〜頻度主義的考え方〜 • ベイズ統計学入門

    〜ベイズ主義と頻度主義との違い〜 アジェンダ
  19. 統計学入門 〜統計学・統計モデリングとは何か?〜

  20. 統計学とは何か? • データの背後に潜む規則や構造を抽出する(モデリングする)ことによって、現象の 理解や未知の現象に対する予測を行う

  21. 統計学とは何か? • データの背後に潜む規則や構造を抽出する(モデリングする)ことによって、現象の 理解や未知の現象に対する予測を行う 規則や構造を抽出 ②未知の現象に対する予測を行う 統計モデリング & パラメータの推定 ①

    現象を理解する • 確率分布を用いてデータの背後に潜む規則や構造を抽出する(= 統計モデリング とパラメータの推定を行う)ことによって、現象の理解や未知の現象に対する予測を 行う
  22. データを抽出 母集団 標本 頻度主義

  23. データを抽出 母集団 標本 頻度主義

  24. 「真の」確率モデル 正規分布 データを抽出 母集団 標本 頻度主義 μ σ2 ① 母集団の分布が正規分布なのでは

    ないかと仮定する
  25. 「真の」確率モデル 正規分布 データを抽出 母集団 標本 頻度主義 μ σ2 統計モデリング ①’

    母集団から確率的に発生した と見なす ① 母集団の分布が正規分布なのでは ないかと仮定する S2
  26. 「真の」確率モデル 正規分布 データを抽出 母集団 標本 頻度主義 μ σ2 ① 母集団の分布が正規分布なのでは

    ないかと仮定する 推定された確率モデル 正規分布 μ* σ*2 統計モデリング ①’ 母集団から確率的に発生した と見なす ② 標本統計量(標本平均と標本分散)から母集団の確率モデル=母 集団分布のパラメータ(母平均と母分散)を推定 S2
  27. 「真の」確率モデル 正規分布 データを抽出 母集団 標本 頻度主義 μ σ2 ① 母集団の分布が正規分布なのでは

    ないかと仮定する 推定された確率モデル 正規分布 μ* σ*2 完 全 に 一 致 は し な い 統計モデリング ①’ 母集団から確率的に発生した と見なす S2 ② 標本統計量(標本平均と標本分散)から母集団の確率モデル=母 集団分布のパラメータ(母平均と母分散)を推定
  28. 「真の」確率モデル 正規分布 推定された確率モデル 正規分布 母集団 予測 完 全 に 一

    致 は し な い 頻度主義 μ* σ*2 μ σ2 ③ データを予測 =確率的に発生させる
  29. • (①)「今観測された事象(サンプル)は、背後にある確率モデルから確率的に発生 したと考える枠組み」=「統計モデリング」を導入し、 • (②)その上で、背後にある確率モデルのパラメータをリーズナブルに推定する方法 を明らかにし、 • (③)パラメータを推測した確率モデルを元に、新たな事象の「確率的な予測を行う」 =「予測分布を生成する」 統計学とは何をしてくれる学問なのか?

    確率モデル ①サンプリング ③予測 ②推定 データD 未来のデータD’
  30. 記述統計学 頻度主義統計学 ベイズ統計学 推 測 し な い 推 測

    す る 統計学の分類 推測統計学
  31. 記述統計学 ベイズ統計学 推 測 し な い 推 測 す

    る 統計学の分類 統計的推定 仮説検定 頻度主義統計学 推測統計学
  32. 点推定 区間推定 記述統計学 ベイズ統計学 推 測 し な い 推

    測 す る 統計学の分類 仮説検定 頻度主義統計学 統計的推定 推測統計学 まずはここを 中心に
  33. • この勉強会のモチベーションとゴール • 統計学入門 〜統計学・統計モデリングとは何か?〜 • 頻度主義統計学入門 〜頻度主義的考え方〜 • ベイズ統計学入門

    〜ベイズ主義と頻度主義との違い〜 アジェンダ
  34. 頻度主義統計学入門 〜頻度主義的考え方〜

  35. • 統計的推測の課題は、「標本統計量の値をもとに、母数についてできるだけ正確な 推測をすること」(『心理統計学の基礎』) 頻度主義統計学の目的 データを抽出 母集団 標本 母数 (本当に知りたいもの) (標本から計算できるもの)

    標本統計量 母平均 母分散 母相関係数 母比率 など 標本平均 標本分散 標本相関係数 標本比率 など 推定 頻度主義 点推定
  36. 今得られたサンプルの標本平均 データを抽出 母集団 標本 母平均μ 標本平均 頻度主義 点推定 問: たまたま得られたサンプルの標本平均

    から母平均μをどのように推測するべきか? 標本統計量から母数を推測する方法
  37. データを抽出 母集団 標本 母平均μ 標本平均 頻度主義 点推定 の値そのままでμを推測するのが直感的 問: たまたま得られたサンプルの標本平均

    から母平均μをどのように推測するべきか? 標本統計量から母数を推測する方法 今得られたサンプルの標本平均
  38. データを抽出 母集団 標本 母平均μ 標本平均 頻度主義 点推定 の値そのままでμを推測するのが直感的 なぜそのような推測が妥当なのかを数学的に説明でき るか?

    問: たまたま得られたサンプルの標本平均 から母平均μをどのように推測するべきか? 標本統計量から母数を推測する方法 今得られたサンプルの標本平均
  39. データを抽出 母集団 標本 標本平均 標本 標本 ・ ・ ・ 標本平均

    標本平均 母平均μ 頻度主義 点推定 標本統計量から母数を推測する方法 問: たまたま得られたサンプルの標本平均 から母平均μをどのように推測するべきか? 今得られたサンプルの標本平均 は、 たまたまそのサンプルが選ばれたことに依 存する、一種の偶然の産物 (『心理統計学の基礎』)
  40. データを抽出 母集団 標本 標本平均 標本 標本 ・ ・ ・ 標本平均

    標本平均 母平均μ 頻度主義 点推定 標本統計量から母数を推測する方法 問: たまたま得られたサンプルの標本平均 から母平均μをどのように推測するべきか? 今得られたサンプルの標本平均 は、 たまたまそのサンプルが選ばれたことに依 存する、一種の偶然の産物 (『心理統計学の基礎』)
  41. データを抽出 母集団 標本 標本平均 標本 標本 ・ ・ ・ 標本平均

    標本平均 母平均μ 頻度主義 点推定 標本統計量から母数を推測する方法 問: たまたま得られたサンプルの標本平均 から母平均μをどのように推測するべきか? 標本統計量の値は サンプルごとに変動する 今得られたサンプルの標本平均 は、 たまたまそのサンプルが選ばれたことに依 存する、一種の偶然の産物 (『心理統計学の基礎』)
  42. データを抽出 母集団 標本 標本平均 標本 標本 ・ ・ ・ 標本平均

    標本平均 母平均μ 頻度主義 点推定 標本統計量から母数を推測する方法 問: たまたま得られたサンプルの標本平均 から母平均μをどのように推測するべきか? サンプル間でどのように 標本統計量が変動するのか? 今得られたサンプルの標本平均 は、 たまたまそのサンプルが選ばれたことに依 存する、一種の偶然の産物 (『心理統計学の基礎』)
  43. データを抽出 母集団 標本 標本平均 標本 標本 ・ ・ ・ 標本平均

    標本平均 母平均μ 頻度主義 点推定 標本統計量から母数を推測する方法 問: たまたま得られたサンプルの標本平均 から母平均μをどのように推測するべきか? サンプル間でどのように 標本統計量が変動するのか? 今得られたサンプルの標本平均 は、 たまたまそのサンプルが選ばれたことに依 存する、一種の偶然の産物 (『心理統計学の基礎』) どのように推定するのが リーズナブルか?
  44. 母集団が任意の分布の場合の標本平均の分布 母集団 「真の」確率モデル μ 母平均μ 母分散σ2

  45. 母集団 「真の」確率モデル データを抽出 n個 標本 μ 母集団が任意の分布の場合の標本平均の分布 母平均μ 母分散σ2

  46. 標本 母集団 「真の」確率モデル 確率的に発生している データを抽出 n個 μ 母集団が任意の分布の場合の標本平均の分布 母平均μ 母分散σ2

  47. 母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・

    標本の値 の分布 N回試行 μ 母集団が任意の分布の場合の標本平均の分布 母平均μ 母分散σ2
  48. 母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・

    標本の値 の分布 標本の値 の分布 μ 母集団が任意の分布の場合の標本平均の分布 母平均μ 母分散σ2
  49. 母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・

    標本の値 の分布 標本の値 の分布 μ 母集団が任意の分布の場合の標本平均の分布 母平均μ 母分散σ2
  50. 母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・

    標本の値 の分布 標本の値 の分布 標本平均 標本平均 の分布 μ 母集団が任意の分布の場合の標本平均の分布 母平均μ 母分散σ2
  51. 母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・

    標本の値 の分布 標本の値 の分布 標本平均 μ 母集団が任意の分布の場合の標本平均の分布 標本平均 の分布 母平均μ 母分散σ2
  52. 母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・

    標本の値 の分布 標本の値 の分布 標本平均 μ 母集団が任意の分布の場合の標本平均の分布 標本平均 の分布 母平均μ 母分散σ2 全くの別物
  53. 母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・

    標本の値 の分布 標本の値 の分布 標本平均 全くの別物 μ 母集団が任意の分布の場合の標本平均の分布 標本平均 の分布 母平均μ 母分散σ2
  54. 母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・

    標本の値 の分布 標本の値 の分布 標本平均 全くの別物 μ 母集団が任意の分布の場合の標本平均の分布 標本平均 の分布 母平均μ 母分散σ2
  55. 母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・

    標本の値 の分布 標本の値 の分布 標本平均 全くの別物 一致する μ 母集団が任意の分布の場合の標本平均の分布 標本平均 の分布 母平均μ 母分散σ2
  56. 母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・

    標本の値 の分布 標本の値 の分布 標本平均 全くの別物 一致する μ たまに母平均から大きくハズレてしまうことも あるが平均的には母平均に近い値をとる 母集団が任意の分布の場合の標本平均の分布 標本平均 の分布 母平均μ 母分散σ2
  57. 母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・

    標本の値 の分布 標本の値 の分布 標本平均 全くの別物 μ たまに母平均から大きくハズレてしまうことも あるが平均的には母平均に近い値をとる 今得られたサンプル 母集団が任意の分布の場合の標本平均の分布 標本平均 の分布 一致する 母平均μ 母分散σ2
  58. 母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・

    標本の値 の分布 標本の値 の分布 標本平均 全くの別物 たまに母平均から大きくハズレてしまうことも あるが平均的には母平均に近い値をとる 今得られたサンプル 母集団が任意の分布の場合の標本平均の分布 標本平均 の分布 一致する 母平均μ 母分散σ2 μ そのままの値で推定する
  59. 母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・

    標本の値 の分布 標本の値 の分布 標本平均 全くの別物 μ 今得られたサンプル 母集団が任意の分布の場合の標本平均の分布 標本平均 の分布 一致する 標本平均のように、期待値が推定したい母数に一 致する標本統計量を母数の 不偏推定量と呼ぶ 母平均μ 母分散σ2 そのままの値で推定する
  60. 母集団 「真の」確率モデル データを抽出 n個 標本 標本 標本 ・ ・ ・

    標本の値 の分布 標本の値 の分布 標本平均 全くの別物 μ 今得られたサンプル 母集団が任意の分布の場合の標本平均の分布 標本平均 の分布 一致する 標本平均のように、期待値が推定したい母数に一 致する標本統計量を母数の 不偏推定量と呼ぶ そのままの値で推定する (不偏推定) 母平均μ 母分散σ2
  61. 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・

    ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 母集団が任意の分布の場合の標本分散
  62. 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・

    ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 母集団が任意の分布の場合の標本分散
  63. 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・

    ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 標本分散 標本分散 の分布 母集団が任意の分布の場合の標本分散
  64. 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・

    ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 標本分散 標本分散 の分布 母集団が任意の分布の場合の標本分散
  65. 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・

    ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 標本分散 標本分散 の分布 母集団が任意の分布の場合の標本分散
  66. 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・

    ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 標本分散 標本分散 の分布 母集団が任意の分布の場合の標本分散
  67. 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・

    ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 標本分散 標本分散 の分布 一致しない 母集団が任意の分布の場合の標本分散
  68. 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・

    ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 標本分散 標本分散 の分布 一致しない 標本分散は母分散の 不偏推定量ではない 母集団が任意の分布の場合の標本分散
  69. 標本 標本 ・ ・ ・ 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出

    n個 標本 標本の値 の分布 標本の値 の分布 μ σ2 標本分散 標本分散 の分布 標本分散は母分散の 不偏推定量ではない 母集団が任意の分布の場合の標本分散 一致しない
  70. 標本 標本 ・ ・ ・ 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出

    n個 標本 標本の値 の分布 標本の値 の分布 μ σ2 標本分散 標本分散 の分布 標本分散は母分散の 不偏推定量ではない 母集団が任意の分布の場合の標本分散 標本分散で母分散を推測すると過小評価して しまう可能性がある 一致しない
  71. 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・

    ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 母集団が任意の分布の場合の不偏分散
  72. 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・

    ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 不偏分散 不偏分散 の分布 母集団が任意の分布の場合の不偏分散
  73. 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・

    ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 不偏分散 不偏分散 の分布 母集団が任意の分布の場合の不偏分散
  74. 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・

    ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 不偏分散 不偏分散 の分布 母集団が任意の分布の場合の不偏分散
  75. 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・

    ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 不偏分散 不偏分散 の分布 母集団が任意の分布の場合の不偏分散
  76. 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・

    ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 不偏分散 不偏分散 の分布 一致する 母集団が任意の分布の場合の不偏分散
  77. 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本 標本 ・

    ・ ・ 標本の値 の分布 標本の値 の分布 μ σ2 不偏分散 不偏分散 の分布 不偏分散は母分散の 不偏推定量になっている 一致する 母集団が任意の分布の場合の不偏分散
  78. 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本の値 の分布 標本の値

    の分布 μ σ2 不偏分散 不偏分散 の分布 不偏分散は母分散の 不偏推定量になっている 一致する 標本 標本 ・ ・ ・ 母集団が任意の分布の場合の不偏分散
  79. 母集団 「真の」確率モデル 母平均μ 母分散σ2 データを抽出 n個 標本 標本の値 の分布 標本の値

    の分布 μ σ2 不偏分散 不偏分散 の分布 不偏分散は母分散の 不偏推定量になっている 一致する 標本 標本 ・ ・ ・ 母集団が任意の分布の場合の不偏分散 そのままの値で推定する (不偏推定)
  80. 母集団が任意の分布の標本分布 母集団 「真の」確率モデル μ 母平均μ 母分散σ2

  81. 母集団が任意の分布の標本分布 データを抽出 m個 母集団 ・ ・ ・ 「真の」確率モデル μ 母平均μ

    母分散σ2
  82. データを抽出 m個 母集団 ・ ・ ・ 母集団が任意の分布の標本分布 「真の」確率モデル μ 母平均μ

    母分散σ2
  83. データを抽出 m個 母集団 ・ ・ ・ 標本平均 母集団が任意の分布の標本分布 「真の」確率モデル μ

    母平均μ 母分散σ2
  84. データを抽出 m個 母集団 ・ ・ ・ μ 標本平均 一致する 母集団が任意の分布の標本分布

    「真の」確率モデル μ 母平均μ 母分散σ2
  85. データを抽出 m個 母集団 ・ ・ ・ μ 標本平均 ・ ・

    ・ データを抽出 n個 m << n 一致する 母集団が任意の分布の標本分布 「真の」確率モデル μ 母平均μ 母分散σ2
  86. データを抽出 m個 母集団 ・ ・ ・ μ 標本平均 ・ ・

    ・ データを抽出 n個 m << n 一致する 母集団が任意の分布の標本分布 「真の」確率モデル μ 母平均μ 母分散σ2
  87. データを抽出 m個 母集団 ・ ・ ・ μ 標本平均 ・ ・

    ・ データを抽出 n個 m << n 一致する 母集団が任意の分布の標本分布 「真の」確率モデル μ 母平均μ 母分散σ2
  88. データを抽出 m個 母集団 ・ ・ ・ μ 標本平均 ・ ・

    ・ データを抽出 n個 m << n 一致する xxxxxxxのとき、正規分布xxxxxxxxに近づく 中心極限定理 母集団が任意の分布の標本分布 「真の」確率モデル μ 母平均μ 母分散σ2
  89. データを抽出 m個 母集団 ・ ・ ・ μ 標本平均 ・ ・

    ・ データを抽出 n個 m << n 一致する xxxxxxxのとき、正規分布xxxxxxxxに近づく 中心極限定理 母集団が任意の分布の標本分布 サンプル数nが大きくなるほど、 標本平均は母平均に 近い値を取る確率が大きくなる 「真の」確率モデル μ 母平均μ 母分散σ2
  90. 頻度主義統計学の推測に対する考え方まとめ • 「母集団を真の確率分布を持つデータ発生装置とみなし、 真の確率分布から一個一個のデータ が発生してサンプルが構成されるという見方」=「頻度主義的統計モデリング」を導入した ◦ サンプルは確率的に変動すると見なす一方で、母集団と母数は 実際に観測可能かどうかに関わら ず一意に決まるものと考える •

    このような統計モデリングを導入した上で、標本統計量の性質を導くことで、標本統計量から母 数を推定するリーズナブルな推定方法(不偏推定や最尤推定法等)を提示する ◦ 標本統計量から母数を推定する方法を提示するのに、先に母数と標本統計量の数学的な関係性を 熟知しておかなければならない
  91. 点推定 区間推定 記述統計学 ベイズ統計学 推 測 し な い 推

    測 す る 統計学の分類 仮説検定 頻度主義統計学 統計的推定 推測統計学 ここを中心に 見てきた
  92. 点推定 区間推定 記述統計学 ベイズ統計学 推 測 し な い 推

    測 す る 統計学の分類 仮説検定 頻度主義統計学 統計的推定 推測統計学 次はここを 見ていく
  93. 母集団が正規分布の場合の区間推定 母集団 「真の」確率モデル 正規分布xxxxxx μ σ2 母平均μ 頻度主義 区間推定

  94. データを抽出 母集団 標本 標本 標本 ・ ・ ・ 母平均μ 頻度主義

    区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 標本平均 今得られたサンプルの標本平均 母集団が正規分布の場合の区間推定
  95. データを抽出 母集団 標本 標本 標本 ・ ・ ・ 母平均μ 頻度主義

    区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 標本平均 今得られたサンプルの標本平均 μ 使って推定 母集団が正規分布の場合の区間推定
  96. データを抽出 母集団 標本 標本 標本 ・ ・ ・ 母平均μ 頻度主義

    区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 標本平均 今得られたサンプルの標本平均 母集団が正規分布の場合の区間推定 μ 使って推定
  97. データを抽出 母集団 標本 標本 標本 ・ ・ ・ 母平均μ 頻度主義

    区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 標本平均 今得られたサンプルの標本平均 点推定では、たまに真の μから 大きく外れてしまう 母集団が正規分布の場合の区間推定 μ 使って推定
  98. データを抽出 母集団 標本 標本 標本 ・ ・ ・ 母平均μ 頻度主義

    区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 標本平均 今得られたサンプルの標本平均 この区間にならおそらく真の母平均が 入っていそうという区間を推定する 母集団が正規分布の場合の区間推定 区間推定で幅を持って推定する μ 使って推定
  99. データを抽出 母集団 標本 標本 標本 ・ ・ ・ 母平均μ 頻度主義

    区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 標本平均 今得られたサンプルの標本平均 この区間にならおそらく真の母平均が 入っていそうという区間を推定する 母集団が正規分布の場合の区間推定 区間推定で幅を持って推定する μ 使って推定 95%の確率で母平均が含まれるような 区間を95%信頼区間という
  100. 母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 信頼度95%で μを推定せよ

    母集団が(母分散既知の)正規分布の場合の区間推定
  101. 母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 データを抽出 信頼度95%で

    μを推定せよ 母集団が(母分散既知の)正規分布の場合の区間推定
  102. 母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 データを抽出 信頼度95%で

    μを推定せよ 母集団が(母分散既知の)正規分布の場合の区間推定 μ σ2
  103. 母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 母集団が(母分散既知の)正規分布の場合の区間推定 データを抽出

    μ σ2 信頼度95%で μを推定せよ 1.96σ 1.96σ 95%
  104. 母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 母集団が(母分散既知の)正規分布の場合の区間推定 データを抽出

    μ σ2 信頼度95%で μを推定せよ 1.96σ 1.96σ 95% 95%の確率で成立
  105. 母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 母集団が(母分散既知の)正規分布の場合の区間推定 データを抽出

    μ σ2 信頼度95%で μを推定せよ 1.96σ 1.96σ 95% 95%の確率で成立
  106. 母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 母集団が(母分散既知の)正規分布の場合の区間推定 データを抽出

    μ σ2 信頼度95%で μを推定せよ 1.96σ 1.96σ 95% 信頼度95%の信頼区間 95%の確率で成立
  107. 母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 データを抽出 信頼度95%で

    μを推定せよ 母集団が(母分散既知の)正規分布の場合の区間推定 μ σ2 信頼度95%の信頼区間 95%の確率で成立
  108. 母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 データを抽出 信頼度95%で

    μを推定せよ 母集団が(母分散既知の)正規分布の場合の区間推定 μ σ2 信頼度95%の信頼区間 95%の確率で成立
  109. 母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 データを抽出 信頼度95%で

    μを推定せよ 母集団が(母分散既知の)正規分布の場合の区間推定 μ σ2 信頼度95%の信頼区間 95%の確率で成立 よくある間違った主張は、 「こうして求めた信頼区間 の間に95%の確率で母平均が含ま れる」という主張
  110. 母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 データを抽出 信頼度95%で

    μを推定せよ 母集団が(母分散既知の)正規分布の場合の区間推定 μ σ2 信頼度95%の信頼区間 95%の確率で成立 今回得られたxxから計算された 信頼区間でこのような主張は不可 よくある間違った主張は、 「こうして求めた信頼区間 の間に95%の確率で母平均が含ま れる」という主張
  111. 母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 データを抽出 信頼度95%で

    μを推定せよ 母集団が(母分散既知の)正規分布の場合の区間推定 μ σ2 信頼度95%の信頼区間 95%の確率で成立 今回得られたxxから計算された 信頼区間でこのような主張は不可 100回抽出したうち95回前後は成立 = よくある間違った主張は、 「こうして求めた信頼区間 の間に95%の確率で母平均が含ま れる」という主張
  112. 母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 データを抽出 信頼度95%で

    μを推定せよ 母集団が(母分散既知の)正規分布の場合の区間推定 μ σ2 信頼度95%の信頼区間 95%の確率で成立 今回得られたxxから計算された 信頼区間でこのような主張は不可 = 何度もデータを取り出しそのたびに 信頼区間を求めれば、そのうちの 95%は その区間内に母平均を含む 100回抽出したうち95回前後は成立 よくある間違った主張は、 「こうして求めた信頼区間 の間に95%の確率で母平均が含ま れる」という主張
  113. 母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 母集団が(母分散既知の)正規分布の場合の区間推定 信頼度95%で

    μを推定せよ データを抽出 信頼度95%の信頼区間 95%の確率で成立 100回抽出したうち95回前後は成立 = μ
  114. 母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 母集団が(母分散既知の)正規分布の場合の区間推定 信頼度95%で

    μを推定せよ データを抽出 信頼度95%の信頼区間 μ x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 95%の確率で成立 100回抽出したうち95回前後は成立 =
  115. 母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 母集団が(母分散既知の)正規分布の場合の区間推定 信頼度95%で

    μを推定せよ データを抽出 信頼度95%の信頼区間 たまに外す μ x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 95%の確率で成立 100回抽出したうち95回前後は成立 =
  116. 母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 母集団が(母分散既知の)正規分布の場合の区間推定 信頼度95%で

    μを推定せよ データを抽出 信頼度95%の信頼区間 たまに外す データを抽出するたびに 95%信頼区間を 計算すればそのうちの 95%は母平均を含む μ x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 95%の確率で成立 100回抽出したうち95回前後は成立 =
  117. 母集団 母平均μ 頻度主義 区間推定 「真の」確率モデル 正規分布xxxxxx μ σ2 母集団が(母分散既知の)正規分布の場合の区間推定 信頼度95%で

    μを推定せよ データを抽出 信頼度95%の信頼区間 たまに外す データを抽出するたびに 95%信頼区間を 計算すればそのうちの 95%は母平均を含む μ x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 一度のデータ抽出で計算された信頼区間が 実際に母平均を含むかどうかは分からない 95%の確率で成立 100回抽出したうち95回前後は成立 =
  118. 母集団が正規分布の場合の標本分布 母集団 「真の」確率モデル 正規分布xxxxxx μ σ2 母平均μ 頻度主義 区間推定

  119. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 μ σ2 母平均μ 「真の」確率モデル 正規分布xxxxxx

    頻度主義 区間推定
  120. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 μ σ2 母平均μ 「真の」確率モデル 正規分布xxxxxx

    確率的に発生している と見なす 頻度主義 区間推定
  121. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 母平均μ 標本の値 の分布 N回試行 「真の」確率モデル 正規分布xxxxxx 頻度主義 区間推定
  122. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 頻度主義 区間推定
  123. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 頻度主義 区間推定
  124. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 標本平均 標本分布 (標本平均 の分布) 頻度主義 区間推定
  125. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 標本平均 標本分布 (標本平均 の分布) 頻度主義 区間推定
  126. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 標本平均 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 標本分布 (標本平均 の分布) 頻度主義 区間推定
  127. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 標本平均 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 標本分布 (標本平均 の分布) 頻度主義 区間推定
  128. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 標本平均 母平均μ 標本分布 (標本平均 の分布) 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 頻度主義 区間推定
  129. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 μ 標本平均 母平均μ 標本分布 (標本平均 の分布) 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 頻度主義 区間推定
  130. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 μ 標本平均 一致する 母平均μ 標本分布 (標本平均 の分布) 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 頻度主義 区間推定
  131. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 標本平均 母平均μ 標本分布 (標本平均 の分布) 「真の」確率モデル 正規分布xxxxxx μ 頻度主義 区間推定
  132. 1.96 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・

    ・ μ σ2 μ 標本平均 母平均μ 標本分布 (標本平均 の分布) 「真の」確率モデル 正規分布xxxxxx 1.96 95% 頻度主義 区間推定
  133. 1.96 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・

    ・ μ σ2 μ 標本平均 母平均μ 標本分布 (標本平均 の分布) 「真の」確率モデル 正規分布xxxxxx 1.96 95% 頻度主義 区間推定
  134. 1.96 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・

    ・ μ σ2 μ 標本平均 母平均μ 標本分布 (標本平均 の分布) 「真の」確率モデル 正規分布xxxxxx 1.96 95% 頻度主義 区間推定
  135. 1.96 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・

    ・ μ σ2 μ 標本平均 母平均μ 標本分布 (標本平均 の分布) 「真の」確率モデル 正規分布xxxxxx 1.96 95% 信頼度95%の信頼区間 頻度主義 区間推定
  136. 1.96 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・

    ・ μ σ2 μ 標本平均 母平均μ 標本分布 (標本平均 の分布) 「真の」確率モデル 正規分布xxxxxx 1.96 95% 信頼度95%の信頼区間 データ1つの時と比べて n 分の1だけ区間が狭くなっている 頻度主義 区間推定
  137. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 μ 標本平均 母平均μ 標本分布 (標本平均 の分布) 「真の」確率モデル 正規分布xxxxxx 頻度主義 区間推定 狭い区間であっても 95%の確率で 母平均が含まれる
  138. • 点推定にしろ、区間推定にしろ、今回の推定がどの程度正しいのかは分からない(のだから問題 せずに) ◦ 不偏推定は、何度もデータ抽出を抽出し、同じ操作を繰り返せば 、平均的には母数と等しく なる推定 ◦ 信頼度◯◯%の信頼区間は、何度もデータを抽出し、同じ操作を繰り返せば 、その間に母

    数が◯◯%入る区間の推定 • 頻度主義統計学では、推定手法の数学的に妥当である場合に、その推定は正当である=その 推定が正しいと考える根拠がある、とみなす ◦ ここでいう妥当である、妥当性があるとは、その推定方法を何度も繰り返せば推定対象を 「よく」捉えられることが数学的に証明できていることを言う ◦ 頻度主義統計学とは、今回の推定がどの程度正しいのかは誰にも分からないのだから、 せめてより妥当な推定手法を考案しようというある意味割り切った学問 頻度主義統計学の推測に対する考え方まとめ②
  139. 点推定 区間推定 記述統計学 ベイズ統計学 推 測 し な い 推

    測 す る 統計学の分類 仮説検定 頻度主義統計学 統計的推定 推測統計学 ここも軽く触 れておく
  140. 普通のコイン 表が出る確率1/4 レアコイン 表が出る確率3/4 10回投げた結果から どちらかを判断する 問題 この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある 日あなたはレアコインが非常に安値で売っているのを発見した。

    10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインで あると判断して、このコインを買い取るだろうか。
  141. 普通のコイン 表が出る確率1/4 レアコイン 表が出る確率3/4 10回投げた結果から どちらかを判断する 帰無仮説 対立仮説 問題 この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは

    3/4の確率で裏が出る。ある 日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインで あると判断して、このコインを買い取るだろうか。
  142. 普通のコイン 表が出る確率1/4 レアコイン 表が出る確率3/4 帰無仮説 対立仮説 真 問題 この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある

    日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインで あると判断して、このコインを買い取るだろうか。
  143. 第一種の誤り 帰無仮説が真であるにも関わらず、それを誤って棄却してしまう =普通のコインであるにも関わらず、レアコインであると判断してしまう 普通のコイン 表が出る確率1/4 レアコイン 表が出る確率3/4 帰無仮説 対立仮説 真

    問題 この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある 日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインで あると判断して、このコインを買い取るだろうか。
  144. 第一種の誤り 帰無仮説が真であるにも関わらず、それを誤って棄却してしまう =普通のコインであるにも関わらず、レアコインであると判断してしまう 普通のコイン 表が出る確率1/4 レアコイン 表が出る確率3/4 帰無仮説 対立仮説 普通のコインを高値で買わされてしまう

    真 問題 この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある 日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインで あると判断して、このコインを買い取るだろうか。
  145. 第一種の誤り 帰無仮説が真であるにも関わらず、それを誤って棄却してしまう =普通のコインであるにも関わらず、レアコインであると判断してしまう 普通のコイン 表が出る確率1/4 レアコイン 表が出る確率3/4 帰無仮説 対立仮説 普通のコインを高値で買わされてしまう

    真 問題 この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある 日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインで あると判断して、このコインを買い取るだろうか。
  146. 第一種の誤り 帰無仮説が真であるにも関わらず、それを誤って棄却してしまう =普通のコインであるにも関わらず、レアコインであると判断してしまう 普通のコイン 表が出る確率1/4 レアコイン 表が出る確率3/4 帰無仮説 対立仮説 普通のコインを高値で買わされてしまう

    真 第二種の誤り 帰無仮説が偽であるにも関わらず、それを棄却しそびれる =レアコインであるにも関わらず、普通のコインであると判断してしまう 問題 この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある 日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインで あると判断して、このコインを買い取るだろうか。
  147. 第一種の誤り 帰無仮説が真であるにも関わらず、それを誤って棄却してしまう =普通のコインであるにも関わらず、レアコインであると判断してしまう 普通のコイン 表が出る確率1/4 レアコイン 表が出る確率3/4 帰無仮説 対立仮説 普通のコインを高値で買わされてしまう

    真 第二種の誤り 帰無仮説が偽であるにも関わらず、それを棄却しそびれる =レアコインであるにも関わらず、普通のコインであると判断してしまう レアコインを安値で買えるチャンスを逃す 問題 この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある 日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインで あると判断して、このコインを買い取るだろうか。
  148. 0 1 10 2 3 4 5 6 7 9

    8 θ=0.25 0.0 0.1 0.2
  149. 0 1 10 2 3 4 5 6 7 9

    8 θ=0.25 閾値 帰無仮説を棄却する 0.0 0.1 0.2
  150. 0 1 10 2 3 4 5 6 7 9

    8 θ=0.25 閾値 帰無仮説が真である場合に も、ある程度の確率で発生す るのに切り捨ててしまう 帰無仮説を棄却する 0.0 0.1 0.2
  151. 0 1 10 2 3 4 5 6 7 9

    8 θ=0.25 閾値 帰無仮説が真である場合に も、ある程度の確率で発生す るのに切り捨ててしまう 第一種の誤りの確率は、 閾値以上の回数表が出る 合計確率α 帰無仮説を棄却する 0.0 0.1 0.2
  152. 0 1 10 2 3 4 5 6 7 9

    8 θ=0.25 閾値 帰無仮説が真である場合に も、ある程度の確率で発生す るのに切り捨ててしまう 第一種の誤りの確率は、 閾値以上の回数表が出る 合計確率α 有意水準 = 帰無仮説を棄却する 0.0 0.1 0.2
  153. 0 1 10 2 3 4 5 6 7 9

    8 θ=0.25 閾値 第一種の誤りの確率は、 閾値以上の回数表が出る 合計確率α 有意水準 = 帰無仮説を棄却する 0.0 0.1 0.2 帰無仮説が真である場合に も、ある程度の確率で発生す るのに切り捨ててしまう 有意水準とは、この検定方法を用いて(この閾値を設定して)帰無仮説を棄却することを繰り返した場合に 第一種の誤りが起こる確率であり、言わばこの検定の性質のようなもの。
  154. 有意水準とは、この検定方法を用いて(この閾値を設定して)帰無仮説を棄却することを繰り返した場合に 第一種の誤りが起こる確率であり、言わばこの検定の性質のようなもの。 例えば、「有意水準5%で帰無仮説が棄却されたのだから、このコインが普通のコインである確率は 5%以 下だ」というのがよくある勘違いだが、そのような確率を考えることはできない。 0 1 10 2 3

    4 5 6 7 9 8 θ=0.25 閾値 第一種の誤りの確率は、 閾値以上の回数表が出る 合計確率α 有意水準 = 帰無仮説を棄却する 0.0 0.1 0.2 帰無仮説が真である場合に も、ある程度の確率で発生す るのに切り捨ててしまう
  155. 0 1 10 2 3 4 5 6 7 9

    8 θ=0.25 C A B 0.0 0.1 0.2 α9.5✕10−5 % α7.8% α2.0% A B C 全部表だったときのみ帰無仮説を棄却する場合、第二種の誤りの確率 αは9.5✕10−5% 6回以上表だったとき帰無仮説を棄却する場合、第二種の誤りの確率 αは2.0% 5回以上表だったとき帰無仮説を棄却する場合、第二種の誤りの確率 αは7.8%
  156. A 全部表だったときのみ帰無仮説を棄却する場合、第二種の誤りの確率 αは9.5✕10−5% B 6回以上表だったとき帰無仮説を棄却する場合、第二種の誤りの確率 αは2.0% C 5回以上表だったとき帰無仮説を棄却する場合、第二種の誤りの確率 αは7.8% 0

    1 10 2 3 4 5 6 7 9 8 θ=0.25 C A B 有意水準α 5%以下 0.0 0.1 0.2 α9.5✕10−5 % α7.8% α2.0%
  157. A 全部表だったときのみ帰無仮説を棄却する場合、第二種の誤りの確率 αは9.5✕10−5% B 6回以上表だったとき帰無仮説を棄却する場合、第二種の誤りの確率 αは2.0% C 5回以上表だったとき帰無仮説を棄却する場合、第二種の誤りの確率 αは7.8% 0

    1 10 2 3 4 5 6 7 9 8 θ=0.25 C A B 有意水準α 5%以下 0.0 0.1 0.2 α9.5✕10−5 % α7.8% α2.0% 帰無仮説が真だった場合に 誤って棄却してしまう確率は 小さくなっていくが、 帰無仮説が偽だった場合に 誤って棄却されない確率は 大きくなっていく
  158. 0 1 10 2 3 4 5 6 7 9

    8 θ=0.25 θ=0.75 0.0 0.1 0.2 0.0 0.1 0.2
  159. 0 1 10 2 3 4 5 6 7 9

    8 θ=0.25 θ=0.75 閾値 帰無仮説を棄却する 帰無仮説を棄却しない 0.0 0.1 0.2 0.0 0.1 0.2
  160. 0 1 10 2 3 4 5 6 7 9

    8 θ=0.25 θ=0.75 閾値 帰無仮説を棄却する 帰無仮説を棄却しない 0.0 0.1 0.2 0.0 0.1 0.2 真
  161. 0 1 10 2 3 4 5 6 7 9

    8 θ=0.25 θ=0.75 0.0 0.1 0.2 0.0 0.1 0.2 閾値 帰無仮説を棄却する 帰無仮説を棄却しない 第一種の誤りの確率は、 閾値以上の回数表が出る 合計確率α 真
  162. 0 1 10 2 3 4 5 6 7 9

    8 θ=0.25 θ=0.75 0.0 0.1 0.2 0.0 0.1 0.2 閾値 帰無仮説を棄却する 帰無仮説を棄却しない 第一種の誤りの確率は、 閾値以上の回数表が出る 合計確率α 真
  163. 0 1 10 2 3 4 5 6 7 9

    8 θ=0.25 θ=0.75 0.0 0.1 0.2 0.0 0.1 0.2 閾値 帰無仮説を棄却する 帰無仮説を棄却しない 第一種の誤りの確率は、 閾値以上の回数表が出る 合計確率α 第二種の誤りの確率は、 閾値以下の回数表が出る 合計確率β 真
  164. 0 1 10 2 3 4 5 6 7 9

    8 θ=0.25 θ=0.75 0.0 0.1 0.2 0.0 0.1 0.2 C A B α9.5✕10−5 % α7.8% α2.0% 真
  165. 0 1 10 2 3 4 5 6 7 9

    8 θ=0.25 θ=0.75 0.0 0.1 0.2 0.0 0.1 0.2 C A B A 全部表だったときのみ帰無仮説を棄却する場合、第二種の誤りの確率 βは94.4% B 6回以上表だったとき帰無仮説を棄却する場合、第二種の誤りの確率 βは7.8% C 5回以上表だったとき帰無仮説を棄却する場合、第二種の誤りの確率 βは2.0% 真 β94.4% β2.0% β7.8% α9.5✕10−5 % α7.8% α2.0%
  166. 0 1 10 2 3 4 5 6 7 9

    8 θ=0.25 θ=0.75 0.0 0.1 0.2 0.0 0.1 0.2 C A B 真 β94.4% β2.0% β7.8% α9.5✕10−5 % α7.8% α2.0% 第一種の誤りの確率と第二種の誤りの確率は トレードオフの関係にある
  167. 普通のコイン 表が出る確率1/4 レアコイン 表が出る確率3/4 問題 この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある 日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインで

    あると判断して、このコインを買い取るだろうか。 10回投げた結果から どちらかを判断する 帰無仮説 対立仮説
  168. 普通のコイン 表が出る確率1/4 レアコイン 表が出る確率3/4 帰無仮説 対立仮説 実際の検定の流れ 20回に1回程度は誤って帰無仮説を棄却してしまっても仕方が ないと考えるということ ①

    有意水準を設定する(5%に設定されることが多い) 問題 この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある 日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインで あると判断して、このコインを買い取るだろうか。
  169. このように得られたデータと同等かそれ以上に極端な値が得ら れる確率をp値と呼ぶ ある意味、得られたデータのあり得なさそうな程度を表す 普通のコイン 表が出る確率1/4 レアコイン 表が出る確率3/4 帰無仮説 対立仮説 実際の検定の流れ

    20回に1回程度は誤って帰無仮説を棄却してしまっても仕方が ないと考えるということ ① 有意水準を設定する(5%に設定されることが多い) ② 今、コインを投げたところ6回表が出たとする 帰無仮説が正しいと仮定して、コインが 6回以上表が出る確率を計 算すると2.0%となる 問題 この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある 日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインで あると判断して、このコインを買い取るだろうか。
  170. このように得られたデータと同等かそれ以上に極端な値が得ら れる確率をp値と呼ぶ ある意味、得られたデータのあり得なさそうな程度を表す 普通のコイン 表が出る確率1/4 レアコイン 表が出る確率3/4 帰無仮説 対立仮説 実際の検定の流れ

    20回に1回程度は誤って帰無仮説を棄却してしまっても仕方が ないと考えるということ ① 有意水準を設定する(5%に設定されることが多い) ② 今、コインを投げたところ6回表が出たとする 帰無仮説が正しいと仮定して、コインが 6回以上表が出る確率を計 算すると2.0%となる ③ p値がαよりも小さいので、帰無仮説を棄却する 問題 この国の昔の100ベリーコインは1/4の確率で表が出る。レアコインは 3/4の確率で裏が出る。ある 日あなたはレアコインが非常に安値で売っているのを発見した。 10回投げて判断することが許される場合、 10回中何回以上表が出た時にあなたはレアコインで あると判断して、このコインを買い取るだろうか。 帰無仮説が正しいとしたときには、あまり起こりにくいようなこと が今起こっていると考えていると言える
  171. • 有意水準5%で帰無仮説が棄却されたということは、証明したい仮説が正しい確率が 95%である ということを意味しないし、仮説検定それ自体は、当該仮説の真偽について、直接的には何も判 断を下さない ◦ 同じ状況に対して同じ検定を適用した時に、どの程度の割合で正しい答えを出すのかの頻度を表す にすぎない • 有意水準や検出力といった確率はあくまで、仮説検定という手法自身の性質(「どれくらいの割

    合で間違うか」)であって、 その適用対象である仮説の性質(「仮説の確からしさ」)や、 その個別な適用結果である判断の性質(「判断の確からしさ」)ではない ◦ 頻度主義では「このコインを次投げて表が出る確率は 1/2である」という命題が意味をなさないのと同 様に、今まさに帰無仮説を棄却したという結果の正答率なるものを考えることはできない 頻度主義統計学の推測に対する考え方まとめ③:仮説検定
  172. • 頻度主義統計学が主張するのは、あくまで推定手法の妥当性であるにも関わらず、それらの手 法によって推定された結果を我々人類は根拠あるものとして受け入れてきた ◦ 点推定の結果は今回どの程度母数に近いのかは分からず、 区間推定によって推定された信頼区間は実際に母数を含んでいるのかは保証せず、 仮説検定それ自体は、当該仮説の真偽について、直接的には何も判断を下さないが、 統計学推定の推定結果を我々は意思決定に使っている ▪ 例:統計的仮説検定に基づいて効果があると認識された医薬品薬を我々は飲んでいる

    • これは、(意識しているかどうかに関わらず、)妥当な推定手法によって推定された結果には、 正しいと信じるべき一定の根拠があると了解しているということになる ◦ 推定手法やプロセスが正しければ、真理に近づくことができるという共通認識を持っている (いい道具を使っていれば推定結果もある程度正しいはず) 頻度主義の正当化概念
  173. 頻度主義統計学の考え方・論理展開まとめ • 頻度主義統計学は、確率をあくまで頻度として扱う ◦ パラメータについての仮説・命題がどの程度正しそうかを確率的に表すことはできない ▪ 「例:平均身長が170cm以上である確率、A群の平均の重さよりも B群の平均の重さの方が 大きい確率」といった確率を表すことはできない •

    「母集団を真の確率分布を持つデータ発生装置とみなし、真の確率分布から一個一個のデータ が発生してサンプルが構成されるという見方」=「頻度主義的統計モデリング」を導入する ◦ サンプルは確率的に変動すると見なす一方で、母集団と母数は実際に観測可能かどうかに関わら ず一意に決まるものと考える • 推定を行うのに、事前に推定方法の確率的・統計的な性質を知っておく必要がある ◦ 今の推定が当たっているかではなく、何度もその推定方法を繰り返した時に妥当な推定できいる か?を主張するのが頻度主義統計学という学問
  174. 頻度主義が批判されているポイント • 論理体系が回りくどくて分かりにくい(でしょ?) • そもそも一意に定まる母集団なんてものが存在するの?パラメータも一意の値を取 るものなの? ◦ サニーレタスの母集団って何?未来永劫サニーレタスは生まれ続けるけど? ◦ 研究中の〇〇という肥料を与えたサニーレタスの母集団って何?

    • パラメータについての仮説・命題がどの程度正しそうかを確率的に表すことはでき ない ◦ 「例:平均身長が170cm以上である確率、A群の平均の重さよりもB群の平均の重さの方 が大きい確率」といった確率を表すことはできない
  175. まとめ

  176. • 頻度主義では、確率は客観的な頻度として捉え、「仮説が正しい確率」というものを考えることは できない ◦ 「例:平均身長が170cm以上である確率、A群の平均の重さよりもB群の平均の重さの方 が大きい確率」といった確率を表すことはできない • 頻度主義統計学の推測に対する考え方まとめ②

  177. • そもそも、観察・実験・調査を用いた経験主義的な科学の限界は、(全体から見た 時に)一部の標本での結果しか得られないこと ◦ 例えば、薬の臨床試験では、限られた人間でしか実験できず、「誰がやっても」「他の人間でも」「将 来に渡って」同様の効果を得られるかどうかは極論分からない = 科学の本質である、客観性・普 遍性・再現性は本質的には担保され得ない •

    だからこそ、確率論的にデータの背後に潜む規則や構造を推察することで、帰納的 推論を可能にするために統計学という学問は存在している • 統計学は、科学的手法を確率論的に正当化することで、19世紀後半〜20世紀以 降の科学の発展を支えてきた「縁の下の力持ち的学問」=近代科学を科学たらし めてきた ◦ 現代統計学の金字塔となったR.A.Fisherの著書の名は『研究者のための統計的方法』 ◦ 例えば、実験心理学の父ヴィルヘルム・ヴントは、心理学に実験と統計学的分析を導入するこ とで、それまでの哲学的な心理学とは異なる実証的な心理学という境地を拓いた なぜ統計学が必要とされるのか? ?
  178. • そもそも、観察・実験・調査を用いた経験主義的な科学の限界は、(全体から見た 時に)一部の標本での結果しか得られないこと ◦ 例えば、薬の臨床試験では、限られた人間でしか実験できず、「誰がやっても」「他の人間でも」「将 来に渡って」同様の効果を得られるかどうかは極論分からない = 科学の本質である、客観性・普 遍性・再現性は本質的には担保され得ない •

    だからこそ、確率論的にデータの背後に潜む規則や構造を推察することで、帰納的 推論を可能にするために統計学という学問は存在している • 統計学は、科学的手法を確率論的に正当化することで、19世紀後半〜20世紀以 降の科学の発展を支えてきた「縁の下の力持ち的学問」=近代科学を科学たらし めてきた ◦ 現代統計学の金字塔となったR.A.Fisherの著書の名は『研究者のための統計的方法』 ◦ 例えば、実験心理学の父ヴィルヘルム・ヴントは、心理学に実験と統計学的分析を導入するこ とで、それまでの哲学的な心理学とは異なる実証的な心理学という境地を拓いた なぜ統計学が必要とされるのか?
  179. • そもそも、観察・実験・調査を用いた経験主義的な科学の限界は、(全体から見た 時に)一部の標本での結果しか得られないこと ◦ 例えば、薬の臨床試験では、限られた人間でしか実験できず、「誰がやっても」「他の人間でも」「将 来に渡って」同様の効果を得られるかどうかは極論分からない = 科学の本質である、客観性・普 遍性・再現性は本質的には担保され得ない •

    だからこそ、「観察されたデータに数学を応用」し、帰納的推論を可能にするために 統計学という学問は存在している • 統計学は、科学的手法を確率論的に正当化することで、19世紀後半〜20世紀以 降の科学の発展を支えてきた「縁の下の力持ち的学問」=近代科学を科学たらし めてきた ◦ 現代統計学の金字塔となったR.A.Fisherの著書の名は『研究者のための統計的方法』 ◦ 例えば、実験心理学の父ヴィルヘルム・ヴントは、心理学に実験と統計学的分析を導入するこ とで、それまでの哲学的な心理学とは異なる実証的な心理学という境地を拓いた なぜ統計学が必要とされるのか?
  180. 「我々はどのようにして真なる知識を獲得できるのか?」 なぜ統計学が必要とされるのか?

  181. 「我々はどのようにして真なる知識を獲得できるのか?」 なぜ統計学が必要とされるのか? というソクラテスの時代から続く哲学的問題に人類は、

  182. 「我々はどのようにして真なる知識を獲得できるのか?」 なぜ統計学が必要とされるのか? というソクラテスの時代から続く哲学的問題に人類は、 「適切な統計処理によって結論が証明※されているのであれば、正しいだろう、科学的 知識と認めてよいだろう」という共通認識を得ることで、 心の安寧を得て、科学的進歩に邁進することができるようになった

  183. • 帰納推論が、「知っていることを元手に知らないことを推測する」という非演繹的推論である以上、 疑いの余地のない論理的な推論を行うことは不可能 ◦ 統計学にできるのは、あくまで推論を正当化しようする試みでしかない • 帰納推論を「どのように正当化することが正しいのか」=「どのように正当化すべきか」という問い が決着することはおそらく永遠にない ◦ 自分の行なっている正当化手法が哲学的問題を孕むことに自覚的になり、展開している議論が真理

    促進的かに厳しい批判の目を向け続ける必要がある • 統計学は帰納推論に確率論的思考の枠組みを与えたことで、帰納推論の正当化の ための議論を簡単にした一方で、本質的な危うさに無自覚にした 最後に〜統計学に関する哲学的諸注意
  184. Appendix

  185. 母集団が正規分布の場合の標本分布 母集団 「真の」確率モデル 正規分布xxxxxx μ σ2 母平均μ

  186. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 μ σ2 母平均μ 「真の」確率モデル 正規分布xxxxxx

  187. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 μ σ2 母平均μ 「真の」確率モデル 正規分布xxxxxx

    確率的に発生している と見なす
  188. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 母平均μ 標本の値 の分布 N回試行 「真の」確率モデル 正規分布xxxxxx
  189. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx
  190. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx
  191. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 標本平均 標本分布 (標本平均 の分布)
  192. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 標本平均 標本分布 (標本平均 の分布) 全くの別物
  193. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 標本平均 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 標本分布 (標本平均 の分布) 全くの別物
  194. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 標本平均 母平均μ 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 標本分布 (標本平均 の分布) 全くの別物
  195. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 標本平均 母平均μ 標本分布 (標本平均 の分布) 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 全くの別物
  196. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 μ 標本平均 母平均μ 標本分布 (標本平均 の分布) 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 全くの別物
  197. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 μ 標本平均 一致する 母平均μ 標本分布 (標本平均 の分布) 標本の値 の分布 「真の」確率モデル 正規分布xxxxxx 全くの別物
  198. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    μ σ2 μ 標本平均 一致する 母平均μ 標本分布 (標本平均 の分布) 標本の値 の分布 標本分布の平均(期待値)が、 その統計量によって推定しようとしている母数の値に一 致する時、その統計量は 不偏性を持つという また、普遍性をもつ統計量を母数の 不偏推定量という 「真の」確率モデル 正規分布xxxxxx 全くの別物
  199. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 μ σ2 μ 標本平均 母平均μ

    標本分布 (標本平均 の分布) 標本の値 の分布 標本 標本 ・ ・ ・ 一致する 母集団の分布を正規分布だと仮定したときに、 標本平均は母平均の 不偏推定量になっているという性 質を利用して、 たまたま得られたサンプルの標本平均から母平均を推 定することを不偏推定という 「真の」確率モデル 正規分布xxxxxx 全くの別物
  200. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 μ σ2 μ 標本平均 母平均μ

    標本分布 (標本平均 の分布) 標本の値 の分布 標本 標本 ・ ・ ・ 一致する そのままの値で推定する 母集団の分布を正規分布だと仮定したときに、 標本平均は母平均の 不偏推定量になっているという性 質を利用して、 たまたま得られたサンプルの標本平均から母平均を推 定することを不偏推定という 「真の」確率モデル 正規分布xxxxxx 全くの別物
  201. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 μ σ2 μ 標本平均 母平均μ

    標本分布 (標本平均 の分布) 標本の値 の分布 標本 標本 ・ ・ ・ 一致する 母集団の分布を正規分布だと仮定したときに、 標本平均は母平均の 不偏推定量になっているという性 質を利用して、 たまたま得られたサンプルの標本平均から母平均を推 定することを不偏推定という 「真の」確率モデル 正規分布xxxxxx そのままの値で推定する 全くの別物
  202. 母集団が正規分布の場合の標本分布 データを抽出 n個 母集団 標本 μ σ2 μ 標本平均 母平均μ

    標本分布 (標本平均 の分布) 標本の値 の分布 標本 標本 ・ ・ ・ 一致する 母集団の分布を正規分布だと仮定したときに、 標本平均は母平均の 不偏推定量になっているという性 質を利用して、 たまたま得られたサンプルの標本平均から母平均を推 定することを不偏推定という たまに母平均から大きくハズレてしまうこともあるが 平均的には母平均に近い値をとるはずであると見なす 「真の」確率モデル 正規分布xxxxxx そのままの値で推定する
  203. 母集団が正規分布の場合の標本分布 データを抽出 m個 母集団 ・ ・ ・ μ σ2 母平均μ

    「真の」確率モデル 正規分布xxxxxx
  204. 母集団が正規分布の場合の標本分布 データを抽出 m個 母集団 ・ ・ ・ μ σ2 標本平均

    母平均μ 「真の」確率モデル 正規分布xxxxxx
  205. 母集団が正規分布の場合の標本分布 データを抽出 m個 母集団 ・ ・ ・ μ σ2 μ

    標本平均 母平均μ 「真の」確率モデル 正規分布xxxxxx
  206. 母集団が正規分布の場合の標本分布 データを抽出 m個 母集団 ・ ・ ・ μ σ2 μ

    標本平均 ・ ・ ・ データを抽出 n個 母平均μ m << n 「真の」確率モデル 正規分布xxxxxx
  207. 母集団が正規分布の場合の標本分布 データを抽出 m個 母集団 ・ ・ ・ μ σ2 μ

    標本平均 ・ ・ ・ データを抽出 n個 母平均μ m << n 「真の」確率モデル 正規分布xxxxxx
  208. 母集団が正規分布の場合の標本分布 データを抽出 m個 母集団 ・ ・ ・ μ σ2 μ

    標本平均 ・ ・ ・ データを抽出 n個 母平均μ m << n 「真の」確率モデル 正規分布xxxxxx
  209. 母集団が正規分布の場合の標本分布 データを抽出 m個 母集団 ・ ・ ・ μ σ2 μ

    標本平均 ・ ・ ・ データを抽出 n個 母平均μ m << n サンプル数nが大きくなるほど、標本平均は母平均に 近い値を取る確率が大きくなる 「真の」確率モデル 正規分布xxxxxx
  210. 母集団が任意の分布の標本分布 母集団 「真の」確率モデル 母平均μ μ

  211. 母集団が任意の分布の標本分布 データを抽出 m個 母集団 ・ ・ ・ 「真の」確率モデル 母平均μ μ

  212. データを抽出 m個 母集団 ・ ・ ・ 「真の」確率モデル 母平均μ μ 母集団が任意の分布の標本分布

  213. データを抽出 m個 母集団 ・ ・ ・ 「真の」確率モデル 標本平均 母平均μ μ

    母集団が任意の分布の標本分布
  214. データを抽出 m個 母集団 ・ ・ ・ 「真の」確率モデル μ 標本平均 母平均μ

    μ 一致する 母集団が任意の分布の標本分布
  215. データを抽出 m個 母集団 ・ ・ ・ 「真の」確率モデル μ 標本平均 母平均μ

    μ ・ ・ ・ データを抽出 n個 m << n 一致する 母集団が任意の分布の標本分布
  216. データを抽出 m個 母集団 ・ ・ ・ 「真の」確率モデル μ 標本平均 母平均μ

    μ ・ ・ ・ データを抽出 n個 m << n 一致する 母集団が任意の分布の標本分布
  217. データを抽出 m個 母集団 ・ ・ ・ 「真の」確率モデル μ 標本平均 母平均μ

    μ ・ ・ ・ データを抽出 n個 m << n 一致する 母集団が任意の分布の標本分布
  218. データを抽出 m個 母集団 ・ ・ ・ 「真の」確率モデル μ 標本平均 母平均μ

    μ ・ ・ ・ データを抽出 n個 m << n 一致する xxxxxxxのとき、正規分布xxxxxxxxに近づく 中心極限定理 母集団が任意の分布の標本分布
  219. フリースローをθの確率で入れることができるSさん が、今10回フリースローを行うとする 例えば、10回中7回入る確率は 二項分布によるモデリング 10 C 7 θ7(1−θ)3 出典:『SLAM DUNK』

  220. フリースローをθの確率で入れることができるSさん が、今10回フリースローを行うとする 例えば、10回中7回入る確率は 二項分布によるモデリング 10 C 7 θ7(1−θ)3 回数 10

    9 8 7 6 5 4 3 2 1 0 二項分布Bin(x|10,θ)= 10 C x θx(1−θ)n−x 出典:『SLAM DUNK』
  221. 母集団がベルヌーイ分布の場合の標本分布 母集団 母比率θ 1.0 0.5 0 θ 1−θ 1 0

  222. 母集団がベルヌーイ分布の場合の標本分布 データを抽出 n個 母集団 標本 母比率θ 1.0 0.5 0 θ

    1−θ 1 0 =
  223. 母集団がベルヌーイ分布の場合の標本分布 データを抽出 n個 母集団 標本 母比率θ 1.0 0.5 0 θ

    1−θ 1 0 = n C x1 θx1(1−θ)n−x1
  224. 母集団がベルヌーイ分布の場合の標本分布 データを抽出 n個 母集団 標本 母比率θ 1.0 0.5 0 θ

    1−θ 1 0 = n C x1 θx1(1−θ)n−x1
  225. 母集団がベルヌーイ分布の場合の標本分布 データを抽出 n個 母集団 標本 母比率θ 1.0 0.5 0 θ

    1−θ 1 0 = n C x1 θx1(1−θ)n−x1 どのように推定するのが リーズナブルか?
  226. 母集団がベルヌーイ分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    母比率θ 標本比率 1.0 0.5 0 θ 1−θ 1 0 = = =
  227. 母集団がベルヌーイ分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    母比率θ 標本分布 (標本比率 の分布) 標本比率 = = = 1.0 0.5 0 θ 1−θ 1 0
  228. 母集団がベルヌーイ分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    母比率θ 標本分布 (標本比率 の分布) 標本比率 = = = Bin(x|n,θ)= n C x θx(1−θ)n−x 1.0 0.5 0 θ 1−θ 1 0
  229. 母集団がベルヌーイ分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    母比率θ 標本分布 (標本比率 の分布) 標本比率 = = = 1.0 0.5 0 θ 1−θ 1 0 平均θ Bin(x|n,θ)= n C x θx(1−θ)n−x
  230. 母集団がベルヌーイ分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    母比率θ 標本分布 (標本比率 の分布) 標本比率 = = = 1.0 0.5 0 θ 1−θ 1 0 一致する 母比率θの不偏推定量 Bin(x|n,θ)= n C x θx(1−θ)n−x 平均θ
  231. 母集団がベルヌーイ分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    母比率θ 標本分布 (標本比率 の分布) 標本比率 = = = 1.0 0.5 0 θ 1−θ 1 0 一致する 母比率θの不偏推定量 Bin(x|n,θ)= n C x θx(1−θ)n−x 平均θ
  232. 母集団がベルヌーイ分布の場合の標本分布 データを抽出 n個 母集団 標本 標本 標本 ・ ・ ・

    母比率θ 標本分布 (標本比率 の分布) 標本比率 = = = 1.0 0.5 0 θ 1−θ 1 0 一致する 母比率θの不偏推定量 Bin(x|n,θ)= n C x θx(1−θ)n−x そのままの値で推定する 平均θ
  233. 帰納推論と統計学 • 我々は、帰納推論を行うとき、推論の対象となっている未観測の事象は、推論の前提となっているこ れまで観測されてきた事象と同様だろう、と無意識に想定している(『統計学を哲学する』)=自然の 斉一性仮定 • データは、背後にある確率モデルからランダムに抽出されるので、サンプルごとに変わるが、そのも ととなる確率モデル自体は推論過程、あるいは未来を通じて同一に留まると仮定することで、 データから確率モデルを推論することが可能であり、 推論された確率モデルをもとに未来のデータも予測可能である

    という形で、自然の斉一性を定式化している • 統計学の本領は、確率を用いて自然の斉一性を定式化することによって、限られたデータから帰納 推論を正確に行い、さらにその推論の確からしさや信頼性を評価する枠組みを与えることである ◦ 統計学的議論の中では、統計モデリングはあくまで近似のための道具であると認めている が、自然の斉一性は真なるものとして仮定されていることには注意
  234. • (①、②)頻度主義統計学における統計モデリングとは、得られたサンプルが、特定 の確率分布にしたがう母集団から確率的に(たまたま)発生したと考えること • (③、④)統計モデリングに基づき、母集団の統計量(平均、分散、相関係数etc…) を統計的に推定することで母集団同士の比較や未知のデータの予測が可能になる ◦ 母集団の統計量(平均、分散、相関係数 etc…)を母数またはパラメータと呼ぶ 頻度主義統計学における統計モデリングと点推定

  235. 頻度主義統計学における統計モデリングと点推定 • (①、②)頻度主義統計学における統計モデリングとは、得られたサンプルが、特定 の確率分布にしたがう母集団から確率的に(たまたま)発生したと考えること →→ どのように統計モデリングをすればいいのか? • (③、④)統計モデリングに基づき、母集団の統計量(平均、分散、相関係数etc…) を統計的に点推定することで母集団同士の比較や未知のデータの予測が可能に なる

    ◦ 母集団の統計量(平均、分散、相関係数 etc…)を母数またはパラメータと呼ぶ →→ どのように母数を推定するのか?
  236. 頻度主義統計学における統計モデリングと点推定 • (①、②)頻度主義統計学における統計モデリングとは、得られたサンプルが、特定 の確率分布にしたがう母集団から確率的に(たまたま)発生したと考えること →→ どのように統計モデリングをすればいいのか? • (③、④)統計モデリングに基づき、母集団の統計量(平均、分散、相関係数etc…) を統計的に点推定することで母集団同士の比較や未知のデータの予測が可能に なる

    ◦ 母集団の統計量(平均、分散、相関係数 etc…)を母数またはパラメータと呼ぶ →→ どのように母数を推定するのか? すでに論じてきた
  237. 対象の事象の性質に基づく分布族の当てはめ • 日本の中学生の男子の身長・体重 • 全国統一小学生テストの点数 正規分布 1.0 0.5 0 θ

    1−θ 1 0 ベルヌーイ分布 二項分布 θ • コインを投げて裏表 • 靴を投げて裏表 • くじを引いて当たるか外れるか • フリースローを投げて入るか入らないか 例えば、コイン投げであれば、コインが立つという第3の可 能性を捨象している 例えば、中学生男子の身長は、どこまでも大きい / 小さい値 を取ることはないということを捨象している
  238. 頻度主義統計学における統計モデリングと点推定 • 推測統計では、大抵の場合、対象となる確率分布は、特定の関数形で与えられる 分布(正規分布、二項分布、ポアソン分布、etc…)になると仮定する ◦ これらの分布は有限個のパラメータでその関数形が決定される ◦ このような対象の確率分布が特定の分布で与えられるとする考え方をパラメトリックと言う • パラメトリックな推測統計では、モデリングの対象を一定の範囲の分布(要は有名

    で性質がよく知られた分布)に絞ることが一般的 • このようなモデリングを分析者が自らの考察・経験に基づき、主観的に行うことが統 計学の難しさ ◦ 当然、分析者のモデリングがリーズナブルであるかは査定されるべき ◦ モデルの選択を定量的に行う手法も存在する
  239. 点推定 区間推定 記述統計学 ベイズ統計学 推 測 し な い 推

    測 す る 統計学の分類 仮説検定 頻度主義統計学 統計的推定 推測統計学 ここも軽く触 れておく
  240. 統計的仮説検定の考え方のイメージ 10回中9回表が出た 本物のコイン イカサマのコイン 10回中7回表が出た 0.879% 24.2% 11.7% 20.1%

  241. 統計的仮説検定の考え方のイメージ 10回中9回表が出た 本物のコイン イカサマのコイン 10回中7回表が出た 0.879% 24.2% 11.7% 20.1% 本物のコインだと仮定するとかなり奇跡

    的なことが起こっているが、イカサマのコ インだと仮定すれば、十分起こり得そう どちらのコインだと仮定してもあり得ない というほどのことが起こっているわけでは ない
  242. 統計的仮説検定の考え方のイメージ 10回中9回表が出た 本物のコイン イカサマのコイン 10回中7回表が出た 0.879% 24.2% 11.7% 20.1% 本物のコインだと仮定するとかなり奇跡

    的なことが起こっているが、イカサマのコ インだと仮定すれば、十分起こり得そう どちらのコインだと仮定してもあり得ない というほどのことが起こっているわけでは ない 本物のコインであるという仮説を棄却し、 イカサマのコインであるという仮説を選択 した方が妥当 どちらの仮説も捨て去るほどでもなく、結 果どちらの仮説を選択する方が妥当とい うのも言えない
  243. データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 頻度主義 A:弱い光を当てて育てた植物の重さ B:強い光を当てて育てた植物の重さ

  244. サンプルにどれだけ差があるのか にはあまり興味がない データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 頻度主義 A:弱い光を当てて育てた植物の重さ

    B:強い光を当てて育てた植物の重さ 本当に知りたいのは、 母集団に差があるのか
  245. データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 頻度主義 A:弱い光を当てて育てた植物の重さ B:強い光を当てて育てた植物の重さ

  246. 頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ

    A 2 μ B σ B 2 母集団に差があるのか
  247. 頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ

    A 2 μ B σ B 2 平均値差 μ A-B
  248. 頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ

    A 2 μ B σ B 2 平均値差 μ A-B −
  249. 頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ

    A 2 μ B σ B 2 平均値差 μ A-B −
  250. 頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ

    A 2 μ B σ B 2 平均値差 μ A-B − 0 帰無仮説
  251. 頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ

    A 2 μ B σ B 2 平均値差 μ A-B − 0 帰無仮説 2.5%棄却域 2.5%棄却域
  252. 頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ

    A 2 μ B σ B 2 平均値差 μ A-B − 0 帰無仮説 2.5%棄却域 2.5%棄却域 帰無仮説を支持するには、 あまりにも(?)起きづらい確率
  253. 頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ

    A 2 μ B σ B 2 平均値差 μ A-B − 0 帰無仮説 2.5%棄却域 2.5%棄却域 棄却する 帰無仮説を支持するには、 あまりにも(?)起きづらい確率
  254. • 知りたいのは、サンプルではなく、あくまで母集団に差があるのか • 2つの母集団が正規分布のとき、母集団の平均値差/平均値差の標準偏差の分布 はt分布になる • サンプルの標本平均値差が、母集団の平均値差を0とした時のt分布から発生した と仮定した時(帰無仮説)、その発生確率をp値と呼ぶ • p値

    < 5%(1%)のとき、今得られたサンプルの標本平均値差は、非常に「珍しい」も のだと考え、元の帰無仮説を棄却する ◦ 帰無仮説が正しくない確率が 5%というわけでも、 2群の平均値差の検定
  255. 統計的仮説検定の考え方のイメージ 10回中9回表が出た 本物のコイン イカサマのコイン 10回中7回表が出た 0.879% 24.2% 11.7% 20.1%

  256. 統計的仮説検定の考え方のイメージ 10回中9回表が出た 本物のコイン イカサマのコイン 10回中7回表が出た 0.879% 24.2% 11.7% 20.1% 本物のコインだと仮定するとかなり奇跡

    的なことが起こっているが、イカサマのコ インだと仮定すれば、十分起こり得そう どちらのコインだと仮定してもあり得ない というほどのことが起こっているわけでは ない
  257. 統計的仮説検定の考え方のイメージ 10回中9回表が出た 本物のコイン イカサマのコイン 10回中7回表が出た 0.879% 24.2% 11.7% 20.1% 本物のコインだと仮定するとかなり奇跡

    的なことが起こっているが、イカサマのコ インだと仮定すれば、十分起こり得そう どちらのコインだと仮定してもあり得ない というほどのことが起こっているわけでは ない 本物のコインであるという仮説を棄却し、 イカサマのコインであるという仮説を選択 した方が妥当 どちらの仮説も捨て去るほどでもなく、結 果どちらの仮説を選択する方が妥当とい うのも言えない
  258. データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 頻度主義 A:弱い光を当てて育てた植物の重さ B:強い光を当てて育てた植物の重さ

  259. サンプルにどれだけ差があるのか にはあまり興味がない データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 頻度主義 A:弱い光を当てて育てた植物の重さ

    B:強い光を当てて育てた植物の重さ 本当に知りたいのは、 母集団に差があるのか
  260. データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 頻度主義 A:弱い光を当てて育てた植物の重さ B:強い光を当てて育てた植物の重さ

  261. 頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ

    A 2 μ B σ B 2 母集団に差があるのか
  262. 頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ

    A 2 μ B σ B 2 平均値差 μ A-B
  263. 頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ

    A 2 μ B σ B 2 平均値差 μ A-B −
  264. 頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ

    A 2 μ B σ B 2 平均値差 μ A-B −
  265. 頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ

    A 2 μ B σ B 2 平均値差 μ A-B − 0 帰無仮説
  266. 頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ

    A 2 μ B σ B 2 平均値差 μ A-B − 0 帰無仮説 2.5%棄却域 2.5%棄却域
  267. 頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ

    A 2 μ B σ B 2 平均値差 μ A-B − 0 帰無仮説 2.5%棄却域 2.5%棄却域 帰無仮説を支持するには、 あまりにも(?)起きづらい確率
  268. 頻度主義 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 μ A σ

    A 2 μ B σ B 2 平均値差 μ A-B − 0 帰無仮説 2.5%棄却域 2.5%棄却域 棄却する 帰無仮説を支持するには、 あまりにも(?)起きづらい確率
  269. • 知りたいのは、サンプルではなく、あくまで母集団に差があるのか • 2つの母集団が正規分布のとき、母集団の平均値差/平均値差の標準偏差の分布 はt分布になる • サンプルの標本平均値差が、母集団の平均値差を0とした時のt分布から発生した と仮定した時(帰無仮説)、その発生確率をp値と呼ぶ • p値

    < 5%(1%)のとき、今得られたサンプルの標本平均値差は、非常に「珍しい」も のだと考え、元の帰無仮説を棄却する ◦ 帰無仮説が正しくない確率が 5%というわけでも、 2群の平均値差の検定