Upgrade to Pro — share decks privately, control downloads, hide ads and more …

統計学に入門したので確率変数/期待値/分散をなるべく分かりやすく説明してみる

Yosuke Obata
August 23, 2019

 統計学に入門したので確率変数/期待値/分散をなるべく分かりやすく説明してみる

Yosuke Obata

August 23, 2019
Tweet

More Decks by Yosuke Obata

Other Decks in Science

Transcript

  1. 機械学習 ・予測、推定がメイン ・なので、得られた結果の精度が重要 ・どういう処理をしているかの意味は よく分からなくても OK ・DNN とか謎のまま使われてる ・人間の判断材料にもなるし、アプリ ケーションに組み込むこともできる

    統計学 ・データの中身の解析がメイン ・なので、得られた結果の意味が重要 ・意味がわかる必要があるのでロジッ クは比較的シンプル ・人間が判断する材料になる ・機械学習で使われるようなアルゴリ ズムもある 統計学とは 統計学 と 機械学習 7
  2. 解説 13 ◍ コインを投げて出る結果は「表と裏が出る」の 2種類 ◍ このような試行のことを ベルヌーイ試行 と言います ◍

    このベルヌーイ試行を n回行った場合に表( or 裏)が出る確率は、表 が出る確率をPとすると ◍ この確率に対する確率分布を 二項分布(ベルヌーイ分布)と言います ◍ ここで、X は確率変数です
  3. 解説 14 ◍ コインを投げて出る結果は「表と裏が出る」の 2種類 ◍ このベルヌーイ試行を n回行った場合に表( or 裏)が出る確率は、表

    が出る確率をPとすると ここで、今回のコインは表も裏も 1/2の確率なので、上記の P(X)は になります。 例えばn=4回コインを投げてx=2になる確率 => 6/16 と計算できます。
  4. 解説 - 確率変数 ◍ 確率変数とは「ある変数の値をとる確率が存在する変数のこと」です ◍ ◍ 例えば... 1. コインを投げると1/2の確率で表(1)か裏(0)が出る

    2. サイコロなら1/6の確率で 1,2,3,4,5,6 のどれかが出る ◍ という、事象そのものと考えると分かりやすい ...気がする ◍ 各値に確率が振ってあって、実行するとその確率に応じてランダムに 値を返す関数が定義してあるイメージ ◍ コインの確率変数を Rubyのメソッドにしてみる 15
  5. ◍ さて、↑ の確率を出したいのでした ◍ 今回の例題のように、確率変数 X が二項分布に従っている場合、 期待値 と 分散

    は以下のようになります 期待値: 分散: 解説 16 ◍ 表と裏が出る確率が同じコインがあります ◍ このコインを2000回投げたときに、表が1100回以上出る確率はどれくらいでしょうか?
  6. ◍ 試行結果を足した場合、分散は試行結果と共に増えていきます ◌ X1 + X2 + X3 + …

    Xn の結果は n を増やすと増えるからです ◍ 平均を取った場合は事情が変わります ◌ (X1 + X2 + X3 + … Xn) / n が、n を増やすと安定するのは想 像に難くないと思います ◌ 実際に、平均値の場合だと分散は V(X)/n で減っていきます ◌ n -> ∞ とすると、分散は0に収束します ◍ この性質を利用したのが、 大数の法則 です 解説 - 分散 19
  7. ◍ 大数の法則 は試行回数が増えると分散が0に収束し、その平均値 も収束するというものでした ◌ じゃあ、その分布もどこかに収束しそうじゃない? ◍ ということで、ラプラスの定理(中心極限定理)が生まれました ◍ ラプラスの定理は、試行回数がめっちゃ増えると

    二項分布が正規 分布に近似できてしまう 、という定理です ◌ ラプラスの定理は 中心極限定理 の特殊バージョンです ◌ 中心極限定理は、どんな分布 でも試行回数がめっちゃ多いと 正規分布になる というなんともすごい定理です 解説 - 大数の法則, ラプラスの定理 20
  8. ◍ 期待値と分散を問題の条件で出すと、 ◍ E(X) = 1000, V(X) = 500 ◍

    標準偏差: σ = √V(X) = √500 ≒ 22.36 ◍ 標準偏差が出て、正規分布に近似できるなら、確率出せそう 解説 21 ◍ 表と裏が出る確率が同じコインがあります ◍ このコインを2000回投げたときに、表が1100回以上出る確率はどれくらいでしょうか?
  9. 23 ◍ もう少し正確に言うと、 「標準偏差に対する確率が、正規分布表に 当てはまる性質を持っている」と言える。 ◍ μ = E(X) =

    1000 ◍ σ = √V(X) = √500 ≒ 22.36 より ◍ Q(u) = 100 / 22.36 ≒ 4.47 ◍ なので右の正規分布表から、コインを 2000 回投げたときに、表が 1100回以上出る確率 は 約0.00039% となります(パーセント表 記にしてるので 100 倍してる)。 解説 - 正規分布表
  10. Credits Special thanks to all the people who made and

    released these awesome resources for free: ◍ Presentation template by SlidesCarnival ◍ Photographs by Unsplash 27