統計学に入門したので確率変数/期待値/分散をなるべく分かりやすく説明してみる

統計学に入門したので確率変数/期待値/ 分散をなるべく分かりやすく説明してみる

今回の勉強会では・確率変数/期待値/分散について説明してみる・発表することで自分の理解も整理したい Instructions 2 なんで統計学を学ぼうと？・元々は機械学習を勉強するつもりだった・が、機械学習の数式が分からなすぎた（特に確率変数 /期待値/分散が謎だった）・統計学を一通り勉強すれば機械学習の理論も理解できるのでは？という気がした
・学んでるうちに統計学そのものが面白くなった

I am @sukechannnn Hello! 3 ・社会人3年目のエンジニアです・株式会社フィードフォースでバックエンドエンジニアをしています・最近はデータの可視化・分析もちょっとだけしてます（楽しい）

◍ これから話す話は全て⇢の本に書いてあります ◍ とても良い本ですが数式ベースの説明がメインなので、全くの初学者はマンガでわかるシリーズとかから始めた方が良いかも...？ ◍ また、例題は以下のQiita記事を参考に
してます ◌ https://qiita.com/Lily0727K/items/9ea67d7bb7335 698465d ちなみに 4 https://www.amazon.co.jp/dp/4130420658

1. 統計学とは Let’s start with the first set of slides
5

◍ 得られたデータからなんらかの規則性（あるいは不規則性）を見出すことを目的とした学問 ◍ 得られた結果の分析・検証がメイン ◌ 予測は機械学習の方が得意 ◍ 最初は医学（疫学）から発展してきた ◌
“統計学が最強の学問である”とかが詳しい ◌ https://www.amazon.co.jp/dp/4478022216 統計学とは 6

機械学習・予測、推定がメイン・なので、得られた結果の精度が重要・どういう処理をしているかの意味はよく分からなくても OK ・DNN とか謎のまま使われてる・人間の判断材料にもなるし、アプリケーションに組み込むこともできる
統計学・データの中身の解析がメイン・なので、得られた結果の意味が重要・意味がわかる必要があるのでロジックは比較的シンプル・人間が判断する材料になる・機械学習で使われるようなアルゴリズムもある統計学とは統計学と機械学習 7

◍ 統計学の手法は目的や分野ごとにいくつかある ◌ 右図にあるような標準正規分布に近似する方法はよく知られてるが、他にもたくさんある ◍ それらすべての手法の基礎となるのが、期待値・分散の考え方
◌ そして確率変数！（一番謎だった…） ◍ この発表では主に確率変数/期待値/分散について説明します統計学とは 8

2. 例題 9

◍ 表と裏が出る確率が同じコインがあります ◍ このコインを2000回投げたときに、表が1100回以上出る確率はどれくらいでしょうか？ ◍ 以下の選択肢から最も近い値を選んでください。例題 10 1)
10% 2) 5% 3) 0.05% 4) 0.0005%

◍ 表と裏が出る確率が同じコインがあります ◍ このコインを2000回投げたときに、表が1100回以上出る確率はどれくらいでしょうか？ ◍ 以下の選択肢から最も近い値を選んでください。例題 - 正解
11 1) 10% 2) 5% 3) 0.05% 4) 0.0005% なんでこうなるのかを　　　　次ページ以降で解説します！

3. 解説 12

解説 13 ◍ コインを投げて出る結果は「表と裏が出る」の 2種類 ◍ このような試行のことをベルヌーイ試行と言います ◍
このベルヌーイ試行を n回行った場合に表（ or 裏）が出る確率は、表が出る確率をPとすると ◍ この確率に対する確率分布を二項分布（ベルヌーイ分布）と言います ◍ ここで、X は確率変数です

解説 14 ◍ コインを投げて出る結果は「表と裏が出る」の 2種類 ◍ このベルヌーイ試行を n回行った場合に表（ or 裏）が出る確率は、表
が出る確率をPとするとここで、今回のコインは表も裏も 1/2の確率なので、上記の P(X)はになります。例えばn=4回コインを投げてx=2になる確率 => 6/16 と計算できます。

解説 - 確率変数 ◍ 確率変数とは「ある変数の値をとる確率が存在する変数のこと」です ◍ ◍ 例えば... 1. コインを投げると1/2の確率で表(1)か裏(0)が出る
2. サイコロなら1/6の確率で 1,2,3,4,5,6 のどれかが出る ◍ という、事象そのものと考えると分かりやすい ...気がする ◍ 各値に確率が振ってあって、実行するとその確率に応じてランダムに値を返す関数が定義してあるイメージ ◍ コインの確率変数を Rubyのメソッドにしてみる 15

◍ さて、↑ の確率を出したいのでした ◍ 今回の例題のように、確率変数 X が二項分布に従っている場合、期待値と分散
は以下のようになります期待値：分散：解説 16 ◍ 表と裏が出る確率が同じコインがあります ◍ このコインを2000回投げたときに、表が1100回以上出る確率はどれくらいでしょうか？

◍ 期待値とは、平たく言うと平均値です ◍ n は試行回数、p は表が出る確率です ◍ なので、10回試行した場合の期待値は
E(X) = 10 * 1/2 = 5 ◍ 二項分布の期待値は特に分かりやすいです解説 - 期待値 17

◍ 分散は、確率変数 X のばらつき度合いのことです ◍ 分散が大きければ大きいほどばらつきます ◍
√V(X) が標準偏差です解説 - 分散 18

◍ 試行結果を足した場合、分散は試行結果と共に増えていきます ◌ X1 + X2 + X3 + …
Xn の結果は n を増やすと増えるからです ◍ 平均を取った場合は事情が変わります ◌ (X1 + X2 + X3 + … Xn) / n が、n を増やすと安定するのは想像に難くないと思います ◌ 実際に、平均値の場合だと分散は V(X)/n で減っていきます ◌ n -> ∞ とすると、分散は０に収束します ◍ この性質を利用したのが、大数の法則です解説 - 分散 19

◍ 大数の法則は試行回数が増えると分散が０に収束し、その平均値も収束するというものでした ◌ じゃあ、その分布もどこかに収束しそうじゃない？ ◍ ということで、ラプラスの定理（中心極限定理）が生まれました ◍ ラプラスの定理は、試行回数がめっちゃ増えると
二項分布が正規分布に近似できてしまう、という定理です ◌ ラプラスの定理は中心極限定理の特殊バージョンです ◌ 中心極限定理は、どんな分布でも試行回数がめっちゃ多いと正規分布になるというなんともすごい定理です解説 - 大数の法則, ラプラスの定理 20

◍ 期待値と分散を問題の条件で出すと、 ◍ E(X) = 1000, V(X) = 500 ◍
標準偏差: σ = √V(X) = √500 ≒ 22.36 ◍ 標準偏差が出て、正規分布に近似できるなら、確率出せそう解説 21 ◍ 表と裏が出る確率が同じコインがあります ◍ このコインを2000回投げたときに、表が1100回以上出る確率はどれくらいでしょうか？

◍ 有名な正規分布の性質は ◌ ±σ の範囲におさまる確率は約 70%(68.27%) ◌ ±2σ の範囲におさまる確率は約 95%(95.45%)
◌ ±3σ の範囲におさまる確率は約 99%(99.73%) 解説 - 正規分布 22

23 ◍ もう少し正確に言うと、「標準偏差に対する確率が、正規分布表に当てはまる性質を持っている」と言える。 ◍ μ = E(X) =
1000 ◍ σ = √V(X) = √500 ≒ 22.36 より ◍ Q(u) = 100 / 22.36 ≒ 4.47 ◍ なので右の正規分布表から、コインを 2000 回投げたときに、表が 1100回以上出る確率は約0.00039% となります（パーセント表記にしてるので 100 倍してる）。解説 - 正規分布表

◍ 頑張って手計算で出した答えですが、近似値のため正確ではありません ◍ SciPy（Python の数値解析ライブラリ）使って正確な値を出してみます ◍ binom 関数はExcelにも似たものが入ってて、引数に（成功数, 試行回数,
成功確率）を入れると正規分布の確率を出してくれます解説 - Python 24

◍ 二項分布を正規分布に近似して、正規分布から期待値と分散（標準偏差）を使って手計算で確率を算出してみました ◍ ライブラリを使えば答えは一発で出せますが、統計学はその答えが示す意味が重要なので、学習の際には泥臭く手を動かしてみるのがオススメです ◍ 僕もまだまだ初心者なので、今後も継続的に勉強します！まとめ
25

おしまい 26

Credits Special thanks to all the people who made and
released these awesome resources for free: ◍ Presentation template by SlidesCarnival ◍ Photographs by Unsplash 27

統計学に入門したので確率変数/期待値/分散をなるべく分かりやすく説明してみる

統計学に入門したので確率変数/期待値/分散をなるべく分かりやすく説明してみる

Yosuke Obata

More Decks by Yosuke Obata

Other Decks in Science

Featured

Transcript