Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
統計学に入門したので確率変数/期待値/分散をなるべく分かりやすく説明してみる
Search
Yosuke Obata
August 23, 2019
Science
1
490
統計学に入門したので確率変数/期待値/分散をなるべく分かりやすく説明してみる
Yosuke Obata
August 23, 2019
Tweet
Share
More Decks by Yosuke Obata
See All by Yosuke Obata
Kotlin + DGS で始めるスキーマファーストな GraphQL サーバー開発
sukechannnn
0
230
自動E2Eテストを活用した デプロイフロー改善
sukechannnn
6
1.5k
結婚式の席札を手書きしたくなかったので技術で解決した話
sukechannnn
1
4k
Other Decks in Science
See All in Science
Pericarditis Comic
camkdraws
0
670
Science of Scienceおよび科学計量学に関する研究論文の俯瞰可視化_LT版
hayataka88
0
900
Sarcoptic Mange
uni_of_nomi
1
110
大規模画像テキストデータのフィルタリング手法の紹介
lyakaap
6
1.5k
ベイズ最適化をゼロから
brainpadpr
2
740
化学におけるAI・シミュレーション活用のトレンドと 汎用原子レベルシミュレーター: Matlantisを使った素材開発
matlantis
0
210
はじめての「相関と因果とエビデンス」入門:“動機づけられた推論” に抗うために
takehikoihayashi
17
6.8k
統計的因果探索の方法
sshimizu2006
1
1.1k
拡散モデルの原理紹介
brainpadpr
3
4.6k
非同期コミュニケーションの構造 -チャットツールを用いた組織における情報の流れの設計について-
koisono
0
130
解説!データ基盤の進化を後押しする手順とタイミング
shomaekawa
1
330
様々な侵入者タイプに対応した適切な警備計画の策定 / Patrol route design considering various types of intrudes
konakalab
0
170
Featured
See All Featured
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.1k
YesSQL, Process and Tooling at Scale
rocio
167
14k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Optimizing for Happiness
mojombo
376
69k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
Why Our Code Smells
bkeepers
PRO
334
57k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
191
16k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
46
2.1k
Designing the Hi-DPI Web
ddemaree
280
34k
Into the Great Unknown - MozCon
thekraken
31
1.5k
Adopting Sorbet at Scale
ufuk
73
9k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
228
52k
Transcript
統計学に入門した ので確率変数/期待値/ 分散をなるべく分かりや すく説明してみる
今回の勉強会では ・確率変数/期待値/分散について説明してみる ・発表することで自分の理解も整理したい Instructions 2 なんで統計学を学ぼうと? ・元々は機械学習を勉強するつもりだった ・が、機械学習の数式が分からなすぎた(特に確率変数 /期待値/分散が謎だった) ・統計学を一通り勉強すれば機械学習の理論も理解できるのでは?という気がした
・学んでるうちに統計学そのものが面白くなった
I am @sukechannnn Hello! 3 ・社会人3年目のエンジニアです ・株式会社フィードフォースでバックエンドエンジニアをしています ・最近はデータの可視化・分析もちょっとだけしてます(楽しい)
◍ これから話す話は全て⇢の本に書いてあ ります ◍ とても良い本ですが数式ベースの説明 がメインなので、全くの初学者はマン ガでわかるシリーズとかから始めた方 が良いかも...? ◍ また、例題は以下のQiita記事を参考に
してます ◌ https://qiita.com/Lily0727K/items/9ea67d7bb7335 698465d ちなみに 4 https://www.amazon.co.jp/dp/4130420658
1. 統計学とは Let’s start with the first set of slides
5
◍ 得られたデータからなんらかの規則性(あるい は不規則性)を見出すことを目的とした学問 ◍ 得られた結果の分析・検証がメイン ◌ 予測は機械学習の方が得意 ◍ 最初は医学(疫学)から発展してきた ◌
“統計学が最強の学問である”とかが詳しい ◌ https://www.amazon.co.jp/dp/4478022216 統計学とは 6
機械学習 ・予測、推定がメイン ・なので、得られた結果の精度が重要 ・どういう処理をしているかの意味は よく分からなくても OK ・DNN とか謎のまま使われてる ・人間の判断材料にもなるし、アプリ ケーションに組み込むこともできる
統計学 ・データの中身の解析がメイン ・なので、得られた結果の意味が重要 ・意味がわかる必要があるのでロジッ クは比較的シンプル ・人間が判断する材料になる ・機械学習で使われるようなアルゴリ ズムもある 統計学とは 統計学 と 機械学習 7
◍ 統計学の手法は目的や分野ごとにいくつ かある ◌ 右図にあるような標準正規分布に近 似する方法はよく知られてるが、他 にもたくさんある ◍ それらすべての手法の基礎となるのが、 期待値・分散の考え方
◌ そして確率変数!(一番謎だった…) ◍ この発表では主に確率変数/期待値/分散 について説明します 統計学とは 8
2. 例題 9
◍ 表と裏が出る確率が同じコインがあります ◍ このコインを2000回投げたときに、表が1100回以上出る確率 はどれくらいでしょうか? ◍ 以下の選択肢から最も近い値を選んでください。 例題 10 1)
10% 2) 5% 3) 0.05% 4) 0.0005%
◍ 表と裏が出る確率が同じコインがあります ◍ このコインを2000回投げたときに、表が1100回以上出る確率 はどれくらいでしょうか? ◍ 以下の選択肢から最も近い値を選んでください。 例題 - 正解
11 1) 10% 2) 5% 3) 0.05% 4) 0.0005% なんでこうなるのかを 次 ページ以降で解説します!
3. 解説 12
解説 13 ◍ コインを投げて出る結果は「表と裏が出る」の 2種類 ◍ このような試行のことを ベルヌーイ試行 と言います ◍
このベルヌーイ試行を n回行った場合に表( or 裏)が出る確率は、表 が出る確率をPとすると ◍ この確率に対する確率分布を 二項分布(ベルヌーイ分布)と言います ◍ ここで、X は確率変数です
解説 14 ◍ コインを投げて出る結果は「表と裏が出る」の 2種類 ◍ このベルヌーイ試行を n回行った場合に表( or 裏)が出る確率は、表
が出る確率をPとすると ここで、今回のコインは表も裏も 1/2の確率なので、上記の P(X)は になります。 例えばn=4回コインを投げてx=2になる確率 => 6/16 と計算できます。
解説 - 確率変数 ◍ 確率変数とは「ある変数の値をとる確率が存在する変数のこと」です ◍ ◍ 例えば... 1. コインを投げると1/2の確率で表(1)か裏(0)が出る
2. サイコロなら1/6の確率で 1,2,3,4,5,6 のどれかが出る ◍ という、事象そのものと考えると分かりやすい ...気がする ◍ 各値に確率が振ってあって、実行するとその確率に応じてランダムに 値を返す関数が定義してあるイメージ ◍ コインの確率変数を Rubyのメソッドにしてみる 15
◍ さて、↑ の確率を出したいのでした ◍ 今回の例題のように、確率変数 X が二項分布に従っている場合、 期待値 と 分散
は以下のようになります 期待値: 分散: 解説 16 ◍ 表と裏が出る確率が同じコインがあります ◍ このコインを2000回投げたときに、表が1100回以上出る確率はどれくらいでしょうか?
◍ 期待値とは、平たく言うと 平均値 です ◍ n は試行回数、p は表が出る確率です ◍ なので、10回試行した場合の期待値は
E(X) = 10 * 1/2 = 5 ◍ 二項分布の期待値は特に分かりやすいです 解説 - 期待値 17
◍ 分散は、確率変数 X の ばらつき度合い のことです ◍ 分散が大きければ大きいほど ばらつきます ◍
√V(X) が 標準偏差 です 解説 - 分散 18
◍ 試行結果を足した場合、分散は試行結果と共に増えていきます ◌ X1 + X2 + X3 + …
Xn の結果は n を増やすと増えるからです ◍ 平均を取った場合は事情が変わります ◌ (X1 + X2 + X3 + … Xn) / n が、n を増やすと安定するのは想 像に難くないと思います ◌ 実際に、平均値の場合だと分散は V(X)/n で減っていきます ◌ n -> ∞ とすると、分散は0に収束します ◍ この性質を利用したのが、 大数の法則 です 解説 - 分散 19
◍ 大数の法則 は試行回数が増えると分散が0に収束し、その平均値 も収束するというものでした ◌ じゃあ、その分布もどこかに収束しそうじゃない? ◍ ということで、ラプラスの定理(中心極限定理)が生まれました ◍ ラプラスの定理は、試行回数がめっちゃ増えると
二項分布が正規 分布に近似できてしまう 、という定理です ◌ ラプラスの定理は 中心極限定理 の特殊バージョンです ◌ 中心極限定理は、どんな分布 でも試行回数がめっちゃ多いと 正規分布になる というなんともすごい定理です 解説 - 大数の法則, ラプラスの定理 20
◍ 期待値と分散を問題の条件で出すと、 ◍ E(X) = 1000, V(X) = 500 ◍
標準偏差: σ = √V(X) = √500 ≒ 22.36 ◍ 標準偏差が出て、正規分布に近似できるなら、確率出せそう 解説 21 ◍ 表と裏が出る確率が同じコインがあります ◍ このコインを2000回投げたときに、表が1100回以上出る確率はどれくらいでしょうか?
◍ 有名な正規分布の性質は ◌ ±σ の範囲におさまる確率は約 70%(68.27%) ◌ ±2σ の範囲におさまる確率は約 95%(95.45%)
◌ ±3σ の範囲におさまる確率は約 99%(99.73%) 解説 - 正規分布 22
23 ◍ もう少し正確に言うと、 「標準偏差に対する確率が、正規分布表に 当てはまる性質を持っている」と言える。 ◍ μ = E(X) =
1000 ◍ σ = √V(X) = √500 ≒ 22.36 より ◍ Q(u) = 100 / 22.36 ≒ 4.47 ◍ なので右の正規分布表から、コインを 2000 回投げたときに、表が 1100回以上出る確率 は 約0.00039% となります(パーセント表 記にしてるので 100 倍してる)。 解説 - 正規分布表
◍ 頑張って手計算で出した答えですが、近似値のため正確ではありません ◍ SciPy(Python の数値解析ライブラリ)使って正確な値を出してみます ◍ binom 関数はExcelにも似たものが入ってて、引数に (成功数, 試行回数,
成功確率)を入れると正規分布の確率を出してくれます 解説 - Python 24
◍ 二項分布を正規分布に近似して、正規分布から期待値と分散 (標準偏差)を使って手計算で確率を算出してみました ◍ ライブラリを使えば答えは一発で出せますが、統計学はその 答えが示す意味が重要なので、学習の際には泥臭く手を動か してみるのがオススメです ◍ 僕もまだまだ初心者なので、今後も継続的に勉強します! まとめ
25
おしまい 26
Credits Special thanks to all the people who made and
released these awesome resources for free: ◍ Presentation template by SlidesCarnival ◍ Photographs by Unsplash 27