Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
統計学に入門したので確率変数/期待値/分散をなるべく分かりやすく説明してみる
Search
Yosuke Obata
August 23, 2019
Science
1
540
統計学に入門したので確率変数/期待値/分散をなるべく分かりやすく説明してみる
Yosuke Obata
August 23, 2019
Tweet
Share
More Decks by Yosuke Obata
See All by Yosuke Obata
Kotlin + DGS で始めるスキーマファーストな GraphQL サーバー開発
sukechannnn
0
300
自動E2Eテストを活用した デプロイフロー改善
sukechannnn
6
1.7k
結婚式の席札を手書きしたくなかったので技術で解決した話
sukechannnn
1
4.1k
Other Decks in Science
See All in Science
Trend Classification of InSAR Displacement Time Series Using SAE–CNN
satai
3
310
システム数理と応用分野の未来を切り拓くロードマップ・エンターテインメント(スポーツ)への応用 / Applied mathematics for sports entertainment
konakalab
1
290
生成AIと学ぶPythonデータ分析再入門-Pythonによるクラスタリング・可視化をサクサク実施-
datascientistsociety
PRO
4
1.3k
Causal discovery based on non-Gaussianity and nonlinearity
sshimizu2006
0
270
マルチオミクスデータ解析のためのカーネルテンソル分解による新しい特徴選択法
tagtag
1
100
機械学習 - 決定木からはじめる機械学習
trycycle
PRO
0
850
統計的因果探索: 背景知識とデータにより因果仮説を探索する
sshimizu2006
3
820
統計学入門講座 第1回スライド
techmathproject
0
300
Snowflakeによる統合バイオインフォマティクス
ktatsuya
0
690
はじめてのバックドア基準:あるいは、重回帰分析の偏回帰係数を因果効果の推定値として解釈してよいのか問題
takehikoihayashi
3
1.8k
05_山中真也_室蘭工業大学大学院工学研究科教授_だてプロの挑戦.pdf
sip3ristex
0
340
点群ライブラリPDALをGoogleColabにて実行する方法の紹介
kentaitakura
1
210
Featured
See All Featured
Writing Fast Ruby
sferik
628
61k
Optimising Largest Contentful Paint
csswizardry
37
3.2k
VelocityConf: Rendering Performance Case Studies
addyosmani
329
24k
The World Runs on Bad Software
bkeepers
PRO
68
11k
Why You Should Never Use an ORM
jnunemaker
PRO
56
9.4k
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3.2k
A Modern Web Designer's Workflow
chriscoyier
693
190k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
30
2k
Speed Design
sergeychernyshev
29
940
Java REST API Framework Comparison - PWX 2021
mraible
31
8.6k
GraphQLとの向き合い方2022年版
quramy
46
14k
GraphQLの誤解/rethinking-graphql
sonatard
71
11k
Transcript
統計学に入門した ので確率変数/期待値/ 分散をなるべく分かりや すく説明してみる
今回の勉強会では ・確率変数/期待値/分散について説明してみる ・発表することで自分の理解も整理したい Instructions 2 なんで統計学を学ぼうと? ・元々は機械学習を勉強するつもりだった ・が、機械学習の数式が分からなすぎた(特に確率変数 /期待値/分散が謎だった) ・統計学を一通り勉強すれば機械学習の理論も理解できるのでは?という気がした
・学んでるうちに統計学そのものが面白くなった
I am @sukechannnn Hello! 3 ・社会人3年目のエンジニアです ・株式会社フィードフォースでバックエンドエンジニアをしています ・最近はデータの可視化・分析もちょっとだけしてます(楽しい)
◍ これから話す話は全て⇢の本に書いてあ ります ◍ とても良い本ですが数式ベースの説明 がメインなので、全くの初学者はマン ガでわかるシリーズとかから始めた方 が良いかも...? ◍ また、例題は以下のQiita記事を参考に
してます ◌ https://qiita.com/Lily0727K/items/9ea67d7bb7335 698465d ちなみに 4 https://www.amazon.co.jp/dp/4130420658
1. 統計学とは Let’s start with the first set of slides
5
◍ 得られたデータからなんらかの規則性(あるい は不規則性)を見出すことを目的とした学問 ◍ 得られた結果の分析・検証がメイン ◌ 予測は機械学習の方が得意 ◍ 最初は医学(疫学)から発展してきた ◌
“統計学が最強の学問である”とかが詳しい ◌ https://www.amazon.co.jp/dp/4478022216 統計学とは 6
機械学習 ・予測、推定がメイン ・なので、得られた結果の精度が重要 ・どういう処理をしているかの意味は よく分からなくても OK ・DNN とか謎のまま使われてる ・人間の判断材料にもなるし、アプリ ケーションに組み込むこともできる
統計学 ・データの中身の解析がメイン ・なので、得られた結果の意味が重要 ・意味がわかる必要があるのでロジッ クは比較的シンプル ・人間が判断する材料になる ・機械学習で使われるようなアルゴリ ズムもある 統計学とは 統計学 と 機械学習 7
◍ 統計学の手法は目的や分野ごとにいくつ かある ◌ 右図にあるような標準正規分布に近 似する方法はよく知られてるが、他 にもたくさんある ◍ それらすべての手法の基礎となるのが、 期待値・分散の考え方
◌ そして確率変数!(一番謎だった…) ◍ この発表では主に確率変数/期待値/分散 について説明します 統計学とは 8
2. 例題 9
◍ 表と裏が出る確率が同じコインがあります ◍ このコインを2000回投げたときに、表が1100回以上出る確率 はどれくらいでしょうか? ◍ 以下の選択肢から最も近い値を選んでください。 例題 10 1)
10% 2) 5% 3) 0.05% 4) 0.0005%
◍ 表と裏が出る確率が同じコインがあります ◍ このコインを2000回投げたときに、表が1100回以上出る確率 はどれくらいでしょうか? ◍ 以下の選択肢から最も近い値を選んでください。 例題 - 正解
11 1) 10% 2) 5% 3) 0.05% 4) 0.0005% なんでこうなるのかを 次 ページ以降で解説します!
3. 解説 12
解説 13 ◍ コインを投げて出る結果は「表と裏が出る」の 2種類 ◍ このような試行のことを ベルヌーイ試行 と言います ◍
このベルヌーイ試行を n回行った場合に表( or 裏)が出る確率は、表 が出る確率をPとすると ◍ この確率に対する確率分布を 二項分布(ベルヌーイ分布)と言います ◍ ここで、X は確率変数です
解説 14 ◍ コインを投げて出る結果は「表と裏が出る」の 2種類 ◍ このベルヌーイ試行を n回行った場合に表( or 裏)が出る確率は、表
が出る確率をPとすると ここで、今回のコインは表も裏も 1/2の確率なので、上記の P(X)は になります。 例えばn=4回コインを投げてx=2になる確率 => 6/16 と計算できます。
解説 - 確率変数 ◍ 確率変数とは「ある変数の値をとる確率が存在する変数のこと」です ◍ ◍ 例えば... 1. コインを投げると1/2の確率で表(1)か裏(0)が出る
2. サイコロなら1/6の確率で 1,2,3,4,5,6 のどれかが出る ◍ という、事象そのものと考えると分かりやすい ...気がする ◍ 各値に確率が振ってあって、実行するとその確率に応じてランダムに 値を返す関数が定義してあるイメージ ◍ コインの確率変数を Rubyのメソッドにしてみる 15
◍ さて、↑ の確率を出したいのでした ◍ 今回の例題のように、確率変数 X が二項分布に従っている場合、 期待値 と 分散
は以下のようになります 期待値: 分散: 解説 16 ◍ 表と裏が出る確率が同じコインがあります ◍ このコインを2000回投げたときに、表が1100回以上出る確率はどれくらいでしょうか?
◍ 期待値とは、平たく言うと 平均値 です ◍ n は試行回数、p は表が出る確率です ◍ なので、10回試行した場合の期待値は
E(X) = 10 * 1/2 = 5 ◍ 二項分布の期待値は特に分かりやすいです 解説 - 期待値 17
◍ 分散は、確率変数 X の ばらつき度合い のことです ◍ 分散が大きければ大きいほど ばらつきます ◍
√V(X) が 標準偏差 です 解説 - 分散 18
◍ 試行結果を足した場合、分散は試行結果と共に増えていきます ◌ X1 + X2 + X3 + …
Xn の結果は n を増やすと増えるからです ◍ 平均を取った場合は事情が変わります ◌ (X1 + X2 + X3 + … Xn) / n が、n を増やすと安定するのは想 像に難くないと思います ◌ 実際に、平均値の場合だと分散は V(X)/n で減っていきます ◌ n -> ∞ とすると、分散は0に収束します ◍ この性質を利用したのが、 大数の法則 です 解説 - 分散 19
◍ 大数の法則 は試行回数が増えると分散が0に収束し、その平均値 も収束するというものでした ◌ じゃあ、その分布もどこかに収束しそうじゃない? ◍ ということで、ラプラスの定理(中心極限定理)が生まれました ◍ ラプラスの定理は、試行回数がめっちゃ増えると
二項分布が正規 分布に近似できてしまう 、という定理です ◌ ラプラスの定理は 中心極限定理 の特殊バージョンです ◌ 中心極限定理は、どんな分布 でも試行回数がめっちゃ多いと 正規分布になる というなんともすごい定理です 解説 - 大数の法則, ラプラスの定理 20
◍ 期待値と分散を問題の条件で出すと、 ◍ E(X) = 1000, V(X) = 500 ◍
標準偏差: σ = √V(X) = √500 ≒ 22.36 ◍ 標準偏差が出て、正規分布に近似できるなら、確率出せそう 解説 21 ◍ 表と裏が出る確率が同じコインがあります ◍ このコインを2000回投げたときに、表が1100回以上出る確率はどれくらいでしょうか?
◍ 有名な正規分布の性質は ◌ ±σ の範囲におさまる確率は約 70%(68.27%) ◌ ±2σ の範囲におさまる確率は約 95%(95.45%)
◌ ±3σ の範囲におさまる確率は約 99%(99.73%) 解説 - 正規分布 22
23 ◍ もう少し正確に言うと、 「標準偏差に対する確率が、正規分布表に 当てはまる性質を持っている」と言える。 ◍ μ = E(X) =
1000 ◍ σ = √V(X) = √500 ≒ 22.36 より ◍ Q(u) = 100 / 22.36 ≒ 4.47 ◍ なので右の正規分布表から、コインを 2000 回投げたときに、表が 1100回以上出る確率 は 約0.00039% となります(パーセント表 記にしてるので 100 倍してる)。 解説 - 正規分布表
◍ 頑張って手計算で出した答えですが、近似値のため正確ではありません ◍ SciPy(Python の数値解析ライブラリ)使って正確な値を出してみます ◍ binom 関数はExcelにも似たものが入ってて、引数に (成功数, 試行回数,
成功確率)を入れると正規分布の確率を出してくれます 解説 - Python 24
◍ 二項分布を正規分布に近似して、正規分布から期待値と分散 (標準偏差)を使って手計算で確率を算出してみました ◍ ライブラリを使えば答えは一発で出せますが、統計学はその 答えが示す意味が重要なので、学習の際には泥臭く手を動か してみるのがオススメです ◍ 僕もまだまだ初心者なので、今後も継続的に勉強します! まとめ
25
おしまい 26
Credits Special thanks to all the people who made and
released these awesome resources for free: ◍ Presentation template by SlidesCarnival ◍ Photographs by Unsplash 27