connpassで開催された 統計学勉強会 第一回 20201115 確率分布の担当分資料
統計学のはじめの一歩:確率分布~ 平行世界を例に確率分布を理解する ~2020-11-15 統計学勉強会 #1
View Slide
どんな話をするか・確率分布が~・確率密度関数が~・片側検定で、両側で~・危険率5%で~・95%区間を考えると~などを初めて聞く人に向けて。・統計の検定の考えを理解する最初の一歩として。
自己紹介@Ringa_hyj@Ringa_hyjName : Ringa指摘大歓迎です
確率分布ってなに?
確率分布ってなに?JIS:日本工業規格 によると「確率変数が ’ある値’ となる確率,又はある集合に属する確率を与える関数」確率分布って何
?????????安心してくださいと思った方、安心してください 本講の対象者です。スローペースでいきます。
確率分布って統計学で至る所に出てくる・検定・線形回帰・パラメーター推定↓・故障予測・異常検知・時系列・確率過程・生成モデルどれも「分布関数」の性質ありきの話とりあえず「分布」とか「分布関数」についての説明から確率分布、頻出
こんな形の池があったとするこの魚、池のどこで釣れた魚?だいたいでいいからどこで釣れたと思うか言ってみて。情報がなさ過ぎてわからない池釣りの話
池に対して上図の釣れ方をしたどこで釣れるのか? = 50匹釣れた地点が一番確率が高そう池釣りの話「どこから釣れたか」を当てるためにどこに投げたら釣れるのか? = 魚の生息地(分布)が知りたい各x軸で100回投げて何匹釣れたか数える実験を行う。
合計210匹なので1匹の重さは 1/2101/210 を各x軸地点について適応していくと、合計1になる値になった = 確率として扱うことができそう「どこで、どのくらいの割合で釣れるか」 、を知ることができた↑確率変数 ↑確率釣れた数を確率に変換
もっと細かく、釣れた地点ごとに区切って集計・確率になおす確率をもっと細かく求める
x※今回の実験ではこの魚の分布が考えられたが、※日によって変わるだろうし、もう少しずれているかもしれない※真の分布を得るために永遠に釣りは出来ないので※取得した手元のデータから確率分布を擬似的に表している※これを経験分布と呼ぶ細かい確率値たちが求まる←確率分布関数式として数式であらわす←確率分布関数(連続値は確率密度関数)yy=f(x)確率をもっと細かく
確率分布が分かればどんなxの時、確率が高いかが推定できる逆に低い場合についても議論できる2.5% 2.5% 5%95%の魚はこの xの範囲 で釣れる(端の方で釣れた可能性は低い)確率の高くない範囲をいくらか無視して推定につかおう両側合計5%を無視 片側5%を無視確率分布と両側?片側?
確率分布をどう使うの?
世の中毎回経験分布を求められるわけではない「あるデータはある分布に近似する」と仮定して議論する偏差値, 身長, 異常値の範囲 : 正規分布交通事故数, 不良品の発生数 : ポアソン分布コインの表数, ガチャでレアを引く : 二項分布確率分布を使った実験
ゲーム(ギャンブル)を例に賭け・コインが表なら 1000円もらえる・コインが裏なら 1000円払う表が出やすいコインなら賭けに乗ってもいい賭けに乗る前に「20回投げるお試し権がもらえる」何回 表 が出たら話に乗る?表裏均等に出るコインを投げてもピッタリ表10裏10にはならない ← 確率変数はばらつくばらつきの範囲を知り、乗るか乗らないか決める
平行世界があったとして©MAGES./Nitroplus---STEINS;GATEより平行世界を考える1000個の平行世界の自分自身も20回コインを振ったならばどうなるか?
平行世界生成器 (R)https://rstudio.com/products/rstudio/download/https://cran.r-project.org/mirrors.htmlhttps://www.soumu.go.jp/ict_skill/pdf/ict_ev_el_4_3.pdf(総務省ICTスキル総合習得教材・Rのインストール方法)RとRstudioをダウンロードしてRstudioから以下のRscriptを開いて(ctrl + shift + n)コードをコピペ(ctrl+c) & 実行(ctrl+enter)
コインが1/2の確率なら大体10回の表が出るはずただし、運の悪い世界は2回だけ表運のいい世界は17回も表20回コインを投げる表が出る確率1/2のコインを、1000の平行世界の自分が20回投げた結果#初回だけPCへパッケージをinstall#install.packages("tidyverse")#読み込みlibrary(tidyverse)#世界線の数n <- 1000#投げる回数size <- 20#確率prob <- 0.5#平行世界の俺たちに投げさせるres <- rbinom(n,size,prob)res <- as.tibble(res)ggplot(res, aes(x = value)) +geom_histogram(aes(y=..count..),bins = 50)res %>%count(value)確率変数 の ばらつき
表が出る確率が違った場合どうなる?表が出る確率0.7のコインだったら? 表が出る確率0.3のコインだったら?だいたい10より少ない(10より多い値も少しある)だいたい10より多い(10より少ない値も少しある)
表が出る確率が違った場合どうなる?自分の生きている世界線で20回なげてみた結果7回表だったこの時のコインの確率は? ← 最尤推定(今回話さない)確率は表が出やすいのか? ← 比率の区間推定
積み上げ結果を確率に直した結果par(mfrow=c(3,3))for(i in 1:9){n <- 20p <- 0.1 * imu <- n*psigma <- sqrt(n*p*(1 - p))x <- seq(0, 20)y <- dbinom(x,n,p)plot(x, y,lwd = 4,col = 'gray',las = 1,bty = 'l',yaxs = 'i',ylim = c(0, 0.3),type="n")lines(x,dnorm(x,mean = mu,sd = sigma),col = 'gray',lwd = 2)title(main =sprintf('n=%s, p=%.1f', n, p))abline(v=7,col="red")}
確率分布になおす20回投げたら表が7回、という情報から・表が出る確率0.2のコインを20回投げた場合の最も運のいい時(分布の上側)もしくは・表が出る確率0.6のコインを20回投げた場合の最も運のわるい時(分布の下側)結論:「およそ0.2~0.6の確率で表が出るコインだろう」(これを見ても賭けますか?)
まとめ今回話したこと・確率分布って何・池釣りの例・両側とか片側って何・確率分布の使い方・平行世界でコインを投げて表になる確率を調べる
Enjoy statisticsRecommended Reading List