Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
2020-11-15-第1回-統計学勉強会
Search
Ringa_hyj
November 13, 2020
Science
0
710
2020-11-15-第1回-統計学勉強会
connpassで開催された
統計学勉強会 第一回 20201115
確率分布の担当分資料
Ringa_hyj
November 13, 2020
Tweet
Share
More Decks by Ringa_hyj
See All by Ringa_hyj
DVCによるデータバージョン管理
ringa_hyj
0
14
deeplakeによる大規模データのバージョン管理と深層学習フレームワークとの接続
ringa_hyj
0
15
Hydraを使った設定ファイル管理とoptunaプラグインでのパラメータ探索
ringa_hyj
0
19
ClearMLで行うAIプロジェクトの管理(レポート,最適化,再現,デプロイ,オーケストレーション)
ringa_hyj
0
14
Catching up with the tidymodels.[Japan.R 2021 LT]
ringa_hyj
3
800
多次元尺度法MDS
ringa_hyj
0
260
因子分析(仮)
ringa_hyj
0
120
階層、非階層クラスタリング
ringa_hyj
0
92
tidymodels紹介「モデリング過程料理で表現できる説」
ringa_hyj
0
400
Other Decks in Science
See All in Science
第61回コンピュータビジョン勉強会「BioCLIP: A Vision Foundation Model for the Tree of Life」
x_ttyszk
1
1.6k
眼科AIコンテスト2024_特別賞_6位Solution
pon0matsu
0
240
学術講演会中央大学学員会八王子支部
tagtag
0
260
Valuable Lessons Learned on Kaggle’s ARC AGI LLM Challenge (PyDataGlobal 2024)
ianozsvald
0
150
WCS-LA-2024
lcolladotor
0
160
位相的データ解析とその応用例
brainpadpr
1
820
いまAI組織が求める企画開発エンジニアとは?
roadroller
2
1.4k
統計学入門講座 第1回スライド
techmathproject
0
180
学術講演会中央大学学員会いわき支部
tagtag
0
120
JSol'Ex : traitement d'images solaires en Java
melix
0
130
ベイズ最適化をゼロから
brainpadpr
2
970
創薬における機械学習技術について
kanojikajino
13
4.8k
Featured
See All Featured
Producing Creativity
orderedlist
PRO
343
39k
Gamification - CAS2011
davidbonilla
80
5.1k
jQuery: Nuts, Bolts and Bling
dougneiner
62
7.6k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
49k
Mobile First: as difficult as doing things right
swwweet
222
9k
RailsConf 2023
tenderlove
29
970
Keith and Marios Guide to Fast Websites
keithpitt
410
22k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
127
18k
Building Better People: How to give real-time feedback that sticks.
wjessup
366
19k
Adopting Sorbet at Scale
ufuk
74
9.2k
Automating Front-end Workflow
addyosmani
1366
200k
Designing for Performance
lara
604
68k
Transcript
統計学のはじめの一歩:確率分布 ~ 平行世界を例に確率分布を理解する ~ 2020-11-15 統計学勉強会 #1
どんな話をするか ・確率分布が~ ・確率密度関数が~ ・片側検定で、両側で~ ・危険率5%で~ ・95%区間を考えると~ などを初めて聞く人に向けて。 ・統計の検定の考えを理解する最初の一歩として。
自己紹介 @Ringa_hyj @Ringa_hyj Name : Ringa 指摘大歓迎です
確率分布ってなに?
確率分布ってなに? JIS:日本工業規格 によると 「確率変数が ’ある値’ となる確率, 又はある集合に属する確率を与える関数」 確率分布って何
????????? 安心してください と思った方、安心してください 本講の対象者です。 スローペースでいきます。
確率分布って統計学で至る所に出てくる ・検定 ・線形回帰 ・パラメーター推定 ↓ ・故障予測 ・異常検知 ・時系列・確率過程 ・生成モデル どれも「分布関数」の性質ありきの話
とりあえず「分布」とか「分布関数」についての説明から 確率分布、頻出
こんな形の池があったとする この魚、池のどこで釣れた魚? だいたいでいいからどこで釣れたと思うか言ってみて。 情報がなさ過ぎてわからない 池釣りの話
池に対して上図の釣れ方をした どこで釣れるのか? = 50匹釣れた地点が一番確率が高そう 池釣りの話 「どこから釣れたか」を当てるために どこに投げたら釣れるのか? = 魚の生息地(分布)が知りたい 各x軸で100回投げて何匹釣れたか数える実験を行う。
合計210匹なので1匹の重さは 1/210 1/210 を各x軸地点について適応していくと、 合計1になる値になった = 確率として扱うことができそう 「どこで、どのくらいの割合で釣れるか」 、を知ることができた ↑確率変数
↑確率 釣れた数を確率に変換
もっと細かく、釣れた地点ごとに区切って集計・確率になおす 確率をもっと細かく求める
x ※今回の実験ではこの魚の分布が考えられたが、 ※日によって変わるだろうし、もう少しずれているかもしれない ※真の分布を得るために永遠に釣りは出来ないので ※取得した手元のデータから確率分布を擬似的に表している ※これを経験分布と呼ぶ 細かい確率値たちが求まる←確率分布 関数式として数式であらわす←確率分布関数 (連続値は確率密度関数) y
y=f(x) 確率をもっと細かく
確率分布が分かればどんなxの時、確率が高いかが推定できる 逆に低い場合についても議論できる 2.5% 2.5% 5% 95%の魚はこの xの範囲 で釣れる (端の方で釣れた可能性は低い) 確率の高くない範囲をいくらか無視して推定につかおう
両側合計5%を無視 片側5%を無視 確率分布と両側?片側?
確率分布をどう使うの?
世の中毎回経験分布を求められるわけではない 「あるデータはある分布に近似する」 と仮定して議論する 偏差値, 身長, 異常値の範囲 : 正規分布 交通事故数, 不良品の発生数
: ポアソン分布 コインの表数, ガチャでレアを引く : 二項分布 確率分布を使った実験
ゲーム(ギャンブル)を例に 賭け ・コインが表なら 1000円もらえる ・コインが裏なら 1000円払う 表が出やすいコインなら賭けに乗ってもいい 賭けに乗る前に 「20回投げるお試し権がもらえる」 何回
表 が出たら話に乗る? 表裏均等に出るコインを投げても ピッタリ表10裏10にはならない ← 確率変数はばらつく ばらつきの範囲を知り、乗るか乗らないか決める
平行世界があったとして ©MAGES./Nitroplus---STEINS;GATEより 平行世界を考える 1000個の平行世界の自分自身も 20回コインを振ったならばどうなるか?
平行世界生成器 (R) https://rstudio.com/products/rstudio/download/ https://cran.r-project.org/mirrors.html https://www.soumu.go.jp/ict_skill/pdf/ict_ev_el_4_3.pdf (総務省ICTスキル総合習得教材・Rのインストール方法) RとRstudioをダウンロードしてRstudioから以下のRscriptを開いて(ctrl + shift +
n) コードをコピペ(ctrl+c) & 実行(ctrl+enter)
コインが1/2の確率なら 大体10回の表が出るはず ただし、 運の悪い世界は2回だけ表 運のいい世界は17回も表 20回コインを投げる 表が出る確率1/2のコインを、 1000の平行世界の自分が20回投げた結果 #初回だけPCへパッケージをinstall #install.packages("tidyverse")
#読み込み library(tidyverse) #世界線の数 n <- 1000 #投げる回数 size <- 20 #確率 prob <- 0.5 #平行世界の俺たちに投げさせる res <- rbinom(n,size,prob) res <- as.tibble(res) ggplot(res, aes(x = value)) + geom_histogram(aes(y=..count..),bins = 50) res %>% count(value) 確率変数 の ばらつき
表が出る確率が違った場合どうなる? 表が出る確率0.7のコインだったら? 表が出る確率0.3のコインだったら? だいたい10より少ない (10より多い値も少しある) だいたい10より多い (10より少ない値も少しある)
表が出る確率が違った場合どうなる? 自分の生きている世界線で20回なげてみた結果 7回表だった この時のコインの確率は? ← 最尤推定(今回話さない) 確率は表が出やすいのか? ← 比率の区間推定
積み上げ結果を確率に直した 結果 par(mfrow=c(3,3)) for(i in 1:9){ n <- 20 p
<- 0.1 * i mu <- n*p sigma <- sqrt(n*p*(1 - p)) x <- seq(0, 20) y <- dbinom(x,n,p) plot(x, y, lwd = 4, col = 'gray', las = 1, bty = 'l', yaxs = 'i', ylim = c(0, 0.3), type="n") lines(x, dnorm(x, mean = mu, sd = sigma), col = 'gray', lwd = 2) title(main = sprintf('n=%s, p=%.1f', n, p)) abline(v=7,col="red") }
確率分布になおす 20回投げたら表が7回、という情報から ・表が出る確率0.2のコインを20回投げた場合の最も運のいい時(分布の上側) もしくは ・表が出る確率0.6のコインを20回投げた場合の最も運のわるい時(分布の下側) 結論:「およそ0.2~0.6の確率で表が出るコインだろう」(これを見ても賭けますか?)
まとめ 今回話したこと ・確率分布って何 ・池釣りの例 ・両側とか片側って何 ・確率分布の使い方 ・平行世界でコインを投げて表になる確率を調べる
Enjoy statistics Recommended Reading List