Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2020-11-15-第1回-統計学勉強会

Ringa_hyj
November 13, 2020

 2020-11-15-第1回-統計学勉強会

connpassで開催された
統計学勉強会 第一回 20201115
確率分布の担当分資料

Ringa_hyj

November 13, 2020
Tweet

More Decks by Ringa_hyj

Other Decks in Science

Transcript

  1. 統計学のはじめの一歩:確率分布
    ~ 平行世界を例に確率分布を理解する ~
    2020-11-15 統計学勉強会 #1

    View Slide

  2. どんな話をするか
    ・確率分布が~
    ・確率密度関数が~
    ・片側検定で、両側で~
    ・危険率5%で~
    ・95%区間を考えると~
    などを初めて聞く人に向けて。
    ・統計の検定の考えを理解する最初の一歩として。

    View Slide

  3. 自己紹介
    @Ringa_hyj
    @Ringa_hyj
    Name : Ringa
    指摘大歓迎です

    View Slide

  4. 確率分布ってなに?

    View Slide

  5. 確率分布ってなに?
    JIS:日本工業規格 によると
    「確率変数が ’ある値’ となる確率,
    又はある集合に属する確率を与える関数」
    確率分布って何

    View Slide

  6. ?????????
    安心してください
    と思った方、安心してください 本講の対象者です。
    スローペースでいきます。

    View Slide

  7. 確率分布って統計学で至る所に出てくる
    ・検定
    ・線形回帰
    ・パラメーター推定

    ・故障予測
    ・異常検知
    ・時系列・確率過程
    ・生成モデル
    どれも「分布関数」の性質ありきの話
    とりあえず「分布」とか「分布関数」についての説明から
    確率分布、頻出

    View Slide

  8. こんな形の池があったとする
    この魚、池のどこで釣れた魚?
    だいたいでいいからどこで釣れたと思うか言ってみて。
    情報がなさ過ぎてわからない
    池釣りの話

    View Slide

  9. 池に対して上図の釣れ方をした
    どこで釣れるのか? = 50匹釣れた地点が一番確率が高そう
    池釣りの話
    「どこから釣れたか」を当てるために
    どこに投げたら釣れるのか? = 魚の生息地(分布)が知りたい
    各x軸で100回投げて何匹釣れたか数える実験を行う。

    View Slide

  10. 合計210匹なので1匹の重さは 1/210
    1/210 を各x軸地点について適応していくと、
    合計1になる値になった = 確率として扱うことができそう
    「どこで、どのくらいの割合で釣れるか」 、を知ることができた
    ↑確率変数 ↑確率
    釣れた数を確率に変換

    View Slide

  11. もっと細かく、釣れた地点ごとに区切って集計・確率になおす
    確率をもっと細かく求める

    View Slide

  12. x
    ※今回の実験ではこの魚の分布が考えられたが、
    ※日によって変わるだろうし、もう少しずれているかもしれない
    ※真の分布を得るために永遠に釣りは出来ないので
    ※取得した手元のデータから確率分布を擬似的に表している
    ※これを経験分布と呼ぶ
    細かい確率値たちが求まる←確率分布
    関数式として数式であらわす←確率分布関数
    (連続値は確率密度関数)
    y
    y=f(x)
    確率をもっと細かく

    View Slide

  13. 確率分布が分かればどんなxの時、確率が高いかが推定できる
    逆に低い場合についても議論できる
    2.5% 2.5% 5%
    95%の魚はこの xの範囲 で釣れる
    (端の方で釣れた可能性は低い)
    確率の高くない範囲をいくらか無視して推定につかおう
    両側合計5%を無視 片側5%を無視
    確率分布と両側?片側?

    View Slide

  14. 確率分布をどう使うの?

    View Slide

  15. 世の中毎回経験分布を求められるわけではない
    「あるデータはある分布に近似する」
    と仮定して議論する
    偏差値, 身長, 異常値の範囲 : 正規分布
    交通事故数, 不良品の発生数 : ポアソン分布
    コインの表数, ガチャでレアを引く : 二項分布
    確率分布を使った実験

    View Slide

  16. ゲーム(ギャンブル)を例に
    賭け
    ・コインが表なら 1000円もらえる
    ・コインが裏なら 1000円払う
    表が出やすいコインなら賭けに乗ってもいい
    賭けに乗る前に
    「20回投げるお試し権がもらえる」
    何回 表 が出たら話に乗る?
    表裏均等に出るコインを投げても
    ピッタリ表10裏10にはならない ← 確率変数はばらつく
    ばらつきの範囲を知り、乗るか乗らないか決める

    View Slide

  17. 平行世界があったとして
    ©MAGES./Nitroplus---STEINS;GATEより
    平行世界を考える
    1000個の平行世界の自分自身も
    20回コインを振ったならばどうなるか?

    View Slide

  18. 平行世界生成器 (R)
    https://rstudio.com/products/rstudio/download/
    https://cran.r-project.org/mirrors.html
    https://www.soumu.go.jp/ict_skill/pdf/ict_ev_el_4_3.pdf
    (総務省ICTスキル総合習得教材・Rのインストール方法)
    RとRstudioをダウンロードしてRstudioから以下のRscriptを開いて(ctrl + shift + n)
    コードをコピペ(ctrl+c) & 実行(ctrl+enter)

    View Slide

  19. コインが1/2の確率なら
    大体10回の表が出るはず
    ただし、
    運の悪い世界は2回だけ表
    運のいい世界は17回も表
    20回コインを投げる
    表が出る確率1/2のコインを、
    1000の平行世界の自分が20回投げた結果
    #初回だけPCへパッケージをinstall
    #install.packages("tidyverse")
    #読み込み
    library(tidyverse)
    #世界線の数
    n <- 1000
    #投げる回数
    size <- 20
    #確率
    prob <- 0.5
    #平行世界の俺たちに投げさせる
    res <- rbinom(n,size,prob)
    res <- as.tibble(res)
    ggplot(res, aes(x = value)) +
    geom_histogram(aes(y=..count..),bins = 50)
    res %>%
    count(value)
    確率変数 の ばらつき

    View Slide

  20. 表が出る確率が違った場合どうなる?
    表が出る確率0.7のコインだったら? 表が出る確率0.3のコインだったら?
    だいたい10より少ない
    (10より多い値も少しある)
    だいたい10より多い
    (10より少ない値も少しある)

    View Slide

  21. 表が出る確率が違った場合どうなる?
    自分の生きている世界線で20回なげてみた結果
    7回表だった
    この時のコインの確率は? ← 最尤推定(今回話さない)
    確率は表が出やすいのか? ← 比率の区間推定

    View Slide

  22. 積み上げ結果を確率に直した
    結果
    par(mfrow=c(3,3))
    for(i in 1:9){
    n <- 20
    p <- 0.1 * i
    mu <- n*p
    sigma <- sqrt(n*p*(1 - p))
    x <- seq(0, 20)
    y <- dbinom(x,n,p)
    plot(x, y,
    lwd = 4,
    col = 'gray',
    las = 1,
    bty = 'l',
    yaxs = 'i',
    ylim = c(0, 0.3),
    type="n")
    lines(x,
    dnorm(x,
    mean = mu,
    sd = sigma),
    col = 'gray',
    lwd = 2)
    title(main =
    sprintf('n=%s, p=%.1f', n, p))
    abline(v=7,col="red")
    }

    View Slide

  23. 確率分布になおす
    20回投げたら表が7回、という情報から
    ・表が出る確率0.2のコインを20回投げた場合の最も運のいい時(分布の上側)
    もしくは
    ・表が出る確率0.6のコインを20回投げた場合の最も運のわるい時(分布の下側)
    結論:「およそ0.2~0.6の確率で表が出るコインだろう」(これを見ても賭けますか?)

    View Slide

  24. まとめ
    今回話したこと
    ・確率分布って何
    ・池釣りの例
    ・両側とか片側って何
    ・確率分布の使い方
    ・平行世界でコインを投げて表になる確率を調べる

    View Slide

  25. Enjoy statistics
    Recommended Reading List

    View Slide