Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2018年度 化学工学特論2 第6回

2018年度 化学工学特論2 第6回

今回の達成目標
言いたいこと
データの分布
日本人の年収の分布
よくある分布の形
正規分布ってどんな形?
ちなみに、
平均・分散・標準偏差
平均・分散・標準偏差の計算
導き方
最尤推定法で μ, σ2 を求める
尤度関数を最大にする μ, σ2 を求める
対数尤度関数
μ で偏微分して 0
μ を求める
σ2 で偏微分して 0
σ2 を求める
平均・分散・標準偏差 まとめ
少ない実験結果からの推定
確率で表現する
分布で表現できることのメリットと注意点
平均・標準偏差
母平均の区間推定
母平均の区間推定の考え方
t 分布
t 分布の特徴
[参考] t分布の式 (確率密度関数)
母平均の区間推定のやり方

Hiromasa Kaneko

January 27, 2019
Tweet

More Decks by Hiromasa Kaneko

Other Decks in Technology

Transcript

  1. よくある分布の形 正規分布 (normal distribution) • ガウス分布 (Gaussian distribution) とも呼ぶ 5

    10,000⼈の 化学の点数 正規分布以外にも、いろいろな分布の形があるが、  正規分布に (近く) なるケースが一番多い  正規分布で分布の扱いを学べば、他の分布にも応用できる︕
  2. 正規分布ってどんな形︖ 6 分布の真ん中を表す、平均 (mean)︓μ 分布のばらつき具合(幅) を表す、分散 (variance)︓σ2 ( ) (

    )2 2 2 2 1 1 | , exp 2 2 N x x µ σ µ σ πσ   = − −     正規分布 (たとえば、化学の点数の分布) を式で表すと︖ 標準偏差 (standard deviation)︓σ ガウスさんがいろいろなデータの分布を調査した功績︕
  3. ちなみに、 7 ( ) ( )2 2 2 2 1

    1 | , exp 2 2 N x x µ σ µ σ πσ   = − −     正規分布の式、といっていたもの、実は 確率密度関数 と呼ぶ “確率” なので、足すとちゃんと 1 になる 2 1 2πσ ( ) 2 | , 1 N x dx µ σ ∞ −∞ =  は、 にするためのもの
  4. 平均・分散・標準偏差の計算 9 平均 ( ) 1 1 m i i

    x m µ = =  ( ) ( )2 2 1 1 1 m i i x m σ µ = = − −  ( ) ( )2 1 1 1 m i i x m σ µ = = − −  分散 標準偏差 x(i) : i 番目のサンプルの値 (i 番目の⼈の化学の点数) m : サンプル数 (化学の試験を受けた⼈数)
  5. 平均・分散・標準偏差の計算 10 平均 ( ) 1 1 m i i

    x m µ = =  ( ) ( )2 2 1 1 1 m i i x m σ µ = = − −  ( ) ( )2 1 1 1 m i i x m σ µ = = − −  分散 標準偏差 なんでこの式なの︖︖ 正規分布の式から導けます︕
  6. 導き方 11 最尤推定法 最尤・・・最 (もっとも) 尤 (もっともらしい) ( ) (

    )2 2 2 2 1 1 | , exp 2 2 N x x µ σ µ σ πσ   = − −    
  7. 最尤推定法で μ, σ2 を求める データ x(1), x(2), …, x(m) が得られたとき、

    • 正規分布に従うと仮定 • μ, σ2 を最尤推定法により計算 ⁃ m はサンプル数 正規分布で、たとえばサンプルが x(1) になる確率は、 N に x(1) を代入して得られた値 正規分布で、データ x(1), x(2), …, x(m) になる確率 L (尤度関数) は、 N にそれぞれ代入して、すべてかけ合わせたもの (確率のかけ算) 12 ( ) ( ) ( )2 2 2 2 1 1 1 , exp 2 2 m i i L x µ σ µ σ πσ =   = − −     ∏
  8. 尤度関数を最⼤にする μ, σ2 を求める 尤度関数 L(μ, σ2) は 尤度関数 L

    を最⼤にする μ, σ2 = 一番もっともらしい μ, σ2 L を最⼤にする μ, σ2 と、L の対数を最⼤にする μ, σ2 は同じ L の対数のほうが扱いやすいため、対数に変換する 13 ( ) ( ) ( ) ( ) ( ) ( ) 2 2 2 2 1 2 2 1 2 2 1 1 , exp 2 2 1 1 exp 2 2 m i i m i m i L x x µ σ µ σ πσ µ σ πσ = =   = − −       = − −     ∏ ∏
  9. 対数尤度関数 14 ( ) ( ) ( ) ( )

    ( ) ( ) ( ) ( ) 2 2 2 1 2 2 2 2 2 1 2 2 2 1 1 1 log , log exp 2 2 1 log 2 log exp 2 2 1 log 2 log 2 2 2 m i m i m i i m i i L x m x m m x µ σ µ σ πσ πσ µ σ π σ µ σ = = =       = − −             = − + − −     = − − − − ∏ ∏ 
  10. μ で偏微分して 0 15 L(μ, σ2) が最⼤値を取る L(μ, σ2) を

    μ で偏微分したものが 0 L(μ, σ2) が極⼤値を取る ( ) ( ) ( ) 2 2 1 1 log , 0 m i i L x µ σ µ µ σ = ∂ = − − = ∂ 
  11. μ を求める 16 ( ) ( ) ( ) (

    ) ( ) ( ) 2 1 1 1 1 1 0 0 0 1 m i i m i i m i i m i i x x x m x m µ σ µ µ µ = = = = − − = − = − = =     サンプルの平均値
  12. σ2 で偏微分して 0 17 L(μ, σ2) が最⼤値を取る L(μ, σ2) を

    σ2 で偏微分したものが 0 L(μ, σ2) が極⼤値を取る ( ) ( ) ( ) ( )2 2 2 2 2 2 1 1 log , 0 2 2 m i i m L x µ σ µ σ σ σ = ∂ = − + − = ∂ 
  13. σ2 を求める 18 サンプルの分散 ( ) ( ) ( )

    ( ) ( ) ( ) ( ) 2 2 2 2 1 2 2 1 2 2 1 1 0 2 2 0 1 m i i m i i m i i m x m x x m µ σ σ σ µ σ µ = = = − + − = − + − = = −    (一般的には m ではなく m-1 で割りますが、これは、真の分散は サンプルから計算される分散の期待値に等しく、サンプルの分散を 計算するときはサンプルの平均を用いているため⼩さく⾒積もられる ことに由来します。具体的な計算は複雑になるため省きます。)
  14. ⺟平均の区間推定の考え方 25 William Sealy Gosset (ウィリアム・シーリー・ゴセット) さんの発⾒ (1908年) ⺟集団が正規分布になるときを考える サンプル数

    m が⼩さいとき (n = 3 とか n = 10 とか)、サンプルの平均を μ, 分散を σ としたとき、以下の x は t 分布というものに従う true x m µ µ σ − = μtrue : 真の平均、⺟集団の平均 William Sealy Gosset さんのペンネームがスチューデント (Student) で あったことから、スチューデントの t 分布 (Student’s t-distribution) とも 呼ばれる
  15. ⺟平均の区間推定の考え方 26 true x m µ µ σ − =

    true x m σ µ µ = + x の分布が分かれば、 と変形することで、真の平均、⺟集団の平均 (μtrue ) の分布を求められる︕
  16. [参考] t分布の式 (確率密度関数) 29 ( ) 1 2 2 1

    2 | 1 2 x N x ν ν ν ν ν νπ +   −    +   Γ      = +       Γ    ( ) ( ) 1 0 exp z z t t dt ∞ − Γ = − 
  17. ⺟平均の区間推定のやり方 30 1. ⾃由度 ν が与えられたとき、t 分布を積分して α × 100

    % となる x の範囲を求める たとえば、ν = 9 のとき、α = 0.99 となる x の範囲は、- 3.250 〜 3.250 (この値は、t 分布表というものを⾒ることで調べられますが、Python で 区間推定するときは Scipy で計算できるので、調べなくて大丈夫です) 2. true x m σ µ µ = + の式から、μtrue の範囲を計算する ただ、python で区間推定するときは Scipy で 1. 2. 同時に計算できます︕