Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ExcelBayes#1

cougar
July 04, 2017

 ExcelBayes#1

Excelファイルの再配布はSlackで行います。

cougar

July 04, 2017
Tweet

More Decks by cougar

Other Decks in Science

Transcript

  1. Excelでスッキリわかる ベイズ統計入門 #1 Statistcs からの・・・ベイズ統計や機械学習まで オリエンテーション:cougar 第1章 ベイズ理論のための確率統計入門 第2章 Excelで確かめるベイズの定理

    (発表者:cougar) 第5章 ベイズ統計学入門 (発表者:rakuda1007) ベイズ統計学の導入として、従来の統計学への ベイズ理論の応用方法を学びます。 (第1回のみの予定) 表題の本で、ベイズ理論をゼロから学びます。 (全4~5回?発表者募集中)
  2. ベイズの定理 確率分布 実践 確率[p20] ➢ 事象Aの起こる確率(probability) – ✓ サイコロを1個投げ、「偶数の目の出る確率」 –

    確率 = 1 2 – 試行 サイコロを1個投げた – 事象 サイコロを1個投げて、目が出る ҧ ҧ 1,3,5 2,4,6 1,3,5 2,4,6 ベイズの定理 確率分布 実践
  3. ベイズの定理 確率分布 実践 例証の題材[p23] ✓ ある会社の社員構成(全社員:100人) • 性別 – 男性:60人(昭和:50人、平成:10人)

    – 女性:40人(昭和:25人、平成:15人) • 年代 – 昭和生まれ:75人(男性:50人、女性25人) – 平成生まれ:25人(男性:10人、女性15人) ✓ 試行)社員から、無作為に1人を選び出した時 • 事象A)男性である確率 A = 60 100 = 3 5 • 事象B)平成生まれである確率 (B) = 25 100 = 1 4 U A B 100 A 10 15 50 25 25 15 10 50 ベイズの定理 確率分布 実践
  4. ベイズの定理 確率分布 実践 同時確率と、条件付き確率[p22] ➢ 同時確率 – ( ∩ )

    ✓ 事象A(男性)かつ、事象B(平成生まれ) [p23] ∩ = 10 100 = 1 10 ➢ 条件付き確立 – = (∩) ✓ 事象A(男性)の時、事象B(平成生まれ) [p23] | = ∩ = 10 100 ∗ 100 60 = 1 6 A U A B 100 10 15 50 25 25 15 10 50 ギブン ベイズの定理 確率分布 実践
  5. ベイズの定理 確率分布 実践 乗法定理[p24] ➢ 乗法定理 = ( ∩ )

    ∗ = ( ∩ ) – ∩ = ✓ 事象A(男性)かつ、事象B(平成生まれ) [p23] ∩ = = 60 100 ∗ 1 6 = 10 100 = 1 10 × 便宜上、変形 ↑事象Aと事象Bの同時確率 U A B 100 A 10 15 50 25 15 10 50 25 ベイズの定理 確率分布 実践
  6. ベイズの定理 確率分布 実践 ベイズの定理[p38] ➢ ベイズの定理 ∩ = ∩ =

    = – = ✓ 事象B(平成生まれ)の時、事象A(男性) [p23] | = 1 6 ∗ 60 100 25 100 = 1 10 ∗ 100 25 = 2 5 U A B 100 A 25 15 10 50 10 15 50 25 ベイズの定理 確率分布 実践
  7. ベイズの定理 確率分布 実践 確率変数と確率分布[p25] ✓ 試行)サイコロを投げる ➢ 確率変数 – サイコロの目()

    ➢ 確率分布 – サイコロの目()に対する、確率値()の対応 ➢ 平均値 – 観測値の総和を観測値の個数で割ったもの(Wikipedia) = 1 ∗ 1 6 + 2 ∗ 1 6 + 3 ∗ 1 6 + 4 ∗ 1 6 + 5 ∗ 1 6 + 6 ∗ 1 6 = 1 + 6 ∗ 6 2 6 = 21 6 = 7 2 1 1/6 2 1/6 3 1/6 4 1/6 5 1/6 6 1/6 ミュー ベイズの定理 確率分布 実践
  8. ベイズの定理 確率分布 実践 確率変数と確率分布[p25] ➢ 分散 – 確率変数の分布が期待値からどれだけ散らばっているかを示す非負の値 (Wikipedia) 2

    = (1 − 7 2 )2∗ 1 6 + 2 − 7 2 2 ∗ 1 6 + 3 − 7 2 2 ∗ 1 6 + 4 − 7 2 2 ∗ 1 6 + 5 − 7 2 2 ∗ 1 6 + 6 − 7 2 2 ∗ 1 6 = 25 4 ∗ 1 6 ∗ 2 + 9 4 ∗ 1 6 ∗ 2 + 1 4 ∗ 1 6 ∗ 2 = 25 + 9 + 1 12 = 35 12 ➢ 標準偏差 – 分散の正の平方根(Wikipedia) = 35 12 シグマ ベイズの定理 確率分布 実践
  9. ベイズの定理 確率分布 実践 連続的な確率変数と確率密度関数[p27] ➢ 離散確率変数 – 離散的な値をとる変数 サイコロ( =

    1)、宝くじの当選金額( = 100,000,000 ) ➢ 連続確率変数 – 連続した値をとる変数 ルーレットの角度( = 312.053 … ) 、体重( = 46.308 … ) ➢ 確率密度関数 – 連続確率変数の分布と、変数の区間で区切った面積で確率を表す ベイズの定理 確率分布 実践
  10. ベイズの定理 確率分布 実践 有名な確率分布[p29] ➢ 一様分布 – 確率変数Xの値にかかわらず、確率値が一定の値をとる分布 理想的なルーレットがある角度(0度、35.849...度)をとる確率 ➢

    ベルヌーイ分布 – 確率で確率変数Xの値が1、確率(1 − )で確率変数Xの値が0をとる分布 コインの表が出る確率(表:1か、裏:0を必ずとるため) ➢ 正規分布 – 平均値の付近に集積するような、連続確率変数に関する分布 500mlペットボトルの内容量(平均に近いほど数が多く、離れるほど少ない) ➢ ベータ分布 – 二項分布の共役事前分布 ベイズの定理 確率分布 実践
  11. ベイズの定理 確率分布 実践 ベータ分布[p32] ➢ ベータ分布 – 二項分布の共役事前分布(ベイズ統計の事前分布として計算がしやすい分布) ➢ 二項分布

    – n回の独立なベルヌーイ試行を行った時の成功数で表される離散確率分布 3回コインを投げた時、1回だけ表が出る確率 ベイズの定理 確率分布 実践
  12. ベイズの定理 確率分布 実践 最尤推定法[p34] ✓ 試行) (理想的ではない)あるサイコロを5回投げる ✓ 結果)偶数、偶数、奇数、偶数、奇数 ➢

    母数(パラメータ) – このサイコロが偶数を出す確率 ➢ 尤度関数 – 観察結果から、前提条件(偶数を出す確率)の尤もらしさを推測した数値を、 前提条件(母数)を変数とする関数として捉えたもの = ∗ ∗ 1 − ∗ ∗ 1 − = 3(1 − )2 ベイズの定理 確率分布 実践
  13. ベイズの定理 確率分布 実践 ベイズの定理にデータを取り込む[p39] ➢ ベイズの基本公式  = (│)() ✓

    タバコを吸った人が女性である確率 – 男性:10人(喫煙者:5人) – 女性:7人(喫煙者:3人) = (│)() = 3 7 ∗ 7 17 8 17 = 3 8 H:Hypothesis(原因・仮定) D:Data(結果・データ) H 5 5 3 4 ベイズの定理 確率分布 実践
  14. ベイズの定理 確率分布 実践 ベイズの展開公式[p43] ➢ ベイズの展開公式 – ベイズの基本公式 = (│

    )( ) – データDが得られる確率 = ( ∩ 1 ) + ⋯ + = 1 1 + ⋯ + – ベイズの展開公式 = (│ )( ) 1 1 + ⋯ + 1 2 3 ベイズの定理 確率分布 実践
  15. ベイズの定理 確率分布 実践 例題[p45] ✓ BさんがAさんの誘いに応じる確率をDとする – 晴れの日:1 = 4

    5 – 雨の日: 2 = 3 5 – 雨の日:晴れの日=1:7 1 = (│1 )(1 ) 1 1 + 2 2 = 4 5 ∗ 7 8 4 5 ∗ 7 8 + 3 5 ∗ 1 8 = 7 10 ∗ 40 31 = 28 31 宿題:[p63]健康診断では「疑いあり」なのに、 精密検査では大丈夫なことが多いのはなぜか? ∵そもそも晴れの日が圧倒的に多い BさんがAさんの誘いに応じる日は、 9割以上の確率で晴れの日 雨の日でも、6割の確率でOKしている 事前分布は大事!! ふわっと表現すると… ベイズの定理 確率分布 実践
  16. ベイズの定理 確率分布 実践 Excelで計算 • SUMPRODUCT関数 – 配列の積の和(積和) = 1

    1 + 2 2 =SUMPRODUCT(尤度 1 の配列, 事前分布 1 の配列) 晴れ 雨 尤度 0.8 0.6 事前分布 0.875 0.125 事後分布 0.903225806 0.096774194 事後分布 (SUMPRODUCT) 0.903225806 0.096774194 =C2∗C3/(B2∗B3+C2∗C3) =C2∗C3/SUMPRODUCT($B$2:$C$2,$B$3:$C$3) 尤度の配列 事前分布の配列 変数 値1 値2 ベイズの定理 確率分布 実践 ※ ベイズ統計は関係ありませんが、INDEX関数、MATCH関数を使ってセルを指定する癖を付 けると、 例)晴れの尤度=INDEX($1:$1048576,MATCH("尤度",$A:$A,0),MATCH("値1",$1:$1,0)) 雨の事後分布の計算式(以下の2式は同じ!)
  17. ベイズの定理 確率分布 実践 ベイズ理論の特徴[p48,p54] • 結果Dを得る度に事後確率を更新することで、正確性が増す – 事前分布は大切!だが、データがない場合は、必ずしも事前確率の正確さにこ だわりすぎる必要はない(理由不十分の原則や、主観的な確率でOK) ➢

    理由不十分の原則 – 情報がない場合、確率は同等とみなす 3つの箱A・B・Cの1つからくじを引いた→Aの箱からくじを引いた確率は1/3 ➢ ベイズ更新を行うことができる – 連続した試行を行う際、試行の事後確率を、次の試行の事前確率として利用で きる ✓ 試行) 同じ確率で当たりの出る、ABCいずれかの箱からくじを引く 1. どの箱からくじを引くかは分からないが、事前確率は1/3としておこう 2. 何回か試行を繰り返した結果、当たりくじを調べると2/3の確率でAから出て いる 3. Aの箱からくじを引く確率が高いのでは? 4. もっと試行を繰り返したら、違う結果になるかもしれない 5. 3)を学習して(事後確率を事前確率とする)データをベイズ更新してみよう ベイズの定理 確率分布 実践
  18. ベイズの定理 確率分布 実践 理由不十分の原則と、ベイズ更新を利用した例題[p54] ✓ 試行) AまたはBの壺どちらか一方から、3回連続で玉を取り出す ✓ 結果) S、S、G

    – Aから玉を取り出す確率:( ) = 1 2 – Bから玉を取り出す確率:( ) = 1 2 – 取り出した玉が水晶(S)である確率: = 4 5 = 2 5 – 取り出した玉がガラス(G)である確率: = 1 5 = 3 5 理由不十分の原則 (実際には不明) 4 1 2 3 1 1 ベイズの定理 確率分布 実践
  19. ベイズの定理 確率分布 実践 1回目・2回目の手計算[p54] • 1回目のデータ(S)を数式で表現すると = (│ )( )

    + = 4 5 ∗ 1 2 4 5 ∗ 1 2 + 2 5 ∗ 1 2 = 2 3 = (│ )( ) + = 2 5 ∗ 1 2 4 5 ∗ 1 2 + 2 5 ∗ 1 2 = 1 3 • 1回目で当たれば壺が本物と思い、 2回目も同じ選択をする確率が上がる = (│ )( ) + = 4 5 ∗ 2 3 4 5 ∗ 2 3 + 2 5 ∗ 1 3 = 4 5 = (│ )( ) + = 2 5 ∗ 1 3 4 5 ∗ 1 3 + 2 5 ∗ 1 3 = 1 5 ベイズの定理 確率分布 実践
  20. ベイズの定理 確率分布 実践 3回目の手計算[p54] • 3回目も、2回目のデータを学習し、事前確率として利用する = (│ )( )

    + = 1 5 ∗ 4 5 1 5 ∗ 4 5 + 3 5 ∗ 1 5 = 4 7 この3回の試行の結果、 壺がAである確率は4/7 ベイズの定理 確率分布 実践 宿題:配布教材(Excel)を利用して、結果を確認してみよう!