Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ベイズ統計入門

tdual
July 10, 2018

 ベイズ統計入門

ベイズ統計入門

tdual

July 10, 2018
Tweet

Other Decks in Science

Transcript

  1. 条件付き確率 (全体で100人) 男(60人) 女(40人) ネコ好き(55人) 40人 15人 犬好き(45人) 20人 25人

    ・無作為に選んだ時に男である確率   P(男) = 60/100 ・無作為に選んだ時に猫好きである確率 P(ネコ好き) = 55/100 ・無作為に選んだ時に男かつネコ好きである確率   P(ネコ好き, 男) = 40/100 ・男の中から選んだ時にネコ好きである確率 P(ネコ好き | 男) = 40/60  同時確率 条件付き確率 P(男 | ネコ好き) = 40/55
  2. ベイズの定理 P(ネコ好き | 男) = P(男 | ネコ好き)*P(ネコ好き) / P(男)

    = (40/55) * (55/100) / (60/100) = 40 / 60 (全体で100人) 男(60人) 女(40人) ネコ好き(55人) 40人 15人 犬好き(45人) 20人 25人 あってる Aの時にBである確率P(B|A)から, Bの時にAである確率P(A|B)を求めることができる。 P(A, B) = P(A|B)P(B) P(A, B) = P(B|A)P(A) 集合論で考えれば自明 (A∩B)/(全体) = (A∩B)/A * A/(全体) 事後確率 事前確率
  3. 周辺確率 (全体で100人) 男(60人) 女(40人) ネコ好き(55人) 40人 15人 犬好き(45人) 20人 25人

    A=男, B1=ネコ好き, B2=犬好き P(男,ネコ好き)+P(男,犬好き) = 40/100 + 20/100 = 60/100 =P(男) 集合論で考えれば自明 A ∩ 全体 = A A ∩ B1 / 全体 + A ∩ B2 /全体+... =A ∩ (B1+B2+...) / 全体 =A ∩ 全体 / 全体 =A / 全体
  4. ベイズの定理の応用(迷惑メールフィルター) メール100通調べ 迷惑メール(60) 非迷惑メール(40) 「完全無料」を含むメール 10 5 P(完全無料|迷惑メール) = 10/60

    P(完全無料) = 15/100 P(迷惑メール) = 60/100 迷惑メールフィルターでは「完全無料」を含むメールが迷惑メールかどうかを知りたい。 P(迷惑メール|完全無料) = P(完全無料|迷惑メール)P(迷惑メール)/P(完全無料) = 10/60 ✖ 60/100 ➗ 15/100 = 10/15 ≒ 0.67 この精度で迷惑メールフォルダにぶっ 込むのは危ない
  5. ベイズの定理の応用(迷惑メールフィルター) メール100通調べ 迷惑メール(60) 非迷惑メール(40) 「完全無料」を含むメール 10 5 「仮想通貨投資」を含むメール 25 5

    P(仮想通貨投資|迷惑メール) = 25/60 P(仮想通貨投資) = 30/100 さっき求めた P(迷惑メール|完全無料) = 10/15 ←新しい事前確率 P(迷惑メール|完全無料, 仮想通貨投資) = P(仮想通貨投資|迷惑メール) P*(A) / P(仮想通貨投資) = 25/60 ✖ 10/15 ➗ 30/100 = 25/27 ≒ 0.925 完全無料と仮想通貨投資を含むメールは 92.5%の確率で迷惑メール 精度を向上させるのに新しく作り 直す必要がない。前の結果を利用 できる。 (新語に対応できる)
  6. 共役事前分布 「じゃあ、計算出来るように事前分布を選ぼう!!」 尤度 事前分布 事後分布 ベルヌーイ分布 ベータ分布 ベータ分布 二項分布 ベータ分布

    ベータ分布 σが既知の正規分布 正規分布 正規分布 σが未知の正規分布 逆ガンマ分布 逆ガンマ分布 ポアソン分布 ガンマ分布 ガンマ分布 カテゴリカル分布 ディリクレ分布 ディリクレ分布 多項分布 ディリクレ分布 ディリクレ分布 LDAで ディリク レ分布 を使う 理由