Upgrade to Pro — share decks privately, control downloads, hide ads and more …

b3semi_5.pdf

MARUYAMA
February 22, 2017
140

 b3semi_5.pdf

MARUYAMA

February 22, 2017
Tweet

Transcript

  1. 4.2 ナイーブベイズ分類器 4 4.2.1 はじめに 4.2.2 多変数ベルヌーイモデル 4.2.3多項モデル ・ モデルの導入

    ・ パラメータの最尤推定 ・ パラメータのMAP推定 ・ モデルの導入 ・ パラメータの最尤推定 ・ パラメータのMAP推定
  2. 4.2.2 多変数ベルヌーイモデル ",$ = (クラスでありを含むような訓練文書数 ) (クラスであるような訓練文書数) $ = (クラスであるような訓練文書数)

    (訓練文書数) ▪ 多変数ベルヌーイモデル () | = $ - ",$ . ",/ (1 − ",$ )23. ",/ "∈6 789 = | = | ▪ ナイーブベイズ分類器 ▪ パラメータの最尤推定 5 復習
  3. 4.2.2 多変数ベルヌーイモデル ▪ 例題1 P氏は次のような文書を書いた。 N氏は次のような文書を書いた。 2 = “ ”

    D = “ ” I = “ ” J = “ ” K = “ ” L = “ ” このデータを用いて、P氏の書いた文書とN氏の書いた文書を分類する 多変数ベルヌーイモデルのナイーブベイズ分類器を構築せよ。 パラメータ",$ , $ を求めよ 6 復習
  4. 4.2.2 多変数ベルヌーイモデル ▪ 例題1 M8/,N = 0.33 M8/,R = 1.00

    MSTUVW,N = 0.33 MSTUVW,R = 0.67 Z9$U[UVW,N = 0.67 Z9$U[UVW,R = 0.33 WSS/,N = 0.67 WSS/,R = 0.33 N = 0.50 R = 0.50 7 ",$ = ",$ $ = (クラスでありを含むような訓練文書数 ) (クラスであるような訓練文書数) $ = R^ ∑ R^ ^ = (クラス$であるような訓練文書数) (訓練文書数) 復習
  5. 4.2.2 多変数ベルヌーイモデル ▪ 例題2 例題1 の分類器を用いて, 次の文書を分類せよ: = “ ”

    N /|N = N × M8/,N × MSTUVW,N × (1− Z9$U[UVW,N )× WSS/,N = 0.5 × 0.33 ×0.33 × 1 − 0.67 ×0.67 = 0.012 R /|R = R × M8/,R × MSTUVW,R × (1− Z9$U[UVW,R )× WSS/,R = 0.5 × 1.00×0.67 × 1 − 0.33 × 0.33 = 0.074 ナイーブベイズ分類器はN氏によって書かれたものと推測 8 復習
  6. 4.2.2 多変数ベルヌーイモデル ▪ 例題3 P氏は次のような文書を書いた。 N氏は次のような文書を書いた。 2 = “ ”

    D = “ ” I = “ ” J = “ ” K = “ ” L = “ ” このデータを用いて、P氏の書いた文書とN氏の書いた文書を分類する 多変数ベルヌーイモデルのナイーブベイズ分類器を構築し、 それを用いて次の文書を分類せよ。 = “ ” 9
  7. 4.2.2 多変数ベルヌーイモデル ▪ 例題3 dUVZ,N = dUVZ,e N = 1

    3 = 0.33 dUVZ,R = dUVZ,R R = 0 3 = 0.00 その他、例題1と同様 N /|N = N × M8/,N × MSTUVW,N × (1− Z9$U[UVW,N )× dUVZ,N ×(1 − WSS/ N ) = 0.5 × 0.33 ×0.33 × 1 − 0.67 × 0.33 × 1 − 0.67 = 0.002 R /|R = R × M8/,R × MSTUVW,R × (1− Z9$U[UVW,R )× dUVZ,R ×(1 − WSS/,R ) = 0.5 × 1.00 ×0.67 × 1 − 0.33 × 0.00 × 0.67 = 0.00 ナイーブベイズ分類器はP氏によって書かれたものと推測 10
  8. 4.2.2 多変数ベルヌーイモデル ▪ パラメータのMAP推定 例題3のようなことが起こる原因は, dUVZ,R = 0.00 であること MAP推定

    0.00に近い値をとる確率が非常に小さいような事前確率分布を パラメータに与える ※ ここでは、事前確率分布としてディリクレ分布を用いる 11
  9. 4.2.2 多変数ベルヌーイモデル ▪ パラメータのMAP推定 U ≥ 0, ∑ = であるような

    = 2 , … V に対して確率を与える分布 ; = 1 ∫ ∏ U op32 U - U op32 U (2 , … , V: パラメータ) 12 ディリクレ分布
  10. 4.2.2 多変数ベルヌーイモデル ▪ パラメータのMAP推定 = 2 , D の2次元のディリクレ分布を考える(2 =

    2, D = 2) ; = 1 ∫ ∏ U op32 U - U op32 U ディリクレ分布 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 0 0.2 0.4 0.6 0.8 1 y x1 = 1 ∫ 2 2 q 1 − 2 2 2 (1 − 2 ) ∑ U U = 1より, D = 1 − 2 = 62 (1 − 2 ) ディリクレ分布に従う確率変数は極端な値を取りにくい 13
  11. 4.2.2 多変数ベルヌーイモデル ▪ パラメータのMAP推定 例題3のようなことが起こる原因は, dUVZ,R = 0.00 であること MAP推定

    0.00に近い値をとる確率が非常に小さいような事前確率分布を パラメータに与える ※ ここでは、事前確率分布としてディリクレ分布を用いる 14
  12. 4.2.2 多変数ベルヌーイモデル ▪ パラメータのMAP推定 MAP推定の目的関数 log () + log ()

    = - $ o32 $ × - ",$ o32(1 − ",$ )o32 V ",$ + v , + (定数) (/,$)∈z = ( − 1) v $ $ + ( − 1) v ",$ + log (1 − ",$ ) $ + v $ - ",$ . ",/ (1 − ",$ )23. ",/ V "∈6 + (定数) (/,$)∈z を ∑ $ $ = 1 という制約のもとで最大化する 16
  13. 4.2.2 多変数ベルヌーイモデル ▪ パラメータのMAP推定 ラグランジュ関数(, )を定義する , = log ()

    + log () + v $ − 1 $ max. log () + log () . . v $ = 1 $ 等式制約付き凸関数問題 17
  14. 4.2.2 多変数ベルヌーイモデル ▪ パラメータのMAP推定 , = log () + log

    () + v $ − 1 $ 各パラメータ(",$ , $ , )でラグランジュ関数を偏微分 , ",$ = ( − 1) ",$ − ( − 1) 1 − ",$ + ",$ ",$ − $ − ",$ 1 − ",$ = 0 , $ = ( − 1) $ + $ $ + = 0 , = v $ − 1 $ = 0 18
  15. 4.2.2 多変数ベルヌーイモデル ▪ パラメータのMAP推定 ",$ = ",$ + ( −

    1) $ + 2( − 1) $ = $ + ( − 1) ∑ $ $ + ||( − 1) , ",$ = ( − 1) ",$ − ( − 1) 1 − ",$ + ",$ ",$ − $ − ",$ 1 − ",$ = 0 , $ = ( − 1) $ + $ $ + = 0 , = v $ − 1 $ = 0 ∶ クラス数 19
  16. 4.2.2 多変数ベルヌーイモデル ▪ 例題4 P氏は次のような文書を書いた。 N氏は次のような文書を書いた。 2 = “ ”

    D = “ ” I = “ ” J = “ ” K = “ ” L = “ ” このデータを用いて、P氏の書いた文書とN氏の書いた文書を分類する 多変数ベルヌーイモデルのナイーブベイズ分類器をMAP推定で構築せよ。 ただし、事前分布はディリクレ分布(=2)で与えることにする。 20
  17. 4.2.2 多変数ベルヌーイモデル ▪ 例題4 M8/,N = M8/,N + 1 e

    + 2 = 1 + 1 3 + 2 = 0.40 MSTUVW,N = 0.40 MSTUVW,R = 0.60 Z9$U[UVW,N = 0.60 Z9$U[UVW,R = 0.40 WSS/,N = 0.60 WSS/,R = 0.40 N = e + 1 e + R + || = 3 + 1 3 + 3 + 2 = 0.50 R = R + 1 e + R + || = 3 + 1 3 + 3 + 2 = 0.50 M8/,R = M8/,R + 1 R + 2 = 3 + 1 3 + 2 = 0.60 dUVZ,N = 0.40 dUVZ,R = 0.20 21
  18. 4.2.2 多変数ベルヌーイモデル ▪ 例題5 N /|N = N × M8/,N

    × MSTUVW,N × (1− Z9$U[UVW,N )× dUVZ,N ×(1 − WSS/ N ) = 0.5 × 0.40 × 0.40 × 1 − 0.60 × 0.40 × 1 − 0.60 = 0.005 R /|R = R × M8/,R × MSTUVW,R × (1− Z9$U[UVW,R )× dUVZ,R ×(1 − WSS/ ,R ) = 0.5 × 0.80 × 0. 60 × 1 − 0.40 × 0.20 × 1 − 0.40 = 0.017 例題4 で構築した分類器を用いて次の文書を分類器をせよ。 = “ ” ナイーブベイズ分類器はN氏によって書かれたものと推測 22
  19. 4.2.2 多変数ベルヌーイモデル ",$ = (クラスでありを含むような訓練文書数 ) (クラスであるような訓練文書数) $ = (クラスであるような訓練文書数)

    (訓練文書数) ▪ 多変数ベルヌーイモデル () | = $ - ",$ . ",/ (1 − ",$ )23. ",/ "∈6 ▪ パラメータの最尤推定 23 ▪ パラメータのMAP推定 ",$ = ",$ + ( − 1) $ + 2( − 1) $ = $ + ( − 1) ∑ $ $ + ||( − 1)
  20. 4.2.3 多項モデル 24 個の値を取りうる確率変数 各値にはそれぞれ2 , D , … ,

    7 の確率が与えられる (∑ U = 1 U ) ▪ 多項分布 1回の試行で個の値のうち1つが起こる 回試行した場合, 各値がそれぞれ2 , D , … , 7 ( = ∑ U U )回起こる確率は ! ∏ U ! U - U „p U
  21. 4.2.3 多項モデル 25 ▪ 多項分布 語彙 {good, bad, exciting, boring}

    確率 WSS/ , M8/ , Z9$U[UVW , VSTUVW の確率で発言する (WSS/ + M8/ + Z9$U[UVW + VSTUVW = 1) “good, bad, boring, exciting, boring, good, bad, good, good, bad” 以下のような発言が起こる確率を求める 10! 4! 3! 1! 2! (WSS/ )J×(M8/ )I×(Z9$U[UVW )2×(MSTUVW )D 「何回起こったか」だけが考慮されている
  22. 4.2.3 多項モデル || : 文書の単語数 ▪ モデルの導入 (|)を多項分布でモデル化 26 ・

    多変数ベルヌーイモデル () | = $ - ",$ . ",/ (1 − ",$ )23. ",/ "∈6 ・多項モデル 語彙における単語が事例にあるかどうか → | 語彙の中から単語を|| 回選ぶ → |
  23. 4.2.3 多項モデル || : 文書の単語数 ・ ",$ = P( =

    | = ) ・ $ = () : 単語を値とする確率変数 モデルのパラメータ ▪ モデルの導入 : クラスを値とする確率変数 27
  24. 4.2.3 多項モデル ▪ モデルの導入 文書内で、単語がそれぞれ",/ 回起こる確率は, 多項分布より ∑ ",/ "

    ! ∏ ",/ ! "∈6 - ",$ V‰,Š U 何回試行するか (文書の長さ) を決定する必要があるため、 文書の長さを表す確率変数 = = v ",/ " ∑ ",/ " ! ∏ ",/ ! "∈6 - ",$ V‰,Š U 長さ∑ ",/ " であるような文書が起こる確率 = ∑ ",/ " 28 ※ ここでは、文書の長さはクラスに依存しないと仮定する
  25. 4.2.3 多項モデル ▪ モデルの導入 多項モデルのナイーブベイズ分類器は, () = $ v ",/

    " ∑ ",/ " ! ∏ ",/ ! "∈6 - ",$ V‰,Š "∈6 を最大化するようなを出力する 29
  26. 4.2.3 多項モデル ▪ モデルの比較 ・ 多項モデル () = $ v

    ",/ " ∑ ",/ " ! ∏ ",/ ! "∈6 - ",$ V‰,Š "∈6 30 ・ 多変数ベルヌーイモデル () | = $ - ",$ . ",/ (1 − ",$ )23. ",/ "∈6 生起しなかったことを積極的に取り入れるモデル 単語が生起した回数に注目したモデル 生起しなかった単語は相手にしない
  27. 4.2.3 多項モデル ▪ パラメータの最尤推定 max. log () . . ∑

    $ = 1 $ ∑ ",$ = 1; ∀ ∈ "∈6 等式制約付き凸関数問題 31 = , = $ v ",/ " ∑ ",/ " ! ∏ ",/ ! "∈6 - ",$ V‰,Š "∈6 を最大化するパラメータを求める
  28. 4.2.3 多項モデル ▪ パラメータの最尤推定 , , = + v $

    $ v ",$ − 1 "∈6 + v $ − 1 $∈“ ラグランジュ関数を偏微分し、パラメータを求めると ",$ = ",$ ∑ ",$ " ラグランジュ関数 , , を定義する (未定乗数{$ }$∈“ , ) ",$ = (クラスに属する訓練文書全体でのの出現回数) (クラスに属する訓練文書全体での全単語の出現回数) 32 $ = $ ∑ $ $ $ = (クラスであるような訓練文書数) (訓練文書数)
  29. 4.2.3 多項モデル ▪ 例題6 P氏は次のような文書を書いた。 N氏は次のような文書を書いた。 2 = “ ”

    D = “ ” I = “ ” J = “ ” K = “ ” L = “ ” このデータを用いて、P氏の書いた文書とN氏の書いた文書を分類する 多項モデルのナイーブベイズ分類器を構築せよ。 パラメータ",$ , $ を求めよ 33
  30. 4.2.3 多項モデル ▪ 例題6 N = 3, R = 3

    M8/,N = 1, M8/,R = 5 MSTUVW,N = 1, MSTUVW,R = 4 Z9$U[UVW,N = 3, Z9$U[UVW,R = 1 WSS/,N = 5, WSS/,R = 1 統計値を求めると, 34 2 = “ ” D = “ ” I = “ ” J = “ ” K = “ ” L = “ ”
  31. 4.2.3 多項モデル ▪ 例題6 M8/,N = M8/,N M8/,N + MSTUVW,N

    + Z9$U[UVW,N + WSS/,N = 1 1 + 1 + 3 + 5 = 0.10 MSTUVW,N = 0.10 MSTUVW,R = 0.36 Z9$U[UVW,N = 0.30 Z9$U[UVW,R = 0.09 WSS/,R = 0.09 N = e e + R = 3 3 + 3 = 0.50 R = R e + R = 3 3 + 3 = 0.50 M8/,R = M8/,R M8/,R + MSTUVW,R + Z9$U[UVW,R + WSS/,R = 5 5 + 4 + 1 + 1 = 0.45 WSS/,N = 0.50 35
  32. 4.2.3 多項モデル ▪ 例題7 例題6で構築した分類器を用いて次の文書を分類器をせよ。 = “ ” N /|N

    ∝ N × (WSS/ N )D × M8/,N × MSTUVW,N = 0.5 × 0.50D × 0.10 × 0.10 = 0.00125 R /|R ∝ R × (WSS/ R )D × M8/,R × MSTUVW,R = 0.5 ×0.09D× 0. 45 × 0.36 = 0.0006561 ナイーブベイズ分類器はP氏によって書かれたものと推測 36
  33. 4.2.3 多項モデル ▪ パラメータのMAP推定 log () + log () =

    log - $ o32 $ × - ",$ o32 ",$ + v , /,$ ∈z + (定数) = − 1 v $ $ + v ",$ ",$ + v ! ∏ ",/ ! "∈6 $ - ",$ V‰,Š "∈6 + (定数) (/,$)∈z 37
  34. 4.2.3 多項モデル ▪ パラメータのMAP推定 ラグランジュ関数(, , )を定義する , , =

    log () + log () + v $ v ",$ − 1 "∈6 $∈“ + v $ − 1 $∈“ ラグランジュ関数を偏微分し、パラメータを求めると ",$ = ",$ + ( − 1) ∑ ",$ + ||( − 1) " : 単語の種類数 38 $ = $ + ( − 1) ∑ $ $ + ||( − 1)
  35. 4.2.2 多変数ベルヌーイモデル $ = (クラスであるような訓練文書数) (訓練文書数) ▪ 多変数ベルヌーイモデル ▪ パラメータの最尤推定

    39 ▪ パラメータのMAP推定 $ = $ + ( − 1) ∑ $ $ + ||( − 1) () = $ v ",/ " ∑ ",/ " ! ∏ ",/ ! "∈6 - ",$ V‰,Š "∈6 ",$ = (クラスに属する訓練文書全体でのの出現回数) (クラスに属する訓練文書全体での全単語の出現回数) ",$ = ",$ + ( − 1) ∑ ",$ + ||( − 1) "