b3semi_5.pdf

自然言語処理のための機械学習第5回 B3 丸山拓海自然言語処理研究室

自然言語処理のための機械学習 2 2. 文書及び単語の数学的表現 3. クラスタリング 4. 分類 5. 系列ラベリング
1. 必要な数学的知識

4. 分類 3 4.2 ナイーブベイズ分類器 4.3 サポートベクトルマシン 4.4 カーネル法 4.5
対数線形モデル 4.1 分類とは

4.2 ナイーブベイズ分類器 4 4.2.1 はじめに 4.2.2 多変数ベルヌーイモデル 4.2.3多項モデル・モデルの導入
・パラメータの最尤推定・パラメータのMAP推定・モデルの導入・パラメータの最尤推定・パラメータのMAP推定

4.2.2 多変数ベルヌーイモデル ",$ = (クラスでありを含むような訓練文書数 ) (クラスであるような訓練文書数) $ = (クラスであるような訓練文書数)
(訓練文書数) ▪ 多変数ベルヌーイモデル () | = $ - ",$ . ",/ (1 − ",$ )23. ",/ "∈6 789 = | = | ▪ ナイーブベイズ分類器 ▪ パラメータの最尤推定 5 復習

4.2.2 多変数ベルヌーイモデル ▪ 例題1 P氏は次のような文書を書いた。 N氏は次のような文書を書いた。 2 = “ ”
D = “ ” I = “ ” J = “ ” K = “ ” L = “ ” このデータを用いて、P氏の書いた文書とN氏の書いた文書を分類する多変数ベルヌーイモデルのナイーブベイズ分類器を構築せよ。パラメータ",$ , $ を求めよ 6 復習

4.2.2 多変数ベルヌーイモデル ▪ 例題1 M8/,N = 0.33 M8/,R = 1.00
MSTUVW,N = 0.33 MSTUVW,R = 0.67 Z9$U[UVW,N = 0.67 Z9$U[UVW,R = 0.33 WSS/,N = 0.67 WSS/,R = 0.33 N = 0.50 R = 0.50 7 ",$ = ",$ $ = (クラスでありを含むような訓練文書数 ) (クラスであるような訓練文書数) $ = R^ ∑ R^ ^ = (クラス$であるような訓練文書数) (訓練文書数) 復習

4.2.2 多変数ベルヌーイモデル ▪ 例題2 例題1 の分類器を用いて, 次の文書を分類せよ: = “ ”
N /|N = N × M8/,N × MSTUVW,N × (1− Z9$U[UVW,N )× WSS/,N = 0.5 × 0.33 ×0.33 × 1 − 0.67 ×0.67 = 0.012 R /|R = R × M8/,R × MSTUVW,R × (1− Z9$U[UVW,R )× WSS/,R = 0.5 × 1.00×0.67 × 1 − 0.33 × 0.33 = 0.074 ナイーブベイズ分類器はN氏によって書かれたものと推測 8 復習

D = “ ” I = “ ” J = “ ” K = “ ” L = “ ” このデータを用いて、P氏の書いた文書とN氏の書いた文書を分類する多変数ベルヌーイモデルのナイーブベイズ分類器を構築し、それを用いて次の文書を分類せよ。 = “ ” 9

4.2.2 多変数ベルヌーイモデル ▪ 例題3 dUVZ,N = dUVZ,e N = 1
3 = 0.33 dUVZ,R = dUVZ,R R = 0 3 = 0.00 その他、例題１と同様 N /|N = N × M8/,N × MSTUVW,N × (1− Z9$U[UVW,N )× dUVZ,N ×(1 − WSS/ N ) = 0.5 × 0.33 ×0.33 × 1 − 0.67 × 0.33 × 1 − 0.67 = 0.002 R /|R = R × M8/,R × MSTUVW,R × (1− Z9$U[UVW,R )× dUVZ,R ×(1 − WSS/,R ) = 0.5 × 1.00 ×0.67 × 1 − 0.33 × 0.00 × 0.67 = 0.00 ナイーブベイズ分類器はP氏によって書かれたものと推測 10

4.2.2 多変数ベルヌーイモデル ▪ パラメータのMAP推定例題3のようなことが起こる原因は, dUVZ,R = 0.00 であること MAP推定
0.00に近い値をとる確率が非常に小さいような事前確率分布をパラメータに与える ※ ここでは、事前確率分布としてディリクレ分布を用いる 11

4.2.2 多変数ベルヌーイモデル ▪ パラメータのMAP推定 U ≥ 0, ∑ = であるような
= 2 , … V に対して確率を与える分布 ; = 1 ∫ ∏ U op32 U - U op32 U (2 , … , V: パラメータ) 12 ディリクレ分布

4.2.2 多変数ベルヌーイモデル ▪ パラメータのMAP推定 = 2 , D の2次元のディリクレ分布を考える（2 =
2, D = 2） ; = 1 ∫ ∏ U op32 U - U op32 U ディリクレ分布 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 0 0.2 0.4 0.6 0.8 1 y x1 = 1 ∫ 2 2 q 1 − 2 2 2 (1 − 2 ) ∑ U U = 1より, D = 1 − 2 = 62 (1 − 2 ) ディリクレ分布に従う確率変数は極端な値を取りにくい 13

4.2.2 多変数ベルヌーイモデル ▪ パラメータのMAP推定例題3のようなことが起こる原因は, dUVZ,R = 0.00 であること MAP推定
0.00に近い値をとる確率が非常に小さいような事前確率分布をパラメータに与える ※ ここでは、事前確率分布としてディリクレ分布を用いる 14

MAP推定 15 ▪ MAP推定 : データが与えられたときのパラメータの確率分布 | が最大となるようにパラメータを決定 |
= + v log ( U ) 9 p ∈z を最大化するパラメータを決定する 789 = | = | = | 復習

4.2.2 多変数ベルヌーイモデル ▪ パラメータのMAP推定 MAP推定の目的関数 log () + log ()
= - $ o32 $ × - ",$ o32(1 − ",$ )o32 V ",$ + v , + (定数) (/,$)∈z = ( − 1) v $ $ + ( − 1) v ",$ + log (1 − ",$ ) $ + v $ - ",$ . ",/ (1 − ",$ )23. ",/ V "∈6 + (定数) (/,$)∈z を ∑ $ $ = 1 という制約のもとで最大化する 16

4.2.2 多変数ベルヌーイモデル ▪ パラメータのMAP推定ラグランジュ関数(, )を定義する , = log ()
+ log () + v $ − 1 $ max. log () + log () . . v $ = 1 $ 等式制約付き凸関数問題 17

4.2.2 多変数ベルヌーイモデル ▪ パラメータのMAP推定 , = log () + log
() + v $ − 1 $ 各パラメータ(",$ , $ , )でラグランジュ関数を偏微分 , ",$ = ( − 1) ",$ − ( − 1) 1 − ",$ + ",$ ",$ − $ − ",$ 1 − ",$ = 0 , $ = ( − 1) $ + $ $ + = 0 , = v $ − 1 $ = 0 18

4.2.2 多変数ベルヌーイモデル ▪ パラメータのMAP推定 ",$ = ",$ + ( −
1) $ + 2( − 1) $ = $ + ( − 1) ∑ $ $ + ||( − 1) , ",$ = ( − 1) ",$ − ( − 1) 1 − ",$ + ",$ ",$ − $ − ",$ 1 − ",$ = 0 , $ = ( − 1) $ + $ $ + = 0 , = v $ − 1 $ = 0 ∶ クラス数 19

D = “ ” I = “ ” J = “ ” K = “ ” L = “ ” このデータを用いて、P氏の書いた文書とN氏の書いた文書を分類する多変数ベルヌーイモデルのナイーブベイズ分類器をMAP推定で構築せよ。ただし、事前分布はディリクレ分布(=2)で与えることにする。 20

4.2.2 多変数ベルヌーイモデル ▪ 例題4 M8/,N = M8/,N + 1 e
+ 2 = 1 + 1 3 + 2 = 0.40 MSTUVW,N = 0.40 MSTUVW,R = 0.60 Z9$U[UVW,N = 0.60 Z9$U[UVW,R = 0.40 WSS/,N = 0.60 WSS/,R = 0.40 N = e + 1 e + R + || = 3 + 1 3 + 3 + 2 = 0.50 R = R + 1 e + R + || = 3 + 1 3 + 3 + 2 = 0.50 M8/,R = M8/,R + 1 R + 2 = 3 + 1 3 + 2 = 0.60 dUVZ,N = 0.40 dUVZ,R = 0.20 21

4.2.2 多変数ベルヌーイモデル ▪ 例題5 N /|N = N × M8/,N
× MSTUVW,N × (1− Z9$U[UVW,N )× dUVZ,N ×(1 − WSS/ N ) = 0.5 × 0.40 × 0.40 × 1 − 0.60 × 0.40 × 1 − 0.60 = 0.005 R /|R = R × M8/,R × MSTUVW,R × (1− Z9$U[UVW,R )× dUVZ,R ×(1 − WSS/ ,R ) = 0.5 × 0.80 × 0. 60 × 1 − 0.40 × 0.20 × 1 − 0.40 = 0.017 例題4 で構築した分類器を用いて次の文書を分類器をせよ。 = “ ” ナイーブベイズ分類器はN氏によって書かれたものと推測 22

4.2.2 多変数ベルヌーイモデル ",$ = (クラスでありを含むような訓練文書数 ) (クラスであるような訓練文書数) $ = (クラスであるような訓練文書数)
(訓練文書数) ▪ 多変数ベルヌーイモデル () | = $ - ",$ . ",/ (1 − ",$ )23. ",/ "∈6 ▪ パラメータの最尤推定 23 ▪ パラメータのMAP推定 ",$ = ",$ + ( − 1) $ + 2( − 1) $ = $ + ( − 1) ∑ $ $ + ||( − 1)

4.2.3 多項モデル 24 個の値を取りうる確率変数各値にはそれぞれ2 , D , … ,
7 の確率が与えられる (∑ U = 1 U ) ▪ 多項分布 1回の試行で個の値のうち1つが起こる回試行した場合, 各値がそれぞれ2 , D , … , 7 ( = ∑ U U )回起こる確率は ! ∏ U ! U - U „p U

4.2.3 多項モデル 25 ▪ 多項分布語彙 {good, bad, exciting, boring}
確率 WSS/ , M8/ , Z9$U[UVW , VSTUVW の確率で発言する (WSS/ + M8/ + Z9$U[UVW + VSTUVW = 1) “good, bad, boring, exciting, boring, good, bad, good, good, bad” 以下のような発言が起こる確率を求める 10! 4! 3! 1! 2! (WSS/ )J×(M8/ )I×(Z9$U[UVW )2×(MSTUVW )D 「何回起こったか」だけが考慮されている

4.2.3 多項モデル || : 文書の単語数 ▪ モデルの導入 (|)を多項分布でモデル化 26 ・
多変数ベルヌーイモデル () | = $ - ",$ . ",/ (1 − ",$ )23. ",/ "∈6 ・多項モデル語彙における単語が事例にあるかどうか → | 語彙の中から単語を|| 回選ぶ → |

4.2.3 多項モデル || : 文書の単語数・ ",$ = P( =
| = ) ・ $ = () : 単語を値とする確率変数モデルのパラメータ ▪ モデルの導入 : クラスを値とする確率変数 27

4.2.3 多項モデル ▪ モデルの導入文書内で、単語がそれぞれ",/ 回起こる確率は, 多項分布より ∑ ",/ "
! ∏ ",/ ! "∈6 - ",$ V‰,Š U 何回試行するか (文書の長さ) を決定する必要があるため、文書の長さを表す確率変数 = = v ",/ " ∑ ",/ " ! ∏ ",/ ! "∈6 - ",$ V‰,Š U 長さ∑ ",/ " であるような文書が起こる確率 = ∑ ",/ " 28 ※ ここでは、文書の長さはクラスに依存しないと仮定する

4.2.3 多項モデル ▪ モデルの導入多項モデルのナイーブベイズ分類器は, () = $ v ",/
" ∑ ",/ " ! ∏ ",/ ! "∈6 - ",$ V‰,Š "∈6 を最大化するようなを出力する 29

4.2.3 多項モデル ▪ モデルの比較・多項モデル () = $ v
",/ " ∑ ",/ " ! ∏ ",/ ! "∈6 - ",$ V‰,Š "∈6 30 ・多変数ベルヌーイモデル () | = $ - ",$ . ",/ (1 − ",$ )23. ",/ "∈6 生起しなかったことを積極的に取り入れるモデル単語が生起した回数に注目したモデル生起しなかった単語は相手にしない

4.2.3 多項モデル ▪ パラメータの最尤推定 max. log () . . ∑
$ = 1 $ ∑ ",$ = 1; ∀ ∈ "∈6 等式制約付き凸関数問題 31 = , = $ v ",/ " ∑ ",/ " ! ∏ ",/ ! "∈6 - ",$ V‰,Š "∈6 を最大化するパラメータを求める

4.2.3 多項モデル ▪ パラメータの最尤推定 , , = + v $
$ v ",$ − 1 "∈6 + v $ − 1 $∈“ ラグランジュ関数を偏微分し、パラメータを求めると ",$ = ",$ ∑ ",$ " ラグランジュ関数 , , を定義する (未定乗数{$ }$∈“ , ) ",$ = (クラスに属する訓練文書全体でのの出現回数) (クラスに属する訓練文書全体での全単語の出現回数) 32 $ = $ ∑ $ $ $ = (クラスであるような訓練文書数) (訓練文書数)

4.2.3 多項モデル ▪ 例題6 P氏は次のような文書を書いた。 N氏は次のような文書を書いた。 2 = “ ”
D = “ ” I = “ ” J = “ ” K = “ ” L = “ ” このデータを用いて、P氏の書いた文書とN氏の書いた文書を分類する多項モデルのナイーブベイズ分類器を構築せよ。パラメータ",$ , $ を求めよ 33

4.2.3 多項モデル ▪ 例題6 N = 3, R = 3
M8/,N = 1, M8/,R = 5 MSTUVW,N = 1, MSTUVW,R = 4 Z9$U[UVW,N = 3, Z9$U[UVW,R = 1 WSS/,N = 5, WSS/,R = 1 統計値を求めると, 34 2 = “ ” D = “ ” I = “ ” J = “ ” K = “ ” L = “ ”

4.2.3 多項モデル ▪ 例題6 M8/,N = M8/,N M8/,N + MSTUVW,N
+ Z9$U[UVW,N + WSS/,N = 1 1 + 1 + 3 + 5 = 0.10 MSTUVW,N = 0.10 MSTUVW,R = 0.36 Z9$U[UVW,N = 0.30 Z9$U[UVW,R = 0.09 WSS/,R = 0.09 N = e e + R = 3 3 + 3 = 0.50 R = R e + R = 3 3 + 3 = 0.50 M8/,R = M8/,R M8/,R + MSTUVW,R + Z9$U[UVW,R + WSS/,R = 5 5 + 4 + 1 + 1 = 0.45 WSS/,N = 0.50 35

4.2.3 多項モデル ▪ 例題7 例題6で構築した分類器を用いて次の文書を分類器をせよ。 = “ ” N /|N
∝ N × (WSS/ N )D × M8/,N × MSTUVW,N = 0.5 × 0.50D × 0.10 × 0.10 = 0.00125 R /|R ∝ R × (WSS/ R )D × M8/,R × MSTUVW,R = 0.5 ×0.09D× 0. 45 × 0.36 = 0.0006561 ナイーブベイズ分類器はP氏によって書かれたものと推測 36

4.2.3 多項モデル ▪ パラメータのMAP推定 log () + log () =
log - $ o32 $ × - ",$ o32 ",$ + v , /,$ ∈z + (定数) = − 1 v $ $ + v ",$ ",$ + v ! ∏ ",/ ! "∈6 $ - ",$ V‰,Š "∈6 + (定数) (/,$)∈z 37

4.2.3 多項モデル ▪ パラメータのMAP推定ラグランジュ関数(, , )を定義する , , =
log () + log () + v $ v ",$ − 1 "∈6 $∈“ + v $ − 1 $∈“ ラグランジュ関数を偏微分し、パラメータを求めると ",$ = ",$ + ( − 1) ∑ ",$ + ||( − 1) " : 単語の種類数 38 $ = $ + ( − 1) ∑ $ $ + ||( − 1)

4.2.2 多変数ベルヌーイモデル $ = (クラスであるような訓練文書数) (訓練文書数) ▪ 多変数ベルヌーイモデル ▪ パラメータの最尤推定
39 ▪ パラメータのMAP推定 $ = $ + ( − 1) ∑ $ $ + ||( − 1) () = $ v ",/ " ∑ ",/ " ! ∏ ",/ ! "∈6 - ",$ V‰,Š "∈6 ",$ = (クラスに属する訓練文書全体でのの出現回数) (クラスに属する訓練文書全体での全単語の出現回数) ",$ = ",$ + ( − 1) ∑ ",$ + ||( − 1) "

b3semi_5.pdf

b3semi_5.pdf

More Decks by MARUYAMA

Featured

Transcript