長岡技術科学大学 自然言語処理研究室 守谷歩
ナイーブベイズ、SVM長岡技術科学大学自然言語処理研究室守谷 歩
View Slide
ナイーブベイズ分類器 ベイズの定理目的:事例dに対してP(c|d)が最大となるクラス ∈ を出力する。この確率P(c|d)を求める。ベイズの定理 = ()P(d)はクラスcに依存しない。⇒P(c),P(d|c)を考えればよい。これらを最大にするクラスCmaxは= argmax ()= argmax
ベイズの定理言語処理では事象dは文書データなのでデータが膨大⇒すべてのdについてのP(c|d)を求めるのは効率的でない文書にモデルを仮定してP(d|c)の値を求める。モデル⚫多変数ベルヌーイモデル⚫多項モデル
多変数ベルヌーイモデルクラスcが与えられているとき単語wの生起確率,, 1 − ,1−,語彙Vでの文書dの生起確率 = ς∈,, 1 − ,1−,ナイーブベイズ分類器の多変数ベルヌーイモデル() = ς∈,, 1 − ,1−,
例強い肯定表現や強い否定表現の文書例で分類器を考える。肯定Td1= “True True True False”d2= “Not agree ”d3= “True agree Not True”否定Fd1= “Not False Not True”d2= “Not True False”d3= “agree Not False True”
多項モデルクラスcが与えられているとき、文書d内で単語が発生確率wで,回発生する確率(σ ,)!ς∈,!ς∈,,語彙Vでの単語が発生確率wで,回発生する確率 = ( = σ,) (σ ,)!ς∈,!ς∈,,ナイーブベイズ分類器の多項ベルヌーイモデル() = (σ,) (σ ,)!ς∈,!ς∈,,
例強い肯定表現や強い否定表現の文書例で分類器を考える。肯定Td1= “True True True False”d2= “Not agree ”d3= “True agree Not True”否定Fd1= “Not False Not True”d2= “Not True False”d3= “agree Not False True”先ほど求めた文書数NT=3 NF=3Ntrue,T=2 Ntrue,F=3Nfalse,T=1 Nfalse,F=3Nnot,T=2 Nnot,F=3Nagree,T=2 Nagree,F=1
サポートベクターマシン(SVM)⚫線形2値分類器であり、クラスが2である問題に使われる。⚫訓練データD={(x1,y1),(x2,y2),・・・,(xd,yd)}で和えられてるとき、xは事例の素性ベクトル、yはクラスラベルである。正例、負例をそれぞれ1,-1とする。⚫分離平面の方向ベクトルwと切片bをパラメータとして = ∗ − ≥ 0:正クラス < 0:負クラス
マージン最大化(2次元空間)
多値分類器1. One-versus-rest法2. ペアワイズ法