ナイーブベイズ分類機、SVM

7f4b04d4f609255390ad84a1b6bceac2?s=47 Ayumu
January 31, 2019

 ナイーブベイズ分類機、SVM

長岡技術科学大学
自然言語処理研究室 守谷歩

7f4b04d4f609255390ad84a1b6bceac2?s=128

Ayumu

January 31, 2019
Tweet

Transcript

  1. ナイーブベイズ、SVM 長岡技術科学大学 自然言語処理研究室 守谷 歩

  2. ナイーブベイズ分類器 ベイズの定理 目的:事例dに対してP(c|d)が最大となるクラス ∈ を出 力する。この確率P(c|d)を求める。 ベイズの定理 = () P(d)はクラスcに依存しない。⇒P(c),P(d|c)を考えればよい。

    これらを最大にするクラスCmaxは = arg max () = arg max
  3. ベイズの定理 言語処理では事象dは文書データなのでデータが膨大 ⇒すべてのdについてのP(c|d)を求めるのは効率的でない 文書にモデルを仮定してP(d|c)の値を求める。 モデル ⚫多変数ベルヌーイモデル ⚫多項モデル

  4. 多変数ベルヌーイモデル クラスcが与えられているとき単語wの生起確率 , , 1 − , 1−, 語彙Vでの文書dの生起確率 =

    ς∈ , , 1 − , 1−, ナイーブベイズ分類器の多変数ベルヌーイモデル () = ς∈ , , 1 − , 1−,
  5. 例 強い肯定表現や強い否定表現の文書例で分類器を考える。 肯定T d1= “True True True False” d2= “Not

    agree ” d3= “True agree Not True” 否定F d1= “Not False Not True” d2= “Not True False” d3= “agree Not False True”
  6. 多項モデル クラスcが与えられているとき、文書d内で単語が発生確率wで, 回 発生する確率 (σ ,)! ς∈ ,! ς∈ ,

    , 語彙Vでの単語が発生確率wで, 回発生する確率 = ( = σ , ) (σ ,)! ς∈ ,! ς∈ , , ナイーブベイズ分類器の多項ベルヌーイモデル () = (σ , ) (σ ,)! ς∈ ,! ς∈ , ,
  7. 例 強い肯定表現や強い否定表現の文書例で分類 器を考える。 肯定T d1= “True True True False” d2=

    “Not agree ” d3= “True agree Not True” 否定F d1= “Not False Not True” d2= “Not True False” d3= “agree Not False True” 先ほど求めた文書数 NT=3 NF=3 Ntrue,T=2 Ntrue,F=3 Nfalse,T=1 Nfalse,F=3 Nnot,T=2 Nnot,F=3 Nagree,T=2 Nagree,F=1
  8. サポートベクターマシン(SVM) ⚫線形2値分類器であり、クラスが2である問題に使われる。 ⚫訓練データD={(x1,y1),(x2,y2),・・・,(xd,yd)}で和えられてるとき、 xは事例の素性ベクトル、yはクラスラベルである。正例、負例 をそれぞれ1,-1とする。 ⚫分離平面の方向ベクトルwと切片bをパラメータとして = ∗ − ≥

    0:正クラス < 0:負クラス
  9. マージン最大化(2次元空間)

  10. 多値分類器 1. One-versus-rest法 2. ペアワイズ法