Upgrade to Pro — share decks privately, control downloads, hide ads and more …

B3 ゼミ

miyanishi
January 28, 2013
110

 B3 ゼミ

miyanishi

January 28, 2013
Tweet

Transcript

  1. BOW(Bag Of Words)  形態素の頻度付集合  形態素解析の応用の一つ  BOWの応用分野 

    情報検索  テキストマイニング  文書分類 etc・・・  テキストを数値ベクトルで表現
  2. 表記の「ずれ」について  何がダメなのか?  形態素解析を用いた全文検索で漏れができる  (例)「成田」で検索しても「成田空港」は出ない  省略表記のテキスト間類似度が正しく求まらない 

    (例)京大と京都大学のテキスト間類似度が0  最適な単位とは?  分野によって様々!  工学分野においても統一することは不可能
  3. 最小コスト法  形態素解析器には最小コスト法を使用  形態素解析の出力:y = , 1 , 2

    , ⋯ ,  各経路yについてのコスト = + (, 1 ) || =1 + ( , +1 ) −1 =1 + ,  最小コストの = ∈ [()]
  4. マルコフ確率場  確率モデル ; = exp⁡ [−(′) ∙ ] exp⁡

    [−(′) ∙ ] ′∈  Θは逆温度定数  ; は全候補Yの中でどれだけ出力しやすいか  ; を大きくするyはコスト最小法の解に  Θが大きいと→最適解を重要視する  Θが小さいと→出力確率P(y|x)は均一に
  5. 周辺化  形態素列yをBOWベクトルに変換するΦ Φ = { 1 , , ⋯

    , ( , )} ∈ ℝ  f(ω,y):系列yに単語ωが出現する回数  Lは総単語断り数  入力xに対するF(x)∈ℝは・・・  全系列y∈Y(x)に対応するΦの期待値を取る  最終的なBOWベクトル=G(x;Θ)
  6. 周辺化まとめ  全候補の列挙  可能なすべての分割方法を考慮  頻度の一般化  コストを考慮した分割 

    ノイズの影響が抑えられる  Θによる制御  ユーザがパラメータのバランスをいじれる