Upgrade to Pro — share decks privately, control downloads, hide ads and more …

B3 ゼミ

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for miyanishi miyanishi
January 28, 2013
120

 B3 ゼミ

Avatar for miyanishi

miyanishi

January 28, 2013
Tweet

Transcript

  1. BOW(Bag Of Words)  形態素の頻度付集合  形態素解析の応用の一つ  BOWの応用分野 

    情報検索  テキストマイニング  文書分類 etc・・・  テキストを数値ベクトルで表現
  2. 表記の「ずれ」について  何がダメなのか?  形態素解析を用いた全文検索で漏れができる  (例)「成田」で検索しても「成田空港」は出ない  省略表記のテキスト間類似度が正しく求まらない 

    (例)京大と京都大学のテキスト間類似度が0  最適な単位とは?  分野によって様々!  工学分野においても統一することは不可能
  3. 最小コスト法  形態素解析器には最小コスト法を使用  形態素解析の出力:y = , 1 , 2

    , ⋯ ,  各経路yについてのコスト = + (, 1 ) || =1 + ( , +1 ) −1 =1 + ,  最小コストの = ∈ [()]
  4. マルコフ確率場  確率モデル ; = exp⁡ [−(′) ∙ ] exp⁡

    [−(′) ∙ ] ′∈  Θは逆温度定数  ; は全候補Yの中でどれだけ出力しやすいか  ; を大きくするyはコスト最小法の解に  Θが大きいと→最適解を重要視する  Θが小さいと→出力確率P(y|x)は均一に
  5. 周辺化  形態素列yをBOWベクトルに変換するΦ Φ = { 1 , , ⋯

    , ( , )} ∈ ℝ  f(ω,y):系列yに単語ωが出現する回数  Lは総単語断り数  入力xに対するF(x)∈ℝは・・・  全系列y∈Y(x)に対応するΦの期待値を取る  最終的なBOWベクトル=G(x;Θ)
  6. 周辺化まとめ  全候補の列挙  可能なすべての分割方法を考慮  頻度の一般化  コストを考慮した分割 

    ノイズの影響が抑えられる  Θによる制御  ユーザがパラメータのバランスをいじれる