Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第7回.pdf

miyanishi
February 26, 2013
84

 第7回.pdf

HMMによる日本語形態素解析システムのパラメータ学習

miyanishi

February 26, 2013
Tweet

Transcript

  1. 関連研究 3  コスト値を機械学習  英語  HMMで求める⇒精度96%  日本語

     解析済みコーパスが無い分野では学習できない  文法が統一されていないので利用できないこともある
  2. HMMの定式化 6  ある入力文字列Lから得られる単語列 1, = 1 , 2 ,

    ⋯ ,  品詞系列 t = 1 , 2 , ⋯ ,  入力列Lに対する確率 P L = (1,+1 ) 1,+1∈ = ( |−1 ) +1 =1 0,+1 1,+1∈ 0 :文頭 n+1 :文末
  3. HMMノードの作成 11  JUMANの文法  品詞、品詞細分類、活用型、活用形、表層の基本形  原則:HMMのノードは品詞細分類を採用  例外

     前方の単語が活用する:  前方から連接確率を計算⇒品詞細分類まで観測  後方から連接確率を計算⇒活用形まで観測  助詞・助動詞:  表層語まで区別して個別のノード
  4. 注意 12  未定義後の扱い  サ変名詞として扱う(JUMANと同じ)  各連接確率を再評価する際には使用しない  確率の最小値

     コーパス中に1回もその規則や単語が出ない =確率は0である  コスト値に変換するため低い確率値を与える
  5. 実験(初期値獲得実験) 13  初期値:連接確率&単語確率  学習に大きな影響を与える  初期値の獲得実験の手法  A

    EDR解析済みコーパスを用いる  直接変換が容易でないため、分かち書き情報のみ使用  B 社説をJUMANに解析させた結果を用いる  学習に用いるコーパスと同じものを使用  C 社説を人手によって解析した結果を用いる  A,Bよりデータが少量(300文-6700形態素)  D 現在のJUMANのコストを直接変換  JUMANの精度と等価
  6. 実験(初期値獲得実験) 14  評価  朝日新聞解析済み社説2種類を使用  300文(6700形態素)と200文(5000形態素)  300文は手法Cで初期値として使用

     正誤の判断  一意に正解を記述している解析済みコーパスと比較  品詞細分類又は活用形まで観測  一つでも異なれば不正解  1形態素で正解を2つに分割 ⇒誤り数2 EDR以外の 初期値獲得方法を使用する
  7. 実験(学習実験) 16  Dの結果が悪い  学習前はJUMANと同程度の解析精度有  第1候補以外の候補に誤った例が多数  第1候補以外には統計的に合致した順序を保証しない

     学習することで正解だった第一候補まで確率値が下がる  Bの社説3年分の学習結果も悪い  現在のJUMANの誤りが学習によって強化  第2候補以降に内在していたものが強化された  JUMANのコスト値の与え方の悪さが響く  学習による自動修正は不可
  8. まとめ 18  現在のJUMANより正解率が少し向上  以下の2点がHMM学習に必要  最適なパラメータ値は分野によって異なる ⇒対象分野の解析済みコーパスが少量必要である 

    解析済みコーパスは量を増やすより 誤りの種類の絶対数が少ないことが大切である  今後の課題  モデルのチューニングを行う  様々な分野に対する実験を行う