Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第7回.pdf

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for miyanishi miyanishi
February 26, 2013
95

 第7回.pdf

HMMによる日本語形態素解析システムのパラメータ学習

Avatar for miyanishi

miyanishi

February 26, 2013
Tweet

Transcript

  1. 関連研究 3  コスト値を機械学習  英語  HMMで求める⇒精度96%  日本語

     解析済みコーパスが無い分野では学習できない  文法が統一されていないので利用できないこともある
  2. HMMの定式化 6  ある入力文字列Lから得られる単語列 1, = 1 , 2 ,

    ⋯ ,  品詞系列 t = 1 , 2 , ⋯ ,  入力列Lに対する確率 P L = (1,+1 ) 1,+1∈ = ( |−1 ) +1 =1 0,+1 1,+1∈ 0 :文頭 n+1 :文末
  3. HMMノードの作成 11  JUMANの文法  品詞、品詞細分類、活用型、活用形、表層の基本形  原則:HMMのノードは品詞細分類を採用  例外

     前方の単語が活用する:  前方から連接確率を計算⇒品詞細分類まで観測  後方から連接確率を計算⇒活用形まで観測  助詞・助動詞:  表層語まで区別して個別のノード
  4. 注意 12  未定義後の扱い  サ変名詞として扱う(JUMANと同じ)  各連接確率を再評価する際には使用しない  確率の最小値

     コーパス中に1回もその規則や単語が出ない =確率は0である  コスト値に変換するため低い確率値を与える
  5. 実験(初期値獲得実験) 13  初期値:連接確率&単語確率  学習に大きな影響を与える  初期値の獲得実験の手法  A

    EDR解析済みコーパスを用いる  直接変換が容易でないため、分かち書き情報のみ使用  B 社説をJUMANに解析させた結果を用いる  学習に用いるコーパスと同じものを使用  C 社説を人手によって解析した結果を用いる  A,Bよりデータが少量(300文-6700形態素)  D 現在のJUMANのコストを直接変換  JUMANの精度と等価
  6. 実験(初期値獲得実験) 14  評価  朝日新聞解析済み社説2種類を使用  300文(6700形態素)と200文(5000形態素)  300文は手法Cで初期値として使用

     正誤の判断  一意に正解を記述している解析済みコーパスと比較  品詞細分類又は活用形まで観測  一つでも異なれば不正解  1形態素で正解を2つに分割 ⇒誤り数2 EDR以外の 初期値獲得方法を使用する
  7. 実験(学習実験) 16  Dの結果が悪い  学習前はJUMANと同程度の解析精度有  第1候補以外の候補に誤った例が多数  第1候補以外には統計的に合致した順序を保証しない

     学習することで正解だった第一候補まで確率値が下がる  Bの社説3年分の学習結果も悪い  現在のJUMANの誤りが学習によって強化  第2候補以降に内在していたものが強化された  JUMANのコスト値の与え方の悪さが響く  学習による自動修正は不可
  8. まとめ 18  現在のJUMANより正解率が少し向上  以下の2点がHMM学習に必要  最適なパラメータ値は分野によって異なる ⇒対象分野の解析済みコーパスが少量必要である 

    解析済みコーパスは量を増やすより 誤りの種類の絶対数が少ないことが大切である  今後の課題  モデルのチューニングを行う  様々な分野に対する実験を行う