Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第8回.pdf

miyanishi
March 04, 2013
99

 第8回.pdf

コスト最小法と確率モデルの結合による形態素解析

miyanishi

March 04, 2013
Tweet

Transcript

  1. 最適解の選択手法(1)  制約・優先規則を使用(人手)  言語現象を規則などの形に抽象化する  長所  記述量や理解の容易さにおいて効率が良い 

    制約・優先規則=経験の蓄積=有益な資源  短所  記述者の考慮外の現象は捕えきれない  改善策  例外的な現象を規則に追加・修正し、精度を上げる  規則が複雑=保守や管理が人間の手に負えない  追加・修正による影響が予想不能=精度向上が困難に! 2
  2. 提案手法の概要  目的  未開拓な分野で高い解析精度を得る  小規模品詞タグ付きコーパスで高い精度の解析ができる  概要 

    制約・優先規則と確率パラメータを統合する  有益な言語資源である制約や優先規則  小規模品詞タグ付きコーパスで学習した確率パラメータ 4
  3. 本研究の最適解選択手法  人手による制約・優先規則  コスト最小法を使用  品詞タグ付きコーパスから得た確率パラメータ  品詞bi-gramモデルに基づく統計的学習に着目 

    コスト・パラメータの与え方が異なる  どちらも同じアルゴリズムで解くことが可能  ヴィテルビ・アルゴリズムで最適解を選択 5
  4. 品詞bi-gramモデル  品詞 の次に品詞−1 が現れる確率: −1 [?]  品詞 のとき形態素

    が現れる確率:( | )  ↑の確率の積が最大になるパスを優先 P 1 ⋯ ≅ ( | ) −1 i=1  品詞タグ付きコーパスなら最尤推定を使用  名詞が100回出現-直後に判定詞が30回出現  名詞が100回出現-その内「さかな」が5回出現 8
  5. 確率パラメータへ変換  確率パラメータの逆数の対数→コスト  ↑の処理の逆  指数関数を用いてコストを確率パラメータに変換  問題点 

    コスト=比較的大きな値(修正しやすいように)  直接変換すると直感と異なる  改善策  スケールを変換  最大コストが最小の確率になるように係数を決定  係数:確率係数 確率パラメータ 13
  6. 統合~コストへ変換  確率パラメータへ変換  の最適値は実験で  統合  λ =0.25

     人手:コーパス学習 =1:3  コストへ変換  ChaSenのコスト範囲 =1~255 15
  7. 実験  人手によるコスト  ChaSen付随の定義ファイル  品詞タグ付きコーパス  日経新聞94年版:1000文/3万形態素 

    ATR経路探索課題:30対話/8万7千形態素  Cross Validation(新聞:10fold 対話:30fold)  学習モデルの評価法(解析の妥当性を検証)  別名:交差検定  標本データを分割し、一部を解析&残りで解析のテスト 16
  8. 実験  手法:3種類  統合手法で解析  人手によるコストのみで解析  コーパスからの学習結果のみで解析 

    コーパス:2種類  日経新聞(書き言葉)  ATR経路探索課題(話し言葉)  各種パラメータ  確率化係数 :3~11  統合比率λ :0.1~0.001 17
  9. 実験結果  日経新聞を使用  横軸: 文数(学習時) 30形態素/一文  縦軸: 解析精度

    (再現率と適合率)  評価基準: 単語分割、読み、 品詞情報の3つ 全てが正しい 18
  10. 実験結果  ATR経路探索課題  横軸: 対話数(学習時) 3千形態素/一文  縦軸: 解析精度

    (再現率と適合率)  評価基準: 単語分割、読み、 品詞情報の3つ 全てが正しい 19
  11. 応用  適用分野を限定して形態素解析を行う場合  大規模品詞タグ付きコーパスがあれば精度UP!  未開拓な分野では大量のコーパスはない  形態素解析の精度が悪い=品詞タグ付け作業は難しい 

    本研究の手法を用いる  小規模品詞タグ付きコーパスで高精度の解析ができる =品詞タグ付きコーパスの作成が容易になる  形態素解析精度を徐々に向上させることができる 21