Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第8回.pdf

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for miyanishi miyanishi
March 04, 2013
110

 第8回.pdf

コスト最小法と確率モデルの結合による形態素解析

Avatar for miyanishi

miyanishi

March 04, 2013
Tweet

Transcript

  1. 最適解の選択手法(1)  制約・優先規則を使用(人手)  言語現象を規則などの形に抽象化する  長所  記述量や理解の容易さにおいて効率が良い 

    制約・優先規則=経験の蓄積=有益な資源  短所  記述者の考慮外の現象は捕えきれない  改善策  例外的な現象を規則に追加・修正し、精度を上げる  規則が複雑=保守や管理が人間の手に負えない  追加・修正による影響が予想不能=精度向上が困難に! 2
  2. 提案手法の概要  目的  未開拓な分野で高い解析精度を得る  小規模品詞タグ付きコーパスで高い精度の解析ができる  概要 

    制約・優先規則と確率パラメータを統合する  有益な言語資源である制約や優先規則  小規模品詞タグ付きコーパスで学習した確率パラメータ 4
  3. 本研究の最適解選択手法  人手による制約・優先規則  コスト最小法を使用  品詞タグ付きコーパスから得た確率パラメータ  品詞bi-gramモデルに基づく統計的学習に着目 

    コスト・パラメータの与え方が異なる  どちらも同じアルゴリズムで解くことが可能  ヴィテルビ・アルゴリズムで最適解を選択 5
  4. 品詞bi-gramモデル  品詞 の次に品詞−1 が現れる確率: −1 [?]  品詞 のとき形態素

    が現れる確率:( | )  ↑の確率の積が最大になるパスを優先 P 1 ⋯ ≅ ( | ) −1 i=1  品詞タグ付きコーパスなら最尤推定を使用  名詞が100回出現-直後に判定詞が30回出現  名詞が100回出現-その内「さかな」が5回出現 8
  5. 確率パラメータへ変換  確率パラメータの逆数の対数→コスト  ↑の処理の逆  指数関数を用いてコストを確率パラメータに変換  問題点 

    コスト=比較的大きな値(修正しやすいように)  直接変換すると直感と異なる  改善策  スケールを変換  最大コストが最小の確率になるように係数を決定  係数:確率係数 確率パラメータ 13
  6. 統合~コストへ変換  確率パラメータへ変換  の最適値は実験で  統合  λ =0.25

     人手:コーパス学習 =1:3  コストへ変換  ChaSenのコスト範囲 =1~255 15
  7. 実験  人手によるコスト  ChaSen付随の定義ファイル  品詞タグ付きコーパス  日経新聞94年版:1000文/3万形態素 

    ATR経路探索課題:30対話/8万7千形態素  Cross Validation(新聞:10fold 対話:30fold)  学習モデルの評価法(解析の妥当性を検証)  別名:交差検定  標本データを分割し、一部を解析&残りで解析のテスト 16
  8. 実験  手法:3種類  統合手法で解析  人手によるコストのみで解析  コーパスからの学習結果のみで解析 

    コーパス:2種類  日経新聞(書き言葉)  ATR経路探索課題(話し言葉)  各種パラメータ  確率化係数 :3~11  統合比率λ :0.1~0.001 17
  9. 実験結果  日経新聞を使用  横軸: 文数(学習時) 30形態素/一文  縦軸: 解析精度

    (再現率と適合率)  評価基準: 単語分割、読み、 品詞情報の3つ 全てが正しい 18
  10. 実験結果  ATR経路探索課題  横軸: 対話数(学習時) 3千形態素/一文  縦軸: 解析精度

    (再現率と適合率)  評価基準: 単語分割、読み、 品詞情報の3つ 全てが正しい 19
  11. 応用  適用分野を限定して形態素解析を行う場合  大規模品詞タグ付きコーパスがあれば精度UP!  未開拓な分野では大量のコーパスはない  形態素解析の精度が悪い=品詞タグ付け作業は難しい 

    本研究の手法を用いる  小規模品詞タグ付きコーパスで高精度の解析ができる =品詞タグ付きコーパスの作成が容易になる  形態素解析精度を徐々に向上させることができる 21