Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介_1_日本語形態素解析における未知語処理の一手法

 文献紹介_1_日本語形態素解析における未知語処理の一手法

MIKAMI-YUKI

April 15, 2015
Tweet

More Decks by MIKAMI-YUKI

Other Decks in Education

Transcript

  1. 長岡技術科学大学 B4 三上侑城
    文献紹介 2015年4月15日
    日本語形態素解析における
    未知語処理の一手法
    自然言語処理研究室
    1

    View Slide

  2. 出典
    日本語形態素解析における未知語処理の一手法
    ー既知語から派生した表記と未知オノマトペの処理ー
    笹野 遼平, 黒橋 禎夫, 奥村 学
    自然言語処理 Vol.21 No.6 p.1183-1205
    (2014)
    2

    View Slide

  3. 概要
    日本語形態素解析における効率的な
    未知語処理手法の提案
    既知語から派生ルールと未知オノマトペ
    認識のためのパターンを利用
    Webから収集した10万文を対象に実験
    をおこなった
    3

    View Slide

  4. 形態素解析の誤り要因
    辞書に含まれていない語・表記の存在
    (未知語の存在)
    未知語を大きく2つに分けてみると
    ・既知語から派生した未知語
    ・既知語と関係を持たない未知語
    となる
    4

    View Slide

  5. 未知語の分類
    5

    View Slide

  6. 従来の形態素解析
    従来の未知語処理の研究は
    ・事前に未知語をコーパスから自動取得
    ・未知語を形態素解析時に自動認識
    が有名
    これらは全体を網羅する未知語処理が
    目的
    6

    View Slide

  7. 本論文の提案
    未知語はタイプにより適切な処理方法が
    必要と考える
    既知語から派生したタイプなら、既知語
    と関連付けて解析を行なう
    純粋な未知語タイプなら、コーパス中の
    複数の用例を考慮し判断
    7

    View Slide

  8. 提案手法
    既存の形態素解析システムを改良
    派生語に相当する形態素ノード生成の
    ルールの導入
    未知オノマトペに相当する形態素ノード
    生成のルール導入
    8

    View Slide

  9. 提案システムの概要
    9

    View Slide

  10. 派生語の自動認識
    派生した語で対象とする未知語は
    ・濁音化した語
    ・長音記号による置換を含む語
    ・小書き文字による置換を含む語
    ・長音記号の挿入を含む語
    ・小書き文字の挿入を含む語
    10

    View Slide

  11. 濁音化した語
    濁音化した表記の多くは辞書に無い
    例:「こたつ」と「ごたつ」
    初頭が清音である名詞は一定の制約の
    もと、初頭が濁音化したものを形態素ラ
    ティスに追加する
    11

    View Slide

  12. 長音記号・小書き文字の置換
    例:「おはよう」→「おはよー」
    「ー」,「~」の直前の文字が以下の場合、
    長音記号を置換し、形態素ラティスに
    追加する
    12

    View Slide

  13. 長音記号・小書き文字の置換
    例:「おはよう」→「ぉはよぅ」
    「ぁ」「ぃ」「ぅ」「ぇ」「ぉ」「ヵ」「ゎ」があった時、
    「あ」「い」「う」「え」「お」「か」「わ」に置換
    し、形態素ラティスに追加する
    2つを組み合わせると、
    「ぉはよー」という文字は「おはよう」に
    できる。
    13

    View Slide

  14. 長音記号・小書き文字の挿入
    例:「冷たい」→「冷たーーーい」
    →「冷たぁぁぁい」
    「ー」,「~」が出現した場合はそれらを
    削除して形態素ラティスに追加する
    「ぁ」「ぃ」「ぅ」「ぇ」「ぉ」 が出現し、かつその
    直前の文の母音が同じ場合はそれらを
    削除して形態素ラティスに追加する
    14

    View Slide

  15. 未知オノマトペの自動認識
    例:「わくわく」などの擬音語・擬声語
    オノマトペは大きく分けて
    ・同じ音が2度反復される反復型
    ・反復を含まない非反復型
    になる
    15

    View Slide

  16. 反復型オノマトペ
    例:「ぐじょぐじょ」
    2~4文字までの平仮名またはカタカナ
    が反復されている場合、形態素ラティス
    に追加する
    16

    View Slide

  17. 非反復型オノマトペ
    例:「ぐっちょり」
    パターンを導入し、パターンに従う文字列
    の場合のみ形態素ラティスに追加する
    17

    View Slide

  18. 非反復型オノマトペ
    以下のパターンにおいて
    ・H:平仮名 ・K:カタカナ
    18

    View Slide

  19. 実験結果
    未知語タイプ(各100個)ごとの再現率と
    UniDicによるカバー率
    19

    View Slide

  20. 実験結果
    未知語解析の精度・解析速度の測定
    Webから収集した10万文を使用した
    20

    View Slide

  21. 21

    View Slide

  22. まとめ
    効率的な未知語処理手法を提案した
    10万文を対象にテストした結果、既存の
    ものに提案手法を導入したところ、新たに
    約4500個の未知語が認識できた
    悪化した箇所は約80個であり、ほとんど
    悪影響を与えていないことが確認できた
    22

    View Slide

  23. ご視聴ありがとうございました
    23

    View Slide