長岡技術科学大学 B4 三上侑城文献紹介 2015年4月15日日本語形態素解析における未知語処理の一手法自然言語処理研究室1
View Slide
出典日本語形態素解析における未知語処理の一手法ー既知語から派生した表記と未知オノマトペの処理ー笹野 遼平, 黒橋 禎夫, 奥村 学自然言語処理 Vol.21 No.6 p.1183-1205(2014)2
概要日本語形態素解析における効率的な未知語処理手法の提案既知語から派生ルールと未知オノマトペ認識のためのパターンを利用Webから収集した10万文を対象に実験をおこなった3
形態素解析の誤り要因辞書に含まれていない語・表記の存在(未知語の存在)未知語を大きく2つに分けてみると・既知語から派生した未知語・既知語と関係を持たない未知語となる4
未知語の分類5
従来の形態素解析従来の未知語処理の研究は・事前に未知語をコーパスから自動取得・未知語を形態素解析時に自動認識が有名これらは全体を網羅する未知語処理が目的6
本論文の提案未知語はタイプにより適切な処理方法が必要と考える既知語から派生したタイプなら、既知語と関連付けて解析を行なう純粋な未知語タイプなら、コーパス中の複数の用例を考慮し判断7
提案手法既存の形態素解析システムを改良派生語に相当する形態素ノード生成のルールの導入未知オノマトペに相当する形態素ノード生成のルール導入8
提案システムの概要9
派生語の自動認識派生した語で対象とする未知語は・濁音化した語・長音記号による置換を含む語・小書き文字による置換を含む語・長音記号の挿入を含む語・小書き文字の挿入を含む語10
濁音化した語濁音化した表記の多くは辞書に無い例:「こたつ」と「ごたつ」初頭が清音である名詞は一定の制約のもと、初頭が濁音化したものを形態素ラティスに追加する11
長音記号・小書き文字の置換例:「おはよう」→「おはよー」「ー」,「~」の直前の文字が以下の場合、長音記号を置換し、形態素ラティスに追加する12
長音記号・小書き文字の置換例:「おはよう」→「ぉはよぅ」「ぁ」「ぃ」「ぅ」「ぇ」「ぉ」「ヵ」「ゎ」があった時、「あ」「い」「う」「え」「お」「か」「わ」に置換し、形態素ラティスに追加する2つを組み合わせると、「ぉはよー」という文字は「おはよう」にできる。13
長音記号・小書き文字の挿入例:「冷たい」→「冷たーーーい」→「冷たぁぁぁい」「ー」,「~」が出現した場合はそれらを削除して形態素ラティスに追加する「ぁ」「ぃ」「ぅ」「ぇ」「ぉ」 が出現し、かつその直前の文の母音が同じ場合はそれらを削除して形態素ラティスに追加する14
未知オノマトペの自動認識例:「わくわく」などの擬音語・擬声語オノマトペは大きく分けて・同じ音が2度反復される反復型・反復を含まない非反復型になる15
反復型オノマトペ例:「ぐじょぐじょ」2~4文字までの平仮名またはカタカナが反復されている場合、形態素ラティスに追加する16
非反復型オノマトペ例:「ぐっちょり」パターンを導入し、パターンに従う文字列の場合のみ形態素ラティスに追加する17
非反復型オノマトペ以下のパターンにおいて・H:平仮名 ・K:カタカナ18
実験結果未知語タイプ(各100個)ごとの再現率とUniDicによるカバー率19
実験結果未知語解析の精度・解析速度の測定Webから収集した10万文を使用した20
21
まとめ効率的な未知語処理手法を提案した10万文を対象にテストした結果、既存のものに提案手法を導入したところ、新たに約4500個の未知語が認識できた悪化した箇所は約80個であり、ほとんど悪影響を与えていないことが確認できた22
ご視聴ありがとうございました23