長岡技術科学大学 B4 三上侑城文献紹介 2015年7月14日結合価パターンを用いた仮名漢字変換候補の選択自然言語処理研究室1
View Slide
出典結合価パターンを用いた仮名漢字変換候補の選択吉田 真司 ,徳久 雅人 ,村上 仁一 ,池原 悟第10回年次大会 (2004)2
概要単語連鎖確率を用いた、かな漢字変換では同音異義語での誤変換が問題。結合価パターンが作成されたことにより、意味解析の構築が実現した。本稿は単語連鎖確率に結合価パターンを用い、その有効性を示した。3
かな漢字変換アルゴリズム単語連鎖確率を用いた、かな漢字変換は、変換候補を大量に出力することができる。結合値パターンを用いると、意味的な適切性が判断できる。両方を統合したアルゴリズムを作成。4
かな漢字変換アルゴリズム手順1:候補作成手順2:不適切な文法の削除手順3:不適切な意味の削除手順4:慣用表現の優先手順5:補欠選択5
変換候補の作成6入力文の単語列で隣接する単語間の連鎖確率を計算し、出現確率を求め、高い順から候補とする。入力されたひらがな文に対して、かな漢字変換を行い、出現確率の高い上位32文の候補を作成。
不適切な文法の削除文法的に不適切な文の削除を行う。SLT-JAWSを用いた形態素解析を行い、エラー時の出力を利用して、品詞間の接続に誤りのある候補分を削除する。7
不適切な意味の削除候補文の全ての格要素と用言の間の意味的結束性が正しくない文の削除を行う。任意格が存在するために全ての格要素の結束性が確認できない。そこで、任意格を判定するために、任意格のルールベースを用いる。8
慣用表現の優先日常的な文では、慣用表現の読みと同じになるような漢字の使い方はしない。そこで、慣用表現のパターンが当てはまる候補文は、優先的に選択する。9
評価実験の目的と方法10実験1:本手法の確認及び、任意角のデータベース作成を目的実験2:同音異義語に対する結合価パターンの効果調査を目的実験3:実際の文に対する結合価パターンの効果の調査を目的
評価準備11評価は「正解文との完全一致を正解とする基準」と、「人手で正解文と見比べて判定する基準」の2つ人手での判断を行う理由は、漢字が絶対的には定まらないことにある。(例)復習に時間を掛ける。復讐に時間を掛ける。
実験結果アルゴリズムの各段階での効果を比べる。手順ごとに正解率を集計し、完全一致と人手による判断の結果を示す。12
実験1の結果EDRコーパスの単文集を対象13
実験2の結果(動詞)IPALにある多義のあるものを対象14
実験2の結果(名詞)IPALにある多義のあるものを対象15
実験3の結果毎日新聞95年度記事の単文集を対象16
考察実験3の人手判断において、手順4までにより32個の候補が全て削除された件数の割合が36%であった。従って手順4までは64%の判断結果を出力したことになり、候補を正しく選択することの適合率(正解数/出力数)は86%となり、手順1のみの64%より高い結果である。17
考察再現率は「~32位」まで見ても、手順4までは60%であるが、手順1のみは91%もある。これらの関係から、「単語連鎖確率による候補作成」と、「統語的・意味的判断による候補選択」の統合アルゴリズムは全体において両者の利点が生かされていると定量的に結論づけられる。18
まとめ単語連鎖確率を用いたかな漢字変換の候補文に対して、結合価パターンを用いた候補選択を行うという総合的なかな漢字変換アルゴリズムを提案した。実験結果より、1位の正解率はそれぞれ12%,15%,9%の向上が見られ、本アルゴリズムの有効性が確認できた。19
ご視聴ありがとうございました20