Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択

 文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択

MIKAMI-YUKI

July 13, 2015
Tweet

More Decks by MIKAMI-YUKI

Other Decks in Education

Transcript

  1. 長岡技術科学大学 B4 三上侑城
    文献紹介 2015年7月14日
    結合価パターンを用いた
    仮名漢字変換候補の選択
    自然言語処理研究室
    1

    View Slide

  2. 出典
    結合価パターンを用いた仮名漢字変換
    候補の選択
    吉田 真司 ,徳久 雅人 ,村上 仁一 ,池
    原 悟
    第10回年次大会 (2004)
    2

    View Slide

  3. 概要
    単語連鎖確率を用いた、かな漢字変換
    では同音異義語での誤変換が問題。
    結合価パターンが作成されたことにより、
    意味解析の構築が実現した。
    本稿は単語連鎖確率に結合価パターン
    を用い、その有効性を示した。
    3

    View Slide

  4. かな漢字変換アルゴリズム
    単語連鎖確率を用いた、かな漢字変換
    は、変換候補を大量に出力することがで
    きる。
    結合値パターンを用いると、意味的な適
    切性が判断できる。
    両方を統合したアルゴリズムを作成。
    4

    View Slide

  5. かな漢字変換アルゴリズム
    手順1:候補作成
    手順2:不適切な文法の削除
    手順3:不適切な意味の削除
    手順4:慣用表現の優先
    手順5:補欠選択
    5

    View Slide

  6. 変換候補の作成
    6
    入力文の単語列で隣接する単語
    間の連鎖確率を計算し、出現確率
    を求め、高い順から候補とする。
    入力されたひらがな文に対して、
    かな漢字変換を行い、出現確率の
    高い上位32文の候補を作成。

    View Slide

  7. 不適切な文法の削除
    文法的に不適切な文の削除を行う。
    SLT-JAWSを用いた形態素解析を行い、
    エラー時の出力を利用して、品詞間の接
    続に誤りのある候補分を削除する。
    7

    View Slide

  8. 不適切な意味の削除
    候補文の全ての格要素と用言の間の意
    味的結束性が正しくない文の削除を行う。
    任意格が存在するために全ての格要素
    の結束性が確認できない。
    そこで、任意格を判定するために、任意
    格のルールベースを用いる。
    8

    View Slide

  9. 慣用表現の優先
    日常的な文では、慣用表現の読みと同
    じになるような漢字の使い方はしない。
    そこで、慣用表現のパターンが当てはまる
    候補文は、優先的に選択する。
    9

    View Slide

  10. 評価実験の目的と方法
    10
    実験1:本手法の確認及び、任
    意角のデータベース作成を目的
    実験2:同音異義語に対する結
    合価パターンの効果調査を目的
    実験3:実際の文に対する結合
    価パターンの効果の調査を目的

    View Slide

  11. 評価準備
    11
    評価は「正解文との完全一致を正
    解とする基準」と、「人手で正解文と
    見比べて判定する基準」の2つ
    人手での判断を行う理由は、漢字
    が絶対的には定まらないことにある。
    (例)復習に時間を掛ける。
    復讐に時間を掛ける。

    View Slide

  12. 実験結果
    アルゴリズムの各段階での効果を比べる。
    手順ごとに正解率を集計し、完全一致
    と人手による判断の結果を示す。
    12

    View Slide

  13. 実験1の結果
    EDRコーパスの単文集を対象
    13

    View Slide

  14. 実験2の結果(動詞)
    IPALにある多義のあるものを対象
    14

    View Slide

  15. 実験2の結果(名詞)
    IPALにある多義のあるものを対象
    15

    View Slide

  16. 実験3の結果
    毎日新聞95年度記事の単文集を対象
    16

    View Slide

  17. 考察
    実験3の人手判断において、手順4ま
    でにより32個の候補が全て削除された
    件数の割合が36%であった。
    従って手順4までは64%の判断結果を
    出力したことになり、候補を正しく選択す
    ることの適合率(正解数/出力数)は
    86%となり、手順1のみの64%より高
    い結果である。
    17

    View Slide

  18. 考察
    再現率は「~32位」まで見ても、手順4
    までは60%であるが、手順1のみは
    91%もある。
    これらの関係から、「単語連鎖確率によ
    る候補作成」と、「統語的・意味的判断
    による候補選択」の統合アルゴリズムは
    全体において両者の利点が生かされてい
    ると定量的に結論づけられる。
    18

    View Slide

  19. まとめ
    単語連鎖確率を用いたかな漢字変換の
    候補文に対して、結合価パターンを用い
    た候補選択を行うという総合的なかな漢
    字変換アルゴリズムを提案した。
    実験結果より、1位の正解率はそれぞれ
    12%,15%,9%の向上が見られ、本ア
    ルゴリズムの有効性が確認できた。
    19

    View Slide

  20. ご視聴ありがとうございました
    20

    View Slide