Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2016年_年次大会_発表資料

 2016年_年次大会_発表資料

MIKAMI-YUKI

March 22, 2016
Tweet

More Decks by MIKAMI-YUKI

Other Decks in Education

Transcript

  1. 長岡技術科学大学
    山本和英, 三上侑城
    語義曖昧性解消としての
    かな漢字換言システムの開発
    1

    View Slide

  2. 研究背景・目的(1/2)
    2
     言語処理において、テキストの解析を行う際に
    語義の曖昧性が問題となる時がある。
    (例)日英翻訳
     その曖昧性を解消することを語義曖昧性解消
    と呼び、古くから様々な手法が提案されてきた。
    貰った犬を飼う
    I buy the dog which I got.
    貰った犬をかう
    貰った犬をかう

    View Slide

  3. 研究背景・目的(2/2)
     しかし現状では...
    3
    公開されている日本語の
    語義曖昧性解消ツールは無い
    語義曖昧性解消ツールの
    作成を目的とした。

    View Slide

  4. 語義曖昧性解消の対象
     本研究では、曖昧さを出す要因の一つである
    “ひらがな”に着目し、これを適切な“漢字”に
    換言することで語義曖昧性解消をおこなう。
    4
    切符をかう
    切符を買う
    切符を飼う


    View Slide

  5. 換言候補の収集(1/2)
    5
     大規模コーパス
    (BCCWJ)の中で出現
    する数
     同じ語義の語が記載さ
    れている辞書

    View Slide

  6. 換言候補の収集(2/2)
     先に候補を集めておくことで、対象を絞り、
    正確に換言できないものを除外。
    → 精度の向上
     ひらがなの頻度20未満はノイズとして除外し、
    頻度1万以上はひらがなが正しいとした。
    6
    頻度20未満 頻度1万以上
    ひらがな頻度20~9999
    対象にしない
    (ノイズ)
    換言対象 ひらがなを
    正解とする

    View Slide

  7. かな漢字換言手法
    ① 入力文から換言対象のひらがなを検出
    ② 文脈から手がかりとする語を選定
    ③ 漢字候補と手がかり語との共起度を計算
    ④ 計算結果の値によって漢字を選出
    7

    View Slide

  8. かな漢字換言の例
    8




    View Slide

  9. ① 換言対象の検出
     換言候補の収集で集めたひらがなが入力
    文に入っていたら、換言プロセスに入る。
     ただし、漢字の候補が1つのみのものは、
    このプロセスを通さず、その漢字に決定。
    9

    View Slide

  10. ② 手がかり語の選定
    10
     対象のひらがなから前後4単語を検索し、
    情報を持った語を品詞で選定する。
    ・ひらがなが動詞 → 名詞 の語を選択
    ・ひらがなが名詞 → 動詞 と 名詞 の語を選択

    View Slide

  11.  文章において、この語が出た時には、通常
    この漢字が使われるという(共起)情報を
    使用。
     特定の語との共起度合を数値化するため、
    自己相互情報量(PMI)を使用し、出力
    値が最大の漢字を選択。
    ③ 自己相互情報量
    11

    View Slide

  12.  誤答を減らすために閾値を設ける。閾値を決め
    るため、換言処理を行いその結果を考察した。
     間違いを1割以下にするため、閾値を5にした。
    ④ 閾値の設定
    12
    PMI値 PMI値

    View Slide

  13.  さらなる精度向上のため、作成したかな漢字
    換言器で、対象のひらがなが入った文章を換
    言処理。
     その結果をひらがな毎に20個判断し、16個
    (8割)以上正解できないものは対象から除外。
     ただし、漢字候補が1つしかないものは18個
    (9割)以上とした。
    換言できないものの除外
    13

    View Slide

  14.  換言対象となるひらがな全てに対し、かな漢字
    換言を行い、その時の正解率を求めた。
     また各ひらがなにおける総頻度を求めた。
    実験と結果
    14
    漢字候補 対応数 テスト数 正解数 正解率
    1つのみ 95 1,900 1,886 99.3%
    2つ以上 90 1,800 1,683 93.5%
    合計 185 3,700 3,569 96.5%
    測定箇所 20未満 20~9999 1万以上
    総頻度 16,052 886,649 9,470,468
    内2つ以上 (未調査) 192,035 (未調査)

    View Slide

  15.  本題である、漢字候補が2つ以上のものだけを
    見た時、90のひらがなに対し出現頻度の合計
    が99,530であったので51.8%を網羅したこと
    になり、93.5%の精度で換言ができた。
    ※漢字候補1つのみは頻度合計81,800
     全体で見た時には、ひらがなの頻度1万以上
    は全て正解(ひらがなが正解)であるので、出現
    頻度で本換言器の網羅率は93.0%であった。
    考察
    15

    View Slide