長岡技術科学大学山本和英, 三上侑城語義曖昧性解消としてのかな漢字換言システムの開発1
View Slide
研究背景・目的(1/2)2 言語処理において、テキストの解析を行う際に語義の曖昧性が問題となる時がある。(例)日英翻訳 その曖昧性を解消することを語義曖昧性解消と呼び、古くから様々な手法が提案されてきた。貰った犬を飼うI buy the dog which I got.貰った犬をかう貰った犬をかう
研究背景・目的(2/2) しかし現状では...3公開されている日本語の語義曖昧性解消ツールは無い語義曖昧性解消ツールの作成を目的とした。
語義曖昧性解消の対象 本研究では、曖昧さを出す要因の一つである“ひらがな”に着目し、これを適切な“漢字”に換言することで語義曖昧性解消をおこなう。4切符をかう切符を買う切符を飼う??
換言候補の収集(1/2)5 大規模コーパス(BCCWJ)の中で出現する数 同じ語義の語が記載されている辞書
換言候補の収集(2/2) 先に候補を集めておくことで、対象を絞り、正確に換言できないものを除外。→ 精度の向上 ひらがなの頻度20未満はノイズとして除外し、頻度1万以上はひらがなが正しいとした。6頻度20未満 頻度1万以上ひらがな頻度20~9999対象にしない(ノイズ)換言対象 ひらがなを正解とする
かな漢字換言手法① 入力文から換言対象のひらがなを検出② 文脈から手がかりとする語を選定③ 漢字候補と手がかり語との共起度を計算④ 計算結果の値によって漢字を選出7
かな漢字換言の例8①②③④
① 換言対象の検出 換言候補の収集で集めたひらがなが入力文に入っていたら、換言プロセスに入る。 ただし、漢字の候補が1つのみのものは、このプロセスを通さず、その漢字に決定。9
② 手がかり語の選定10 対象のひらがなから前後4単語を検索し、情報を持った語を品詞で選定する。・ひらがなが動詞 → 名詞 の語を選択・ひらがなが名詞 → 動詞 と 名詞 の語を選択
文章において、この語が出た時には、通常この漢字が使われるという(共起)情報を使用。 特定の語との共起度合を数値化するため、自己相互情報量(PMI)を使用し、出力値が最大の漢字を選択。③ 自己相互情報量11
誤答を減らすために閾値を設ける。閾値を決めるため、換言処理を行いその結果を考察した。 間違いを1割以下にするため、閾値を5にした。④ 閾値の設定12PMI値 PMI値
さらなる精度向上のため、作成したかな漢字換言器で、対象のひらがなが入った文章を換言処理。 その結果をひらがな毎に20個判断し、16個(8割)以上正解できないものは対象から除外。 ただし、漢字候補が1つしかないものは18個(9割)以上とした。換言できないものの除外13
換言対象となるひらがな全てに対し、かな漢字換言を行い、その時の正解率を求めた。 また各ひらがなにおける総頻度を求めた。実験と結果14漢字候補 対応数 テスト数 正解数 正解率1つのみ 95 1,900 1,886 99.3%2つ以上 90 1,800 1,683 93.5%合計 185 3,700 3,569 96.5%測定箇所 20未満 20~9999 1万以上総頻度 16,052 886,649 9,470,468内2つ以上 (未調査) 192,035 (未調査)
本題である、漢字候補が2つ以上のものだけを見た時、90のひらがなに対し出現頻度の合計が99,530であったので51.8%を網羅したことになり、93.5%の精度で換言ができた。※漢字候補1つのみは頻度合計81,800 全体で見た時には、ひらがなの頻度1万以上は全て正解(ひらがなが正解)であるので、出現頻度で本換言器の網羅率は93.0%であった。考察15