Upgrade to Pro — share decks privately, control downloads, hide ads and more …

日本語解析システム「雪だるま」における表記ゆれの拡張とまとめあげ

nishi-k
August 31, 2016
1k

 日本語解析システム「雪だるま」における表記ゆれの拡張とまとめあげ

nishi-k

August 31, 2016
Tweet

Transcript

  1. 研究背景と目的 • 背景 – 表記ゆれ • 意味や読み, 品詞が同一で 表記が異なる語 –

    日本語のWebページに含まれる単語の10[%]はなんらか の表記ゆれが存在[小椋 2012] • 先行研究 – 単語・顔文字の正規化を行うことで機械翻訳精度が向上 (笹原ら) – 日英機械翻訳において、表記ゆれ解消が有効 (宮西ら) 4 リンゴ, りんご, 林檎 ひとくちに言って, 一口に言って
  2. 日本語解析器「雪だるま」 の概要 • MeCab-UniDicの出力を加工 – 形態素結合 • 複数の形態素がまとまって一つの意味となる表現を結合 • 気

    / が / 付く ⇒ 気が付く • 目的 – 雪だるまの単語辞書に含まれる表記ゆれの解消 – UniDicのエントリーにはない表記ゆれの獲得 5 形態素ID 語彙素読み 語彙素 見出し語 bfaro ハッピョウ 発表 はっぴょう bfarp ハッピョウ 発表 発表 bfarq ハッピョウ 発表 發表
  3. 既存の辞書を用いたまとめあげ • 単語解析辞書UniDic – 一部の表記ゆれをまとめている – 活用や字形で階層構造をもつ(右図) • 手法 1.

    品詞、語彙素が同じ単語ごとにまとめる 2. 固有名詞以外の単語を抽出 • 結果 6 語彙素 書字形 やっぱり やはり 矢張り やはり 品詞 まとめあげた単語数 固有名詞以外 26,425語
  4. • UniDicのエントリー語からの表記ゆれの収集 – 既存の辞書で獲得できなかった表記揺れを集める 1. 編集距離を用いたまとめあげ 5,971語 2. かな漢字変換によるまとめあげ 1,938語

    3. 繰り返し文字のまとめあげ 161語 4. Word2Vecを用いたまとめあげ 237語 5. 同じ音が続く語のまとめあげ 24語 6. 母音とハイフンの置き換えによるまとめあげ 467語 • 形態素結合を用いた かな漢字変換による表記ゆれの拡張 – 辞書に無い表記ゆれを拡張し、まとめあげる 1. 形態素ごとに変換した拡張 1,318語 2. 漢字ごとに変換した拡張 1,215語 手法について 7
  5. • 手法 1. 以下の規則で置き換えを行い、人手で選定した ・ あ行の子音 + ー ⇒ あ行の子音

    + 「あ」 ・ い行の子音 + ー ⇒ い行の子音 + 「い」 ・ う行の子音 + ー ⇒ う行の子音 + 「う」 ・ え行の子音 + ー ⇒ え行の子音 + 「い/ え」 ・ お行の子音 + ー ⇒ お行の子音 + 「う/ お」 母音とハイフンの置き換えによるまとめあげ 8 まとめ先の語 まとめられる語 もうれつ もーれつ ほうき星 ホーキ星 オオケストラ オーケストラ オデッセイ オデッセー らあめん ラーメン まとめ先の語 まとめられる語 ピエロオ ピエロー しいく シーク 苦労 クロー しいん シーン バレエ バレー 人手で除外した語のリスト 表記ゆれとしてまとめあげた語のリスト
  6. • 手法 1. 編集距離1から5までの単語対を単語辞書から抽出 2. 抽出した単語の対の間で異なる文字のパターンを獲得 - 表記ゆれのパターンを抽出 (36パターン) ジャガ芋,

    ジヤガ芋 ⇒ {ャ, ヤ} ディフォルメ, デフォルメ ⇒ {ィ} 3. 1のリストからパターンに当てはまる対を抽出 {ャ, ヤ} ⇒ カンボジャ, カンボジヤ {ィ} ⇒ ディオキシリボ, デオキシリボ 編集距離を用いたまとめあげ 9 • 約5,000語程度は人手で除外
  7. 10 まとめ先の語 まとめられる語 単語パターン アルファベット アルファベート {ッ, ー} スタットレス スタッドレス

    {ト, ド} 塩シャケ 塩ジャケ {シ, ジ} ハロウィーン ハロウイーン {ク, グ} ドラッグ ドラック {い, ひ} 仮名遣い 仮名遣ひ {ッ, ー} まとめ先の語 まとめられる語 単語パターン ストッキング ストーキング {ッ, ー} トレッシング ドレッシング {ト, ド} シュート ジュート {シ, ジ} ウィック ウィッグ {ク, グ} いしょう ひしょう {い, ひ} 人手で除外した語のリスト 表記ゆれとしてまとめあげた語のリスト
  8. まとめ先の語 まとめられる語 ミックスする リミックスする 放り上げる 振り上げる 樽詰めする 瓶詰めする 縦書きする 横書きする

    ずりおちる ずれおちる 都道府県税 道府県税 南アルプス 北アルプス 買い占める 買い集める • 手法 1. 日本語Wikipediaを学習コーパスとして上位10語を獲得 2. 上位10語の中から編集距離1の語を抽出、人手で選定 Word2Vecを用いたまとめあげ 11 まとめ先の語 まとめられる語 受け付ける 受け付けする 兼ね備える 兼ね揃える 伸し上げる のし上げる ちゃんこ鍋 ちゃんこ のっぺい汁 のっぺい 注意を引く 注意を集める 行きあたる 突きあたる 身の毛もよだつ 身の毛がよだつ 人手で除外した語のリスト 表記ゆれとしてまとめあげた語のリスト
  9. • 1.形態素ごとに変換した表記ゆれの獲得 – 雪だるまの形態素結合を利用 • 気(き) / が / 付く(つく)

    ⇒ きがつく • 手法 1.1 日本語形態素解析器MeCabで読み仮名を取得 1.2 漢字が含まれる形態素をひらがなに変換し、人手で選定 かな漢字変換による表記ゆれの拡張 12 既に登録されていた表記 新しく拡張した表記ゆれ 一息入れる 一息いれる 手の内を明かす 手のうちを明かす 口は災いの元 口はわざわいのもと 冒涜する 冒とくする 否応無し いや応無し 表記ゆれとしてまとめあげた語のリスト
  10. まとめ と 今後の展望 • 表記ゆれのまとめあげ – 既存の辞書でまとめ獲得することのできなかった表記ゆれ を6種類の手法を用いて 8,798語獲得した •

    かな漢字変換による表記ゆれの獲得 – 単語辞書に含まれる表現の中から、 形態素ごと・漢字ごとにかな漢字変換を行った – 2,533の表記ゆれを獲得した – 本手法では「漢字」から「ひらがな」へ変換したのみ • 新たな表記ゆれの獲得 • 「ひらがな」 を 「漢字」 へ変換 • ひらがなへ変換する際には曖昧性がある 13
  11. 参考文献 • 小椋 秀樹,コーパスに基づく現代語表記のゆれの調査—BCCWJコ アデータを資料として,第1回コーパス日本語学ワークショップ, pp. 321-328, Mar 2009. •

    宮西 由貴, 山本 和英, 表記ゆれのまとめ上げによる統計的機械 翻訳の改善, 言語処理学会 第22回年次大会, pp. 613 – 616, Mar 2015. • 笹原 要, 斉藤 いつみ, 浅野 久子, 片山 太一, 松尾 義博, テキスト 正規化技術を用いたCGM日本語テキスト翻訳, 言語処理学会 第 21回年次大会, pp.804 – 807, Mar 2015. • 山本和英, 宮西 由貴, 髙橋 寛治, 猪俣 慶樹, 須戸 悠太, 三上侑城, 日本語解析システム「雪だるま」~単語解析部の設計思想~, 電 子情報通信学会 テキストマイニングシンポジウム, 信学技報, Vol. 115, No.222, pp. 13-18, Sep 2015. 14