Confusionset-guided Pointer Networks for Chinese Spelling Check

66cc992074ab4522374e429c11fef225?s=47 youichiro
November 27, 2019

Confusionset-guided Pointer Networks for Chinese Spelling Check

長岡技術科学大学
自然言語処理研究室
文献紹介(2019-11-28)
Confusionset-guided Pointer Networks for Chinese Spelling Check
https://www.aclweb.org/anthology/P19-1578/

66cc992074ab4522374e429c11fef225?s=128

youichiro

November 27, 2019
Tweet

Transcript

  1. 長岡技術科学大学 自然言語処理研究室 小川耀一朗 文献紹介(2019-11-28) Confusionset-guided Pointer Networks for Chinese Spelling

    Check
  2. Paper 2

  3. 3 Abstract • Chinese Spelling Check (CSC) タスクの研究 • Seq2SeqモデルとPointer

    Networkを組み合わせた手法を提案 • 文字生成時にConfusionSet (文字候補)を活用することで性能が大きく向上した
  4. 4 中国語の特徴: • 単語の区切りがない • 英語の26文字に対して、中国語は13,000文字ある • 表意文字 • 発音や形状が似ているスペルエラーが頻繁に生じる

    Chinese Spelling Check Task ← 形が類似 ← 発音が類似 [2]より
  5. 5 Chinese Spelling Check Task SharedTaskが開催されており、研究が盛ん • SIGHAN2013 • CIPS-SIGHAN2014

    • SIGHAN2015 Chinese Spelling Check (CSC) の開発・評価データセット、評価プラットフォームを 提供
  6. Confusion Set 中国語は発音や形が似ている漢字が多く存在する 統計データから、エラーの83%は発音が類似し、そのうち48%は形が類似していた CSCにおいてConfusionSetはとても重要 → 公開されているConfusionSet[2]を使用 6 https://github.com/wdimmy/Automatic-Corpus-Generation/blob/master/corpus/confusion.txt

  7. 7 Model

  8. 8 Model copy: • 入力系列でのコピー確率分布 • 一番右がmaxならgenerate generate: • 生成確率分布

    • ConfusionSet行列(M)をかけて語彙を 強制的に制限する その他の設定: • 入力は文字レベル • 入力文字数 == 出力文字数 • position embeddingも入力に加える copy generate
  9. 9 Datasets Wang et al., 2018: CSCデータセットを自動生成 [2]

  10. 10 Results LMC: ConfusionSetを用いたLanguageModelベースの手法 SL: sequence labeling手法 Oursー: ConfusionSet未使用 Ours+:

    ConfusionSet使用
  11. 11 Conclusion • Chinese Spell Check (CSC) タスクの研究 • Seq2SeqモデルとPointer

    Networkを組み合わせた手法を提案 • 生成時にConfusionSet (類似セット)を活用することで性能が大きく向上、 SoTAを 達成
  12. 12 References • [1] Introduction to SIGHAN 2015 Bake-off for

    Chinese Spelling Check ◦ Tseng, Yuen-Hsien et al., ACL2015 ◦ https://www.aclweb.org/anthology/W15-3106/ • [2] A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check ◦ Wang, Dingmin et al., EMNLP2018 ◦ https://www.aclweb.org/anthology/D18-1273/