Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Confusionset-guided Pointer Networks for Chinese Spelling Check

youichiro
November 27, 2019

Confusionset-guided Pointer Networks for Chinese Spelling Check

長岡技術科学大学
自然言語処理研究室
文献紹介(2019-11-28)
Confusionset-guided Pointer Networks for Chinese Spelling Check
https://www.aclweb.org/anthology/P19-1578/

youichiro

November 27, 2019
Tweet

More Decks by youichiro

Other Decks in Research

Transcript

  1. 長岡技術科学大学 自然言語処理研究室 小川耀一朗
    文献紹介(2019-11-28)
    Confusionset-guided Pointer Networks
    for Chinese Spelling Check

    View full-size slide

  2. 3
    Abstract
    ● Chinese Spelling Check (CSC) タスクの研究
    ● Seq2SeqモデルとPointer Networkを組み合わせた手法を提案
    ● 文字生成時にConfusionSet (文字候補)を活用することで性能が大きく向上した

    View full-size slide

  3. 4
    中国語の特徴:
    ● 単語の区切りがない
    ● 英語の26文字に対して、中国語は13,000文字ある
    ● 表意文字
    ● 発音や形状が似ているスペルエラーが頻繁に生じる
    Chinese Spelling Check Task
    ← 形が類似
    ← 発音が類似
    [2]より

    View full-size slide

  4. 5
    Chinese Spelling Check Task
    SharedTaskが開催されており、研究が盛ん
    ● SIGHAN2013
    ● CIPS-SIGHAN2014
    ● SIGHAN2015
    Chinese Spelling Check (CSC) の開発・評価データセット、評価プラットフォームを
    提供

    View full-size slide

  5. Confusion Set
    中国語は発音や形が似ている漢字が多く存在する
    統計データから、エラーの83%は発音が類似し、そのうち48%は形が類似していた
    CSCにおいてConfusionSetはとても重要
    → 公開されているConfusionSet[2]を使用
    6
    https://github.com/wdimmy/Automatic-Corpus-Generation/blob/master/corpus/confusion.txt

    View full-size slide

  6. 8
    Model
    copy:
    ● 入力系列でのコピー確率分布
    ● 一番右がmaxならgenerate
    generate:
    ● 生成確率分布
    ● ConfusionSet行列(M)をかけて語彙を
    強制的に制限する
    その他の設定:
    ● 入力は文字レベル
    ● 入力文字数 == 出力文字数
    ● position embeddingも入力に加える
    copy
    generate

    View full-size slide

  7. 9
    Datasets
    Wang et al., 2018: CSCデータセットを自動生成 [2]

    View full-size slide

  8. 10
    Results
    LMC: ConfusionSetを用いたLanguageModelベースの手法
    SL: sequence labeling手法
    Oursー: ConfusionSet未使用
    Ours+: ConfusionSet使用

    View full-size slide

  9. 11
    Conclusion
    ● Chinese Spell Check (CSC) タスクの研究
    ● Seq2SeqモデルとPointer Networkを組み合わせた手法を提案
    ● 生成時にConfusionSet (類似セット)を活用することで性能が大きく向上、
    SoTAを
    達成

    View full-size slide

  10. 12
    References
    ● [1] Introduction to SIGHAN 2015 Bake-off for Chinese Spelling Check
    ○ Tseng, Yuen-Hsien et al., ACL2015
    ○ https://www.aclweb.org/anthology/W15-3106/
    ● [2] A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling
    Check
    ○ Wang, Dingmin et al., EMNLP2018
    ○ https://www.aclweb.org/anthology/D18-1273/

    View full-size slide