Slide 1

Slide 1 text

長岡技術科学大学 自然言語処理研究室 小川耀一朗 文献紹介(2019-11-28) Confusionset-guided Pointer Networks for Chinese Spelling Check

Slide 2

Slide 2 text

Paper 2

Slide 3

Slide 3 text

3 Abstract ● Chinese Spelling Check (CSC) タスクの研究 ● Seq2SeqモデルとPointer Networkを組み合わせた手法を提案 ● 文字生成時にConfusionSet (文字候補)を活用することで性能が大きく向上した

Slide 4

Slide 4 text

4 中国語の特徴: ● 単語の区切りがない ● 英語の26文字に対して、中国語は13,000文字ある ● 表意文字 ● 発音や形状が似ているスペルエラーが頻繁に生じる Chinese Spelling Check Task ← 形が類似 ← 発音が類似 [2]より

Slide 5

Slide 5 text

5 Chinese Spelling Check Task SharedTaskが開催されており、研究が盛ん ● SIGHAN2013 ● CIPS-SIGHAN2014 ● SIGHAN2015 Chinese Spelling Check (CSC) の開発・評価データセット、評価プラットフォームを 提供

Slide 6

Slide 6 text

Confusion Set 中国語は発音や形が似ている漢字が多く存在する 統計データから、エラーの83%は発音が類似し、そのうち48%は形が類似していた CSCにおいてConfusionSetはとても重要 → 公開されているConfusionSet[2]を使用 6 https://github.com/wdimmy/Automatic-Corpus-Generation/blob/master/corpus/confusion.txt

Slide 7

Slide 7 text

7 Model

Slide 8

Slide 8 text

8 Model copy: ● 入力系列でのコピー確率分布 ● 一番右がmaxならgenerate generate: ● 生成確率分布 ● ConfusionSet行列(M)をかけて語彙を 強制的に制限する その他の設定: ● 入力は文字レベル ● 入力文字数 == 出力文字数 ● position embeddingも入力に加える copy generate

Slide 9

Slide 9 text

9 Datasets Wang et al., 2018: CSCデータセットを自動生成 [2]

Slide 10

Slide 10 text

10 Results LMC: ConfusionSetを用いたLanguageModelベースの手法 SL: sequence labeling手法 Oursー: ConfusionSet未使用 Ours+: ConfusionSet使用

Slide 11

Slide 11 text

11 Conclusion ● Chinese Spell Check (CSC) タスクの研究 ● Seq2SeqモデルとPointer Networkを組み合わせた手法を提案 ● 生成時にConfusionSet (類似セット)を活用することで性能が大きく向上、 SoTAを 達成

Slide 12

Slide 12 text

12 References ● [1] Introduction to SIGHAN 2015 Bake-off for Chinese Spelling Check ○ Tseng, Yuen-Hsien et al., ACL2015 ○ https://www.aclweb.org/anthology/W15-3106/ ● [2] A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check ○ Wang, Dingmin et al., EMNLP2018 ○ https://www.aclweb.org/anthology/D18-1273/