Neural Grammatical Error Correction with Finite State Transducers

Slide 1

Slide 1 text

Neural Grammatical Error Correction with Finite State Transducers Felix Stahlberg and Christopher Bryant and Bill Byrne arXiv:1903.10625 (Accepted by NAACL 2019) 長岡技術科学大学自然言語処理研究室小川耀一朗文献紹介（2019-05-15） 1

Slide 2

Slide 2 text

Abstract ● Finite state transducer (FST) を文法誤り訂正に適用する手法を提案 ● 学習者コーパスを使用しない方法 (Unsupervised) と，学習者コーパスを使用する方法 (Supervised) にて有効性を示した． 2

Slide 3

Slide 3 text

Introduction ● 文法誤り訂正(GEC)タスクでは Neural machine translation (NMT) が高い性能を示しているが，予測空間は広大である． ● しかしこのタスクは，局所的で語彙的な訂正を行う問題であり，強い制約のある問題であるはずだ． ● Finite state transducer (FST) を用いてNMTの予測空間を制限する． 3

Slide 4

Slide 4 text

Finite state acceptor ◼ 有限状態アクセプタ (Finite state acceptor: FSA) ある特定の記号列を受理するか否かを表すモデル 4 入力が“ab”か“ba”のとき受理するFSA

Slide 5

Slide 5 text

Finite state transducer ◼ 有限状態トランスデューサ (Finite state transducer: FST) FSAの拡張として，状態遷移において記号を受理すると同時に別の記号を出力するモデル 5 入力“ab”に対して“AB”を，“ba”に対して“BA”を出力するFST

Slide 6

Slide 6 text

Weighted finite state transducer ◼ 重み付き有限状態トランスデューサ (Weighted finite state transducer: WFST) 状態遷移に対して重みを付与することで，コストや確率といった概念の導入を可能にしたモデル 6 入力“ab”に対しては“AB”と重み4.0(=0.5+1.0+3.0)を出力する

Slide 7

Slide 7 text

Example FST ◼ 単語発音辞書を表すFST 7 音素列“aoaka”をその発音に対応する単語列”青赤”に変換する ε記号：入力信号の場合→入力なしで状態遷移できる　　　　出力記号の場合→何も出力しないことを表す

Slide 8

Slide 8 text

Example FST ◼ 言語モデルを表すFST 8

Slide 9

Slide 9 text

FST composition 9 ● 変換過程の合成 (composition) が可能

Slide 10

Slide 10 text

Constructing the Hypothesis Space 提案手法：予測空間 H をFSTによって構築する　→ H を使って Neural beam decoder に制約を与える H を構築するために5つのtransducerが登場 (1) I：Input lattice (2) E：Edit transducer (3) P：Penalization transducer (4) L：Language model transducer (5) T：Tokenization words to subwords (BPE) transducer 10

Slide 11

Slide 11 text

(1) I : 入力単語列にそのまま変換する遷移 (2) E: (Bryant and Briscoe 2018) が提案したconfusion sets を表す遷移 Unsupervised FST method 11 (3) P: をペナルティ(λcorr)に変換する遷移 (4) L: 5-gram LM を表す遷移 way ↓ ways

Slide 12

Slide 12 text

NMTに適用させるために，単語からサブワード(BPE)に変換する遷移 T を合成 Unsupervised FST method 12 ↑ 予測空間

Slide 13

Slide 13 text

Supervised FST method 13 I : 訓練させたSMTの n-best list の遷移 SMT出力の編集距離の数だけを追加 ↑ 予測空間

Slide 14

Slide 14 text

NLMとNMTを加えたスコアを使ってビームサーチを行うもしHBPEにない単語列が入力されたら Beam search 14

Slide 15

Slide 15 text

● Language models ○ 5-gram LM: KenLM ○ Neural LM: Transformer decoder architecture ○ Dataset: One Billion Word Benchmark dataset ● Seq2seq models ○ SMT: (Junczys-Dowmunt and Grundkiewicz 2016) ○ NMT: Transformer ○ Datasets: NUCLE, Lang-8 ● NMT, NLMはbyte pair encoding(BPE)を使用 ● Beam size: 12 Experimental setup 15

Slide 16

Slide 16 text

➔ Language model basedの先行研究を上回る Results (unsupervised) 16

Slide 17

Slide 17 text

➔ CoNLL-2014において最高性能を上回る Results (Supervised) 17

Slide 18

Slide 18 text

● Finite state transducer(FST) を文法誤り訂正に応用し，予測空間を制限する手法を提案 ● Unsupervised手法では，先行のLanguage model based GECの性能を大きく上回った． ● Supervised手法では，FSTをSMTラティスに適用し，NLM，NMTと組み合わせることで，CoNLL-2014において最高性能を達成した． Conclusion 18

Slide 19

Slide 19 text

● 重み付き有限状態トランスデューサによる音声認識 ○ 特集音声情報処理技術の最先端．掘貴明，塚田元． ● Weighted Finite-state Transducerについて - SlideShare ○ https://www.slideshare.net/phyllo/weighted-finitestatetransducer ● 重み付き有限状態トランスデューサ (WFST) をOpenFstで作成する ○ http://blog.algolab.jp/post/2016/09/13/openfst/ References 19