Neural Grammatical Error Correction with Finite State Transducers

Neural Grammatical Error Correction with Finite State Transducers Felix Stahlberg
and Christopher Bryant and Bill Byrne arXiv:1903.10625 (Accepted by NAACL 2019) 長岡技術科学大学自然言語処理研究室小川耀一朗文献紹介（2019-05-15） 1

Abstract • Finite state transducer (FST) を文法誤り訂正に適用する手法を提案 • 学習者コーパスを使用しない方法 (Unsupervised)
と，学習者コーパスを使用する方法 (Supervised) にて有効性を示した． 2

Introduction • 文法誤り訂正(GEC)タスクでは Neural machine translation (NMT) が高い性能を示しているが，予測空間は広大である． •
しかしこのタスクは，局所的で語彙的な訂正を行う問題であり，強い制約のある問題であるはずだ． • Finite state transducer (FST) を用いてNMTの予測空間を制限する． 3

Finite state acceptor ◼ 有限状態アクセプタ (Finite state acceptor: FSA) ある特定の記号列を受理するか否かを表すモデル
4 入力が“ab”か“ba”のとき受理するFSA

Finite state transducer ◼ 有限状態トランスデューサ (Finite state transducer: FST) FSAの拡張として，状態遷移において記号を受理すると同時に別の記号を出力す
るモデル 5 入力“ab”に対して“AB”を，“ba”に対して“BA”を出力するFST

Weighted finite state transducer ◼ 重み付き有限状態トランスデューサ (Weighted finite state transducer:
WFST) 状態遷移に対して重みを付与することで，コストや確率といった概念の導入を可能にしたモデル 6 入力“ab”に対しては“AB”と重み4.0(=0.5+1.0+3.0)を出力する

Example FST ◼ 単語発音辞書を表すFST 7 音素列“aoaka”をその発音に対応する単語列”青赤”に変換する ε記号：入力信号の場合→入力なしで状態遷移できる　　　　出力記号の場合→何も出力しないことを表す

Example FST ◼ 言語モデルを表すFST 8

FST composition 9 • 変換過程の合成 (composition) が可能

Constructing the Hypothesis Space 提案手法：予測空間 H をFSTによって構築する　→ H を使って
Neural beam decoder に制約を与える H を構築するために5つのtransducerが登場 (1) I：Input lattice (2) E：Edit transducer (3) P：Penalization transducer (4) L：Language model transducer (5) T：Tokenization words to subwords (BPE) transducer 10

(1) I : 入力単語列にそのまま変換する遷移 (2) E: (Bryant and Briscoe 2018)
が提案したconfusion sets を表す遷移 Unsupervised FST method 11 (3) P: <corr>をペナルティ(λcorr)に変換する遷移 (4) L: 5-gram LM を表す遷移 way ↓ <corr> ways

NMTに適用させるために，単語からサブワード(BPE)に変換する遷移 T を合成 Unsupervised FST method 12 ↑ 予測空間

Supervised FST method 13 I : 訓練させたSMTの n-best list の遷移
SMT出力の編集距離の数だけ <mcorr>を追加 ↑ 予測空間

NLMとNMTを加えたスコアを使ってビームサーチを行うもしHBPEにない単語列が入力されたら Beam search 14

• Language models ◦ 5-gram LM: KenLM ◦ Neural LM:
Transformer decoder architecture ◦ Dataset: One Billion Word Benchmark dataset • Seq2seq models ◦ SMT: (Junczys-Dowmunt and Grundkiewicz 2016) ◦ NMT: Transformer ◦ Datasets: NUCLE, Lang-8 • NMT, NLMはbyte pair encoding(BPE)を使用 • Beam size: 12 Experimental setup 15

➔ Language model basedの先行研究を上回る Results (unsupervised) 16

➔ CoNLL-2014において最高性能を上回る Results (Supervised) 17

• Finite state transducer(FST) を文法誤り訂正に応用し，予測空間を制限する手法を提案 • Unsupervised手法では，先行のLanguage model based
GECの性能を大きく上回った． • Supervised手法では，FSTをSMTラティスに適用し，NLM，NMTと組み合わせることで，CoNLL-2014において最高性能を達成した． Conclusion 18

• 重み付き有限状態トランスデューサによる音声認識 ◦ 特集音声情報処理技術の最先端．掘貴明，塚田元． • Weighted Finite-state
Transducerについて - SlideShare ◦ https://www.slideshare.net/phyllo/weighted-finitestatetransducer • 重み付き有限状態トランスデューサ (WFST) をOpenFstで作成する ◦ http://blog.algolab.jp/post/2016/09/13/openfst/ References 19

Neural Grammatical Error Correction with Finite...

Neural Grammatical Error Correction with Finite State Transducers

youichiro

More Decks by youichiro

Other Decks in Research

Featured

Transcript