Error-repair Dependency Parsing for Ungrammatical Texts

Error-repair Dependency Parsing for Ungrammatical Texts Keisuke Sakaguchi, Matta Post
and Benjamin Van Durme Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Short Papers), pages 189–195, 2017 ⽂献紹介（2018/05/09）⻑岡技術科学⼤学⾃然⾔語処理研究室⼩川耀⼀朗 1

概要 Ø ⽂法誤り訂正と係り受け解析を同時に⾏う l 既存の係り受け解析器に置換・挿⼊・削除の操作を追加 Ø 係り受け解析の性能と⽂法性の向上を評価 l ⾮⽂法テキストに対し頑健な係り受け解析を⽰した 2

背景⾮⽂法テキストに対して頑健な係り受け解析をしたい 3 I look in forward hear from you.
I look in forward to hearing from you. 削除挿⼊置換 × ◦ これまでは誤り訂正→係り受け解析提案⼿法誤り訂正＋係り受け解析

4 Non-directional Easy-first (EF) parsing Goldberg and Elhadad (2010) ATTACH
RIGHT ATTACH LEFT

l EF parsing に置換・挿⼊・削除の操作を追加 l 各トークンにおいて各操作のスコアを計算 u ATTACHRIGHT
u ATTACHLEFT u 置換 u 挿⼊ u 削除 5 Error-repair non-directional easy-first (EREF) parsing

n 新たな操作の追加によって無限ループに陥ってしまう (置換→置換→置換→... 、削除→挿⼊→削除→...) n 以下の制約を追加 l 置換されたトークンは再び置換されることはない l ⽂中のトークン数以上に置換・挿⼊・削除の操作を⾏えない
6 係り受け探索の無限ループの対策

l Perceptron Algorithmを⽤いた taggingモデル (Colins, 2002) Ø 各トークンがどの操作を⾏うべきかを学習 Ø 以下の有効性を満たす操作の重みを増やす
u ATTACHRIGHT, ATTACHLEFT l 係り受け関係が正解データに含まれているか l ⼦ノードが全ての⼦ノードを持っているか u 置換、挿⼊、削除 l 正解データと⽐べて操作後の編集距離が操作前の編集距離より⼩さくなるか 7 係り受け解析器の学習

n 候補を制限するために同じ品詞もしくは定義されたリストから選択 l 冠詞 {a, an, the, Φ} l 前置詞
{on, about, from, for, of, to, at, in, with, by, Φ} l 動詞の活⽤ {VB(P|Z|G|D|N)} n それぞれのn-gram⾔語モデルスコアを⽐較して最も良い候補を選択 l KenLMでEnglish Gigawordの5-gram⾔語モデルを構築 8 置換・挿⼊の候補セット

実験1 係り受け解析の性能評価⽂法的なコーパスに⽂法誤りを注⼊ n ツリーバンク l Penn Treebank(PTB) (Marcus et
al., 1993) n 注⼊する誤りタイプ l 冠詞、前置詞、名詞の単数形or複数形、動詞の時制と態、主語と動詞の⼀致 n PTBに5%, 10%, 15%, 20%の割合で統計的に誤りを注⼊ l GenERRate toolkit (Foster and Andersen, 2009) 9

実験1 係り受け解析の性能評価ベースライン：⽂法誤り訂正システム(Rozovskaya and Roth, 2014)＋EF parsing = ()% −
)% 20 10

実験2 ⽂法性の向上の評価実際の⽂法誤りコーパスで実験 n テストデータ l Treebank of Learner English
(TLE) (Berzak et al., 2016) l 5,124⽂に係り受け情報と品詞情報を付与 n 訓練データ l Annotated Gigaword (Napoles et al., 2012) n 評価 l ⽂法性を1から4のスコアで評価 (Heilman et al., 2014) 11

実験2 ⽂法性の向上の評価 l E15, E20で⽂法性が向上 l 事前に⽂法レベルを知っておく必要がある l まだ改善の余地があり、扱うことのできる誤りタイプを増やす必要がある
12

まとめ Ø Non-directional easy-first parser に置換・挿⼊・削除といった新たな操作を加えることで、⽂法誤り訂正を⾏いながら係り受け解析を⾏う Ø ⾮⽂法テキストに対し頑健な係り受け解析を⾏うことができ、⽂法
性が向上した 13

参考⽂献 u Non-directional easy-first parsing Yoav Goldberg and Michael Elhadad.
2010. An efficient algorithm for easy-first non-directional dependency parsing. In Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, Los Angeles, California, pages 742–750. http://www.aclweb.org/anthology/N10-1115 u Training parser Michael Collins. 2002. Discriminative training methods for hidden markov models: Theory and experiments with perceptron algorithms. In Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, pages 1–8. http://www.aclweb.org/anthology/W02-1001 u Generating errors Jennifer Foster and Oistein Andersen. 2009. Generrate: Generating errors for use in grammatical error detection. In Proceedings of the Fourth Work-shop on Innovative Use of NLP for Building Educational Applications. Association for Computational Linguistics, Boulder, Colorado, pages 82–90. http://www.aclweb.org/anthology/W09-2112.pdf u Grammaticality score Michael Heilman, Aoife Cahill, Nitin Madnani, Melissa Lopez, Matthew Mulholland, and Joel Tetreault. 2014. Predicting grammaticality on an ordinal scale. In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). Association for Computational Linguistics, Baltimore, Maryland, pages 174–180. http://www.aclweb.org/anthology/P14-2029 14

参考 15

Error-repair Dependency Parsing for Ungrammatic...

Error-repair Dependency Parsing for Ungrammatical Texts

youichiro

More Decks by youichiro

Other Decks in Technology

Featured

Transcript

Error-repair Dependency Parsing for Ungrammatical Texts Keisuke Sakaguchi, Matta Post

概要 Ø ⽂法誤り訂正と係り受け解析を同時に⾏う l 既存の係り受け解析器に置換・挿⼊・削除の操作を追加 Ø 係り受け解析の性能と⽂法性の向上を評価 l ⾮⽂法テキストに対し頑健な係り受け解析を⽰した 2

背景⾮⽂法テキストに対して頑健な係り受け解析をしたい 3 I look in forward hear from you.

4 Non-directional Easy-first (EF) parsing Goldberg and Elhadad (2010) ATTACH

l EF parsing に置換・挿⼊・削除の操作を追加 l 各トークンにおいて各操作のスコアを計算 u ATTACHRIGHT

l Perceptron Algorithmを⽤いた taggingモデル (Colins, 2002) Ø 各トークンがどの操作を⾏うべきかを学習 Ø 以下の有効性を満たす操作の重みを増やす

n 候補を制限するために同じ品詞もしくは定義されたリストから選択 l 冠詞 {a, an, the, Φ} l 前置詞

実験1 係り受け解析の性能評価⽂法的なコーパスに⽂法誤りを注⼊ n ツリーバンク l Penn Treebank(PTB) (Marcus et

実験1 係り受け解析の性能評価ベースライン：⽂法誤り訂正システム(Rozovskaya and Roth, 2014)＋EF parsing = ()% −

実験2 ⽂法性の向上の評価実際の⽂法誤りコーパスで実験 n テストデータ l Treebank of Learner English

実験2 ⽂法性の向上の評価 l E15, E20で⽂法性が向上 l 事前に⽂法レベルを知っておく必要がある l まだ改善の余地があり、扱うことのできる誤りタイプを増やす必要がある

まとめ Ø Non-directional easy-first parser に置換・挿⼊・削除といった新たな操作を加えることで、⽂法誤り訂正を⾏いながら係り受け解析を⾏う Ø ⾮⽂法テキストに対し頑健な係り受け解析を⾏うことができ、⽂法

参考⽂献 u Non-directional easy-first parsing Yoav Goldberg and Michael Elhadad.

参考 15