Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Error-repair Dependency Parsing for Ungrammatical Texts

Error-repair Dependency Parsing for Ungrammatical Texts

文献紹介(2018-05-09)
長岡技術科学大学
自然言語処理研究室

youichiro

May 08, 2018
Tweet

More Decks by youichiro

Other Decks in Technology

Transcript

  1. Error-repair Dependency Parsing for Ungrammatical Texts Keisuke Sakaguchi, Matta Post

    and Benjamin Van Durme Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Short Papers), pages 189–195, 2017 ⽂献紹介(2018/05/09) ⻑岡技術科学⼤学 ⾃然⾔語処理研究室 ⼩川 耀⼀朗 1
  2. 背景 ⾮⽂法テキストに対して頑健な係り受け解析をしたい 3 I look in forward hear from you.

    I look in forward to hearing from you. 削除 挿⼊ 置換 × ◦ これまでは 誤り訂正→係り受け解析 提案⼿法 誤り訂正+係り受け解析
  3. l EF parsing に置換・挿⼊・ 削除の操作を追加 l 各トークンにおいて各操作 のスコアを計算 u ATTACHRIGHT

    u ATTACHLEFT u 置換 u 挿⼊ u 削除 5 Error-repair non-directional easy-first (EREF) parsing
  4. l Perceptron Algorithmを⽤いた taggingモデル (Colins, 2002) Ø 各トークンがどの操作を⾏うべきかを学習 Ø 以下の有効性を満たす操作の重みを増やす

    u ATTACHRIGHT, ATTACHLEFT l 係り受け関係が正解データに含まれているか l ⼦ノードが全ての⼦ノードを持っているか u 置換、挿⼊、削除 l 正解データと⽐べて操作後の編集距離が操作前の編集距離より ⼩さくなるか 7 係り受け解析器の学習
  5. n 候補を制限するために同じ品詞もしくは定義されたリストから選択 l 冠詞 {a, an, the, Φ} l 前置詞

    {on, about, from, for, of, to, at, in, with, by, Φ} l 動詞の活⽤ {VB(P|Z|G|D|N)} n それぞれのn-gram⾔語モデルスコアを⽐較して最も良い候補を選択 l KenLMでEnglish Gigawordの5-gram⾔語モデルを構築 8 置換・挿⼊の候補セット
  6. 実験1 係り受け解析の性能評価 ⽂法的なコーパスに⽂法誤りを注⼊ n ツリーバンク l Penn Treebank(PTB) (Marcus et

    al., 1993) n 注⼊する誤りタイプ l 冠詞、前置詞、名詞の単数形or複数形、動詞の時制と態、主語 と動詞の⼀致 n PTBに5%, 10%, 15%, 20%の割合で統計的に誤りを注⼊ l GenERRate toolkit (Foster and Andersen, 2009) 9
  7. 実験2 ⽂法性の向上の評価 実際の⽂法誤りコーパスで実験 n テストデータ l Treebank of Learner English

    (TLE) (Berzak et al., 2016) l 5,124⽂に係り受け情報と品詞情報を付与 n 訓練データ l Annotated Gigaword (Napoles et al., 2012) n 評価 l ⽂法性を1から4のスコアで評価 (Heilman et al., 2014) 11
  8. 参考⽂献 u Non-directional easy-first parsing Yoav Goldberg and Michael Elhadad.

    2010. An efficient algorithm for easy-first non-directional dependency parsing. In Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, Los Angeles, California, pages 742–750. http://www.aclweb.org/anthology/N10-1115 u Training parser Michael Collins. 2002. Discriminative training methods for hidden markov models: Theory and experiments with perceptron algorithms. In Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, pages 1–8. http://www.aclweb.org/anthology/W02-1001 u Generating errors Jennifer Foster and Oistein Andersen. 2009. Generrate: Generating errors for use in grammatical error detection. In Proceedings of the Fourth Work-shop on Innovative Use of NLP for Building Educational Applications. Association for Computational Linguistics, Boulder, Colorado, pages 82–90. http://www.aclweb.org/anthology/W09-2112.pdf u Grammaticality score Michael Heilman, Aoife Cahill, Nitin Madnani, Melissa Lopez, Matthew Mulholland, and Joel Tetreault. 2014. Predicting grammaticality on an ordinal scale. In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). Association for Computational Linguistics, Baltimore, Maryland, pages 174–180. http://www.aclweb.org/anthology/P14-2029 14