Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Error-repair Dependency Parsing for Ungrammatical Texts

Error-repair Dependency Parsing for Ungrammatical Texts

文献紹介(2018-05-09)
長岡技術科学大学
自然言語処理研究室

youichiro

May 08, 2018
Tweet

More Decks by youichiro

Other Decks in Technology

Transcript

  1. Error-repair Dependency Parsing
    for Ungrammatical Texts
    Keisuke Sakaguchi, Matta Post and Benjamin Van Durme
    Proceedings of the 55th Annual Meeting of the Association for Computational
    Linguistics (Short Papers), pages 189–195, 2017
    ⽂献紹介(2018/05/09)
    ⻑岡技術科学⼤学 ⾃然⾔語処理研究室 ⼩川 耀⼀朗
    1

    View Slide

  2. 概要
    Ø ⽂法誤り訂正と係り受け解析を同時に⾏う
    l 既存の係り受け解析器に置換・挿⼊・削除の操作を追加
    Ø 係り受け解析の性能と⽂法性の向上を評価
    l ⾮⽂法テキストに対し頑健な係り受け解析を⽰した
    2

    View Slide

  3. 背景
    ⾮⽂法テキストに対して頑健な係り受け解析をしたい
    3
    I look in forward hear from you.
    I look in forward to hearing from you.
    削除 挿⼊ 置換
    ×

    これまでは
    誤り訂正→係り受け解析
    提案⼿法
    誤り訂正+係り受け解析

    View Slide

  4. 4
    Non-directional Easy-first (EF) parsing
    Goldberg and Elhadad (2010)
    ATTACH RIGHT
    ATTACH LEFT

    View Slide

  5. l EF parsing に置換・挿⼊・
    削除の操作を追加
    l 各トークンにおいて各操作
    のスコアを計算
    u ATTACHRIGHT
    u ATTACHLEFT
    u 置換
    u 挿⼊
    u 削除
    5
    Error-repair non-directional
    easy-first (EREF) parsing

    View Slide

  6. n 新たな操作の追加によって無限ループに陥ってしまう
    (置換→置換→置換→... 、削除→挿⼊→削除→...)
    n 以下の制約を追加
    l 置換されたトークンは再び置換されることはない
    l ⽂中のトークン数以上に置換・挿⼊・削除の操作を⾏えない
    6
    係り受け探索の無限ループの対策

    View Slide

  7. l Perceptron Algorithmを⽤いた taggingモデル (Colins, 2002)
    Ø 各トークンがどの操作を⾏うべきかを学習
    Ø 以下の有効性を満たす操作の重みを増やす
    u ATTACHRIGHT, ATTACHLEFT
    l 係り受け関係が正解データに含まれているか
    l ⼦ノードが全ての⼦ノードを持っているか
    u 置換、挿⼊、削除
    l 正解データと⽐べて操作後の編集距離が操作前の編集距離より
    ⼩さくなるか
    7
    係り受け解析器の学習

    View Slide

  8. n 候補を制限するために同じ品詞もしくは定義されたリストから選択
    l 冠詞 {a, an, the, Φ}
    l 前置詞 {on, about, from, for, of, to, at, in, with, by, Φ}
    l 動詞の活⽤ {VB(P|Z|G|D|N)}
    n それぞれのn-gram⾔語モデルスコアを⽐較して最も良い候補を選択
    l KenLMでEnglish Gigawordの5-gram⾔語モデルを構築
    8
    置換・挿⼊の候補セット

    View Slide

  9. 実験1 係り受け解析の性能評価
    ⽂法的なコーパスに⽂法誤りを注⼊
    n ツリーバンク
    l Penn Treebank(PTB) (Marcus et al., 1993)
    n 注⼊する誤りタイプ
    l 冠詞、前置詞、名詞の単数形or複数形、動詞の時制と態、主語
    と動詞の⼀致
    n PTBに5%, 10%, 15%, 20%の割合で統計的に誤りを注⼊
    l GenERRate toolkit (Foster and Andersen, 2009)
    9

    View Slide

  10. 実験1 係り受け解析の性能評価
    ベースライン:⽂法誤り訂正システム(Rozovskaya and Roth, 2014)+EF parsing
    =
    ()%
    − )%
    20
    10

    View Slide

  11. 実験2 ⽂法性の向上の評価
    実際の⽂法誤りコーパスで実験
    n テストデータ
    l Treebank of Learner English (TLE) (Berzak et al., 2016)
    l 5,124⽂に係り受け情報と品詞情報を付与
    n 訓練データ
    l Annotated Gigaword (Napoles et al., 2012)
    n 評価
    l ⽂法性を1から4のスコアで評価 (Heilman et al., 2014)
    11

    View Slide

  12. 実験2 ⽂法性の向上の評価
    l E15, E20で⽂法性が向上
    l 事前に⽂法レベルを知っておく必要がある
    l まだ改善の余地があり、扱うことのできる誤りタイプを増やす必要
    がある
    12

    View Slide

  13. まとめ
    Ø Non-directional easy-first parser に置換・挿⼊・削除といった新
    たな操作を加えることで、⽂法誤り訂正を⾏いながら係り受け解析
    を⾏う
    Ø ⾮⽂法テキストに対し頑健な係り受け解析を⾏うことができ、⽂法
    性が向上した
    13

    View Slide

  14. 参考⽂献
    u Non-directional easy-first parsing
    Yoav Goldberg and Michael Elhadad. 2010. An efficient algorithm for easy-first non-directional
    dependency parsing. In Human Language Technologies: The 2010 Annual Conference of the North
    American Chapter of the Association for Computational Linguistics. Association for Computational
    Linguistics, Los Angeles, California, pages 742–750.
    http://www.aclweb.org/anthology/N10-1115
    u Training parser
    Michael Collins. 2002. Discriminative training methods for hidden markov models: Theory and
    experiments with perceptron algorithms. In Proceedings of the 2002 Conference on Empirical Methods in
    Natural Language Processing. Association for Computational Linguistics, pages 1–8.
    http://www.aclweb.org/anthology/W02-1001
    u Generating errors
    Jennifer Foster and Oistein Andersen. 2009. Generrate: Generating errors for use in grammatical error
    detection. In Proceedings of the Fourth Work-shop on Innovative Use of NLP for Building Educational
    Applications. Association for Computational Linguistics, Boulder, Colorado, pages 82–90.
    http://www.aclweb.org/anthology/W09-2112.pdf
    u Grammaticality score
    Michael Heilman, Aoife Cahill, Nitin Madnani, Melissa Lopez, Matthew Mulholland, and Joel Tetreault.
    2014. Predicting grammaticality on an ordinal scale. In Proceedings of the 52nd Annual Meeting of the
    Association for Computational Linguistics (Volume 2: Short Papers). Association for Computational
    Linguistics, Baltimore, Maryland, pages 174–180.
    http://www.aclweb.org/anthology/P14-2029
    14

    View Slide

  15. 参考
    15

    View Slide