$30 off During Our Annual Pro Sale. View Details »

Ground Truth for Grammatical Error Correction Metrics

Atom
July 16, 2019
94

Ground Truth for Grammatical Error Correction Metrics

Atom

July 16, 2019
Tweet

More Decks by Atom

Transcript

  1. Ground Truth for Grammatical Error
    Correction Metrics
    Courtney Napoles, Keisuke Sakaguchi, Matt Post, Joel Tetreault
    文献紹介
    2019/7/16
    長岡技術科学大学
    自然言語処理研究室 吉澤 亜斗武
    Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics
    and the 7th International Joint Conference on Natural Language Processing (Short
    Papers), pages 588–593, Beijing, China, July 26-31, 2015.

    View Slide

  2. Abstract
    ・既存のGEC(Grammatical Error Correction)の評価基準は
    人間の判断に基づく基準と比較されていない.
    ・GECシステムの出力を人間による評価を行い,MaxMatch
    (M
    2)やI-measureなどの評価基準と相関が弱いことを示した.
    ・BLEUを単純に変形したGLEU(Generalized Language
    Evaluation Understanding)を提案し,人間の判断にはるかに
    近いことを示した.
    2

    View Slide

  3. 1. Introduction
    ・GECは機械翻訳よりも人間の判断に基づいたground truth
    (整合性のある評価基準)が求められる.
    ・CoNLL-2014 Shared Task on GEC の出力に人間によるランク
    付けを行うことによって,既存のGECの評価基準は人間の評価
    との相関が悪いことがわかった.
    ・より良い基準へのステップとして,BLEUから発想を得た
    GLEUをつくった.
    3

    View Slide

  4. 2. Grammatical error correction metrics
    4
    ・MaxMatch (M
    2):フレーズレベルの編集を考慮したF値
    ・I-measure:編集距離によって計算された評価基準
    ・BLEU: n-gramで一致度をみる.アノテーションがいらない
    ・ CoNLL-2014 Shared Task on GEC から12の公開された
    システムの出力からそれぞれの評価基準の値を算出した.

    View Slide

  5. 2. Grammatical error correction metrics
    5
    ・BLEUとM
    2は負の相関
    = −0.772
    ・BLEUとI-measureは正の相関
    = 0.949
    ・多くの評価基準があるにもかかわ
    らず,人間の判断と比較を試みた
    研究がなかった.

    View Slide

  6. 3. The human ranking
    6
    ・統計的機械翻訳(WMT)ではPearson’s r か Spearman’s ρを
    用いて,人間の判断と評価基準の一致に関する評価がされてい
    る.
    ・ 手動評価をサポートするツールキット Appraise を用いて
    CoNLL-2014 Shared Task on GEC の12のシステムの出力の
    ランク付けを行った.

    View Slide

  7. 3. The human ranking
    7
    ・アノテーターにsrc文とref文
    を提示し,無作為に選択され
    た4つのシステムの出力文を
    ランク付けしてもらう.
    ・3人の英語のネイティブ
    スピーカーに計28,146文を
    判定してもらう.

    View Slide

  8. 3. The human ranking
    8
    ・TrueSkillを使用して各システムの品質を推定し,総合ランキングを
    算出
    ・アノテーター同士は品質の推定とランク付けに対して強い
    相関がある

    View Slide

  9. 4. Generalized BLEU
    9
    ・統計的機械翻訳(WMT)ではPearson’s r か Spearman’s ρを
    用いて,人間の判断と評価基準の一致に関する評価がされてい
    る.
    ・手動評価をサポートするツールキット Appraise を用いて
    CoNLL-2014 Shared Task on GEC の12のシステムの出力の
    ランク付けを行った.

    View Slide

  10. 4. Generalized BLEU
    10
    ・BLEU

    = ∑
    翻訳文と参照訳で一致したn−gram数

    翻訳文中の全n−gram数
    https://www.aclweb.org/anthology/P02-1040

    View Slide

  11. 4. Generalized BLEU
    11

    View Slide

  12. 4. Generalized BLEU
    12
    ・GLEU:n-gramの重み付き精度
    ・MTの標準パラメータを採用 = 4,
    = ⁄
    1
    ・ ∖ にペナルティの重み:
    GLEU0.1: = 0.1 GLEU0: = 0

    View Slide

  13. 5. Result
    13
    ・GLEU0は人間と人間との
    相関( 0.73≤r≤0.81 )に
    最も近い.
    ・人間の順位付けから乖離して
    いるのは,人間が許容できる
    一部の誤りを評価基準は等しく
    重みをつけることが原因と考察

    View Slide

  14. 5. Result
    14

    View Slide

  15. 5. Result
    15
    ・GLEU0とM
    2はAMUのランクを最も高くしているが,誤った
    訂正も行っている.
    ・人間はスペルミスよりも動詞が訂正されているUMCのランク
    を高くする.
    ・UMCにおいて訂正箇所が異なるのでM
    2
    = 0 となるが,GLEU
    はユニグラムをみるので値が高くなる.

    View Slide

  16. 6. Summary
    16
    ・人間が文の質をどのように認識しているのかに着目して,
    既存の評価基準を単純な変形することでGLEUを開発した.
    ・n-gramを使用することで流暢さを捉えつつも,文法的でない
    編集を不利にすることで人間の判断をよりモデル化.
    ・GECにおいて評価基準を改善していくことが重要

    View Slide