Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Ground Truth for Grammatical Error Correction Metrics

Atom
July 16, 2019
110

Ground Truth for Grammatical Error Correction Metrics

Atom

July 16, 2019
Tweet

More Decks by Atom

Transcript

  1. Ground Truth for Grammatical Error Correction Metrics Courtney Napoles, Keisuke

    Sakaguchi, Matt Post, Joel Tetreault 文献紹介 2019/7/16 長岡技術科学大学 自然言語処理研究室 吉澤 亜斗武 Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Short Papers), pages 588–593, Beijing, China, July 26-31, 2015.
  2. 1. Introduction ・GECは機械翻訳よりも人間の判断に基づいたground truth (整合性のある評価基準)が求められる. ・CoNLL-2014 Shared Task on GEC

    の出力に人間によるランク 付けを行うことによって,既存のGECの評価基準は人間の評価 との相関が悪いことがわかった. ・より良い基準へのステップとして,BLEUから発想を得た GLEUをつくった. 3
  3. 2. Grammatical error correction metrics 4 ・MaxMatch (M 2):フレーズレベルの編集を考慮したF値 ・I-measure:編集距離によって計算された評価基準

    ・BLEU: n-gramで一致度をみる.アノテーションがいらない ・ CoNLL-2014 Shared Task on GEC から12の公開された システムの出力からそれぞれの評価基準の値を算出した.
  4. 2. Grammatical error correction metrics 5 ・BLEUとM 2は負の相関 = −0.772

    ・BLEUとI-measureは正の相関 = 0.949 ・多くの評価基準があるにもかかわ らず,人間の判断と比較を試みた 研究がなかった.
  5. 3. The human ranking 6 ・統計的機械翻訳(WMT)ではPearson’s r か Spearman’s ρを

    用いて,人間の判断と評価基準の一致に関する評価がされてい る. ・ 手動評価をサポートするツールキット Appraise を用いて CoNLL-2014 Shared Task on GEC の12のシステムの出力の ランク付けを行った.
  6. 4. Generalized BLEU 9 ・統計的機械翻訳(WMT)ではPearson’s r か Spearman’s ρを 用いて,人間の判断と評価基準の一致に関する評価がされてい

    る. ・手動評価をサポートするツールキット Appraise を用いて CoNLL-2014 Shared Task on GEC の12のシステムの出力の ランク付けを行った.