Ground Truth for Grammatical Error Correction Metrics

Ground Truth for Grammatical Error Correction Metrics Courtney Napoles, Keisuke
Sakaguchi, Matt Post, Joel Tetreault 文献紹介 2019/7/16 長岡技術科学大学自然言語処理研究室吉澤亜斗武 Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Short Papers), pages 588–593, Beijing, China, July 26-31, 2015.

Abstract ・既存のGEC（Grammatical Error Correction）の評価基準は人間の判断に基づく基準と比較されていない．・GECシステムの出力を人間による評価を行い，MaxMatch （M 2）やI-measureなどの評価基準と相関が弱いことを示した．・BLEUを単純に変形したGLEU（Generalized Language
Evaluation Understanding）を提案し，人間の判断にはるかに近いことを示した． 2

1. Introduction ・GECは機械翻訳よりも人間の判断に基づいたground truth （整合性のある評価基準）が求められる．・CoNLL-2014 Shared Task on GEC
の出力に人間によるランク付けを行うことによって，既存のGECの評価基準は人間の評価との相関が悪いことがわかった．・より良い基準へのステップとして，BLEUから発想を得た GLEUをつくった． 3

2. Grammatical error correction metrics 4 ・MaxMatch (M 2)：フレーズレベルの編集を考慮したF値・I-measure：編集距離によって計算された評価基準
・BLEU： n-gramで一致度をみる．アノテーションがいらない・ CoNLL-2014 Shared Task on GEC から12の公開されたシステムの出力からそれぞれの評価基準の値を算出した．

2. Grammatical error correction metrics 5 ・BLEUとM 2は負の相関 = −0.772
・BLEUとI-measureは正の相関 = 0.949 ・多くの評価基準があるにもかかわらず，人間の判断と比較を試みた研究がなかった．

3. The human ranking 6 ・統計的機械翻訳（WMT）ではPearson’s r か Spearman’s ρを
用いて，人間の判断と評価基準の一致に関する評価がされている．・手動評価をサポートするツールキット Appraise を用いて CoNLL-2014 Shared Task on GEC の12のシステムの出力のランク付けを行った．

3. The human ranking 7 ・アノテーターにsrc文とref文を提示し，無作為に選択された4つのシステムの出力文をランク付けしてもらう．・3人の英語のネイティブ
スピーカーに計28,146文を判定してもらう．

3. The human ranking 8 ・TrueSkillを使用して各システムの品質を推定し，総合ランキングを算出・アノテーター同士は品質の推定とランク付けに対して強い相関がある

4. Generalized BLEU 9 ・統計的機械翻訳（WMT）ではPearson’s r か Spearman’s ρを用いて，人間の判断と評価基準の一致に関する評価がされてい
る．・手動評価をサポートするツールキット Appraise を用いて CoNLL-2014 Shared Task on GEC の12のシステムの出力のランク付けを行った．

4. Generalized BLEU 10 ・BLEU = ∑ 翻訳文と参照訳で一致したn−gram数 ∑ 翻訳文中の全n−gram数
https://www.aclweb.org/anthology/P02-1040

4. Generalized BLEU 11

4. Generalized BLEU 12 ・GLEU：n-gramの重み付き精度・MTの標準パラメータを採用 = 4, = ⁄
1 ・ ∖ にペナルティの重み： GLEU0.1： = 0.1 GLEU0： = 0

5. Result 13 ・GLEU0は人間と人間との相関（ 0.73≤r≤0.81 ）に最も近い．・人間の順位付けから乖離しているのは，人間が許容できる
一部の誤りを評価基準は等しく重みをつけることが原因と考察

5. Result 14

5. Result 15 ・GLEU0とM 2はAMUのランクを最も高くしているが，誤った訂正も行っている．・人間はスペルミスよりも動詞が訂正されているUMCのランクを高くする．・UMCにおいて訂正箇所が異なるのでM 2
= 0 となるが，GLEU はユニグラムをみるので値が高くなる．

6. Summary 16 ・人間が文の質をどのように認識しているのかに着目して，既存の評価基準を単純な変形することでGLEUを開発した．・n-gramを使用することで流暢さを捉えつつも，文法的でない編集を不利にすることで人間の判断をよりモデル化．・GECにおいて評価基準を改善していくことが重要

Ground Truth for Grammatical Error Correction M...

Ground Truth for Grammatical Error Correction Metrics

Atom

More Decks by Atom

Featured

Transcript