Slide 1

Slide 1 text

Ground Truth for Grammatical Error Correction Metrics Courtney Napoles, Keisuke Sakaguchi, Matt Post, Joel Tetreault 文献紹介 2019/7/16 長岡技術科学大学 自然言語処理研究室 吉澤 亜斗武 Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Short Papers), pages 588–593, Beijing, China, July 26-31, 2015.

Slide 2

Slide 2 text

Abstract ・既存のGEC(Grammatical Error Correction)の評価基準は 人間の判断に基づく基準と比較されていない. ・GECシステムの出力を人間による評価を行い,MaxMatch (M 2)やI-measureなどの評価基準と相関が弱いことを示した. ・BLEUを単純に変形したGLEU(Generalized Language Evaluation Understanding)を提案し,人間の判断にはるかに 近いことを示した. 2

Slide 3

Slide 3 text

1. Introduction ・GECは機械翻訳よりも人間の判断に基づいたground truth (整合性のある評価基準)が求められる. ・CoNLL-2014 Shared Task on GEC の出力に人間によるランク 付けを行うことによって,既存のGECの評価基準は人間の評価 との相関が悪いことがわかった. ・より良い基準へのステップとして,BLEUから発想を得た GLEUをつくった. 3

Slide 4

Slide 4 text

2. Grammatical error correction metrics 4 ・MaxMatch (M 2):フレーズレベルの編集を考慮したF値 ・I-measure:編集距離によって計算された評価基準 ・BLEU: n-gramで一致度をみる.アノテーションがいらない ・ CoNLL-2014 Shared Task on GEC から12の公開された システムの出力からそれぞれの評価基準の値を算出した.

Slide 5

Slide 5 text

2. Grammatical error correction metrics 5 ・BLEUとM 2は負の相関 = −0.772 ・BLEUとI-measureは正の相関 = 0.949 ・多くの評価基準があるにもかかわ らず,人間の判断と比較を試みた 研究がなかった.

Slide 6

Slide 6 text

3. The human ranking 6 ・統計的機械翻訳(WMT)ではPearson’s r か Spearman’s ρを 用いて,人間の判断と評価基準の一致に関する評価がされてい る. ・ 手動評価をサポートするツールキット Appraise を用いて CoNLL-2014 Shared Task on GEC の12のシステムの出力の ランク付けを行った.

Slide 7

Slide 7 text

3. The human ranking 7 ・アノテーターにsrc文とref文 を提示し,無作為に選択され た4つのシステムの出力文を ランク付けしてもらう. ・3人の英語のネイティブ スピーカーに計28,146文を 判定してもらう.

Slide 8

Slide 8 text

3. The human ranking 8 ・TrueSkillを使用して各システムの品質を推定し,総合ランキングを 算出 ・アノテーター同士は品質の推定とランク付けに対して強い 相関がある

Slide 9

Slide 9 text

4. Generalized BLEU 9 ・統計的機械翻訳(WMT)ではPearson’s r か Spearman’s ρを 用いて,人間の判断と評価基準の一致に関する評価がされてい る. ・手動評価をサポートするツールキット Appraise を用いて CoNLL-2014 Shared Task on GEC の12のシステムの出力の ランク付けを行った.

Slide 10

Slide 10 text

4. Generalized BLEU 10 ・BLEU = ∑ 翻訳文と参照訳で一致したn−gram数 ∑ 翻訳文中の全n−gram数 https://www.aclweb.org/anthology/P02-1040

Slide 11

Slide 11 text

4. Generalized BLEU 11

Slide 12

Slide 12 text

4. Generalized BLEU 12 ・GLEU:n-gramの重み付き精度 ・MTの標準パラメータを採用 = 4, = ⁄ 1 ・ ∖ にペナルティの重み: GLEU0.1: = 0.1 GLEU0: = 0

Slide 13

Slide 13 text

5. Result 13 ・GLEU0は人間と人間との 相関( 0.73≤r≤0.81 )に 最も近い. ・人間の順位付けから乖離して いるのは,人間が許容できる 一部の誤りを評価基準は等しく 重みをつけることが原因と考察

Slide 14

Slide 14 text

5. Result 14

Slide 15

Slide 15 text

5. Result 15 ・GLEU0とM 2はAMUのランクを最も高くしているが,誤った 訂正も行っている. ・人間はスペルミスよりも動詞が訂正されているUMCのランク を高くする. ・UMCにおいて訂正箇所が異なるのでM 2 = 0 となるが,GLEU はユニグラムをみるので値が高くなる.

Slide 16

Slide 16 text

6. Summary 16 ・人間が文の質をどのように認識しているのかに着目して, 既存の評価基準を単純な変形することでGLEUを開発した. ・n-gramを使用することで流暢さを捉えつつも,文法的でない 編集を不利にすることで人間の判断をよりモデル化. ・GECにおいて評価基準を改善していくことが重要