Upgrade to Pro — share decks privately, control downloads, hide ads and more …

NLP2025 WS Shared Task 文法誤り訂正部門 ehiMetrick

NLP2025 WS Shared Task 文法誤り訂正部門 ehiMetrick

Other Decks in Research

Transcript

  1. Shared Task の概要 • BEA 2019 開発セットを用いて文法誤り訂正における自動評価の脆弱性を検証 • 「なんでこんな方法で高い自動評価値が出てしまうんだろう…」という気づきを 得ることが目的

    • 本タスクの自動評価は、表層・埋め込み・LLMベースに分けられる • 表層 :ERRANT[1,2]、GLEU[3,4] • 埋め込み :PT-ERRANT[5]、IMPARA[6] • LLM :GPT-4-S[7] 1 [1] Felice et al. (2016) Automatic Extraction of Learner Errors in ESL Sentences Using Linguistically Enhanced Alignments [2] Bryant et al. (2017) Automatic Annotation and Evaluation of Error Types for Grammatical Error Correction [3] Napoles et al. (2015) Ground Truth for Grammatical Error Correction Metrics [4] Napoles et al. (2016) GLEU Without Tuning [5] Gong et al. (2022) Revisiting Grammatical Error Correction Evaluation and Beyond [6] Maeda et al. (2022) IMPARA: Impact-Based Metric for GEC Using Parallel Data [7] Kobayashi et al. (2024) Large Language Models Are State-of-the-Art Evaluator for Grammatical Error Correction 今回は、IMPARAとGPT-4-Sについて検証を実施
  2. IMPARAの脆弱性:類似度に着目 • 入力文と出力文の類似度によるフィルタリング機構が存在 閾値を超えた場合にのみ、訂正評価モデルによる訂正スコアが付与される • 適切な誤り訂正であっても、類似度の閾値によって評価スコアが0になる • 通常の出力文と無編集の出力文の2つを用意 • 適切な誤り訂正文よりも不適切な誤り訂正文の方がIMPARAの値が高い

    4 入力文 出力文 類似度(𝜃 = 0.9) IMPARA It is a ciclical process . It is a cyclical process . 0.892 0 It is a ciclical process . 1.000 0.981 He followed and apoligized her . He followed and apologized to her . 0.863 0 He followed and apoligized her . 1.000 0.112 訂正評価モデルによる訂正スコア
  3. 実験設定 • データセット:BEA 2019 の開発セット 4,384文 • 評価指標 • 表層

    :ERRANT, GLEU+ • 埋め込み :PT-ERRTANT, IMPARA • LLM :GPT-4-S • 出力文の生成モデル(ベースライン) GPT-4o • 手法 類似度の閾値を0.9に設定し、閾値以下の場合、出力文を入力文に変更 6
  4. 評価結果:言い換え文 • 実験設定 • GPT-4oによって言い換え文を作成 • ベースラインの出力文の類似度が0.9以下の場合、類似度が0.9よりも高くなるまで 最大5回言い換え文を作成 • 言い換え文は、IMPARAのみベースラインとの評価値の差が小さい

    • 最大5回言い換え文を作成する手法では、PT-ERRANTとIMPARAの評価が 不当に高くなっている 12 ERRANT GLEU PT-ERRANT IMPARA GPT-4-S ベースライン 0.426 0.759 0.447 0.814 4.637 言い換え文 0.105 0.301 0.080 0.805 4.522 + 類似度 and 最大5回 0.426 0.759 0.450 0.816 4.629
  5. LLM:GPT-4-S 文法誤り訂正において文全体の品質を評価する 14 The goal of this task is to

    rank the presented target based on the quality of the sentences. After reading the source, please assign a score from a minimum of 1 point to a maximum of 5 points to the target based on the quality of the sentence. # source [SOURCE] # target [CORRECTION] # output format The output should be a markdown code snippet formatted in the following schema, including the leading and trailing “```json” and “```”: ``` { "target_score": int // assigned score for target } ``` 文の品質に基づいて1点から5点の範囲で スコアづけしてください But , if you want I look for a job from you . But , if you want , I will look for a job for you . 入力文 出力文 出力は、json形式で出力してください
  6. まとめ • 文法誤り訂正における自動評価の脆弱性を検証 • IMPARAとGPT-4-Sの検証に取り組んだ • IMPARA :類似度、単語数、言い換え文に着目 • GPT-4-S

    :評価を不当に高くつけるような指示を追加 • 文法誤り訂正の自動評価には脆弱性が含まれていることを確認できた 17