Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論述リビジョンのためのメタ評価基盤

 論述リビジョンのためのメタ評価基盤

言語処理学会第28回年次大会 発表資料

2d4315a0cfbfeb12fdc48bbadd955cd9?s=128

Masato Mita

March 15, 2022
Tweet

More Decks by Masato Mita

Other Decks in Research

Transcript

  1. 論述リビジョンのためのメタ評価基盤 三⽥雅⼈1 坂⼝慶祐2 萩原正⼈3,4 ⽔本智也5,1 鈴⽊潤6,1 乾健太郎6,1 ⾔語処理学会第28回年次⼤会 1理化学研究所 2Allen

    Institute for AI 3Earth Species Project 4Octanove Labs 5フューチャー株式会社 6東北⼤学
  2. リビジョン(Revision)とは 1 “ After splitting, the text is amenable for

    further fine-tuned simplification operations. In particular, we show that neural machine translation can be effectively used in this situation. Previous applications of machine translation for simplification reveal that it has considerable disadvantage of being overly conservative, often failing to modify the source in any way. The proposed method of splitting based on semantic parsing alleviates this issue;. after splitting, more fine-tuned simplification operations can be applied to the text.” - 本研究で作成したデータセットより “Flow(論述の流れ)” ; この情報は論述の流れを中断 させるため下に移動させてください 論述全体の流れや⼀貫性など⽂書単位でライティングの品質を向上させること を⽬的とした編集
  3. リビジョンは論述ライティングにおける重要なステップ 2 “The language model allows emulation of to emulate

    the noise generated.” “We present results of on a quantitative analysis.” ⽂書 句/⽂ 単語 ライティング “ After splitting, the text is amenable for further fine-tuned simplification operations. In particular, we show that neural machine translation can be effectively used in this situation. Previous applications of machine translation for simplification reveal that it has considerable disadvantage of being overly conservative, often failing to modify the source in any way. The proposed method of splitting based on semantic parsing alleviates this issue;. after splitting, more fine-tuned simplification operations can be applied to the text.” Editing Proofreading 典型的なライティングプロセスは広範囲で⾼次な観点から徐々に編集 範囲を狭めていくとされている [Buchman et al., 2000; Seow, 2002] Revision スコープ
  4. ライティングと⾃然⾔語処理(⽂法誤り訂正) 3 “The language model allows emulation of to emulate

    the noise generated.” “We present results of on a quantitative analysis.” ⽂書 句/⽂ 単語 ライティング “ After splitting, the text is amenable for further fine-tuned simplification operations. In particular, we show that neural machine translation can be effectively used in this situation. Previous applications of machine translation for simplification reveal that it has considerable disadvantage of being overly conservative, often failing to modify the source in any way. The proposed method of splitting based on semantic parsing alleviates this issue;. after splitting, more fine-tuned simplification operations can be applied to the text.” Revision Editing Proofreading 前置詞や冠詞など閉じたクラスを対象とした局所的な編集から句・⽂単位で 流暢性のある編集へとスコープを広げてきた [Ng et al., 2014; Napoles et al., 2017] スコープ ⾃然⾔語処理 ⽂法誤り訂正 - 流暢性のある編集 - - 局所的な編集 - ⽂書単位で⾃動的にリビジョンを⾏う研究についてほとんど議論されていない
  5. 本研究の概要 4 “The language model allows emulation of to emulate

    the noise generated.” “We present results of on a quantitative analysis.” ⽂書 句/⽂ 単語 “ After splitting, the text is amenable for further fine-tuned simplification operations. In particular, we show that neural machine translation can be effectively used in this situation. Previous applications of machine translation for simplification reveal that it has considerable disadvantage of being overly conservative, often failing to modify the source in any way. The proposed method of splitting based on semantic parsing alleviates this issue;. after splitting, more fine-tuned simplification operations can be applied to the text.” Revision ʢOur focusʣ Editing Proofreading 本研究のビジョン: ⾼精度な⾃動リビジョンシステムの実現 →より広く深い⽂脈を考慮した編集技術が必要 ⽂法誤り訂正 - 流暢性のある編集 - - 局所的な編集 - 論述リビジョン ライティング スコープ ⾃然⾔語処理 本研究の⽬的: 論述リビジョンタスクの提案とそのための研究基盤の提供
  6. 論述リビジョンのタスク定義 5 ⼊⼒⽂書 𝑑 Community-based Question Answering services, such as

    Yahoo! Answers, OKWave and Baidu Zhidao, have become popular web services. In these services, a user posts a question and other users answer it. The questioner chooses one of the answers as the best answer. These services have many threads consisting of one question and a number of answers, and the number of threads grows day by day. The threads are stored and anyone can read them. When a user has a question, if there is a similar question in the service, he or she can refer to the answers to the similar question. Herefrom, these services are useful for not only the questioner but also other users having a similar question. Community-based Question Answering services, such as Yahoo! Answers, OKWave, and Baidu Zhidao, have become popular web services. As the name suggests, on such services, a user posts a question, other users answer it, and the original questioner selects the best answer. Typically, such services have an increasing number of threads comprising a single question and multiple answers. The threads are stored and are publicly available. If a user posts a question similar to one stored in the system, they can refer to the answers to the stored question. 出⼒⽂書 𝑑’ • ⼊⼒⽂書 𝑑 が与えられたとき,⾃動リビジョンシステム 𝒇 は元の意味を保持しつつ⽂書 単位で品質を向上させるためのリビジョン 𝑹 を⾏い出⼒⽂書 𝑑’ を返すタスク (𝑓: 𝑑 ⟼ 𝑑’) • リビジョン 𝑹 は編集 𝒆 の集合からなる (𝒆 ∈ 𝑹) システム 𝒇 編集 𝒆 編集 𝒆 リビジョン 𝑹
  7. ⾼精度な参照なし⾃動評価の実現が⼤きな課題 6 1. ⽂を跨いだ編集(⽂結合/分割,⽂の並び替え)も含まれる → 参照との正確な照合は難しい😩 2. ⽂レベルの正解参照空間に⽐べ,⽂書レベルの正解参照空間はさらに⼤きい → 妥当な参照をすべて収集することは難しい😩

    論述リビジョンタスクの⾃動評価の特徴: 参照なし評価が必須 → どの程度⼈間の判断と相関があるかに関する評価(メタ評価)が必要
  8. 提案メタ評価基盤(概要) 7 メタ評価 ペアワイズ評価 TETRA 1⽂書(段落) 論述リビジョンに向けた提案メタ評価基盤 評価尺度α 評価尺度β 評価尺度α

    論述リビジョン(将来的) リビジョン システム 抽出 無編集 1編集後 複数の編集箇所が混在 , 1編集事例のみからなる⽂書対 (one-hotペアデータ) Instance-based Revision Classification (IRC) 評価尺度β
  9. Text Revision of ACL papers (TETRA) 8 ACL系論⽂に対して⽂書レベルのリビジョンをアノテーションしたデータセット(386⽂書対) ü 英語⺟語話者かつ英⽂校正の専⾨家3名によるリビジョン

    ü ⼤域的な編集にも対応可能なアノテーションスキームに基づいて設計・XMLを⽤いた構造化 ü 編集タイプおよび編集根拠コメントをアノテーション ※ データセット作成⼿順の詳細は予稿をご査証ください
  10. 編集の実例(Clarity; 明瞭さ) 9 We propose an approach combining two methodologies

    to address these shortcomings. Firstly, (…) Secondly, (…) Finally, the more layers we freeze the fewer layers we will need to back-propagate through during training. Thus we expect to see a decrease in GPU memory usage since we do not have to maintain gradients for all layers. We propose an approach combining two methodologies to address these shortcomings. Firstly, (…) Secondly, (…) Finally, the more layers we freeze the fewer layers we will need to back-propagate through during training; thus, we expect to see a decrease in GPU memory usage since we do not have to maintain gradients for all layers. “Clarity”; joining these two sentences to make it clear the both form the third improvement, rather than there being four. リビジョン前: リビジョン後:
  11. 編集の実例(Readability; 読みやすさ) 10 “Readability”; rearranged to make it less choppy

    and make the choice of "have" vs "has" more clear リビジョン前: リビジョン後: In this research area, image captioning methods, which automatically generate image descriptions (captions), have attracted a great deal of attention (Karpathy and Fei-Fei, 2015; Donahue et al., 2015; Vinyals et al., 2015; Mao et al., 2015). In this research area, methods to automatically generate image descriptions (captions), that is, image captioning, have attracted a great deal of attention (Karpathy and Fei-Fei, 2015; Donahue et al., 2015; Vinyals et al., 2015; Mao et al., 2015).
  12. TETRAに含まれる各評価項⽬の分布 11 評価項⽬ 編集タイプ (抜粋) 編集範囲 論述リビジョン固有 # % Grammaticality

    grammar, capitalization ⽂ 81 22.1 Fluency word choice, word order ⽂ 42 11.4 Style style, tone ⽂ ✔ 5 1.4 Clarity clarity ⽂/⽂書 ✔ 43 11.7 Readability readability, punctuation ⽂/⽂書 ✔ 160 43.6 Redundancy redundancy, conciseness ⽂書 ✔ 28 7.6 Consistency consistency, flow ⽂書 ✔ 8 2.2 • これまで⽂法誤り訂正が対象としてきた編集も含めて全7種類の評価項⽬に基づく編集が存在 • 論述リビジョン固有の編集が66.5% アノテータ1名分のサンプルデータにおける編集タイプの分布を算出 Ø 関連する編集タイプを各評価項⽬に⼈⼿で対応付け
  13. 提案メタ評価基盤(概要) 12 メタ評価 ペアワイズ評価 TETRA 1⽂書(段落) 論述リビジョンに向けた提案メタ評価基盤 評価尺度α 評価尺度β 評価尺度α

    論述リビジョン(将来的) リビジョン システム 抽出 無編集 1編集後 複数の編集箇所が混在 , 1編集事例のみからなる⽂書対 (one-hotペアデータ) Instance-based Revision Classification (IRC) 評価尺度β
  14. モチベーション 13 ⼈間の専⾨家によるリビジョン(gold revision)を⽤いた⼆値分類? Ø ペアワイズ⽐較は,絶対評価が難しい状況下のメタ評価⼿法として有効 [Guzman et al., 2015;

    Christiano et al., 2017] どちらがgold revision? , ⽂書 𝒅’ (gold revision) ⽂書 𝒅 論述リビジョンの評価⽅法として絶対評価は難しい ü 7種類の評価項⽬に基づく多種多様な編集が混在 ü 正解参照空間が⼤きい 問題: • 透明性や解釈性の⾼い分析が難しい😩 • 包括的な評価では限界がある😩 [Kasai et al., 2021]
  15. Instance-based Revision Classification (IRC) 14 1. 複数の多種多様な編集が混在する⽂書に対して,1⽂書につき1編集事例のみ からなる⽂書対(one-hot ペアデータ)に変換 2.

    One-hotペアデータに対してペアワイズ⽐較(⼆値分類) 評価項⽬毎の精度および編集根拠をフィードバック可能 Ø 透明性および解釈性の⾼い評価・分析が実現😄 ペアワイズ評価 TETRA 1⽂書(段落) 評価尺度α 評価尺度β 抽出 無編集 1編集後 複数の編集箇所が混在 , 1編集事例のみからなる⽂書対 (one-hotペアデータ) Instance-based Revision Classification (IRC)
  16. 実験設定 15 ⽬的: • 提案メタ評価基盤を⽤いたメタ評価のデモンストレーションを通して,⾃動評価 の現状と実現可能性を明らかにする 評価: • TETRAの1/4を評価⽤one-hotペアデータ(1368⽂書対)に変換 ベースライン参照なし評価尺度:

    • GPT-2[Radford et al., 2019]に基づく評価尺度 (GPT-2) Ø ⼊⼒の2⽂書それぞれの単語あたりのperplexity を⽐較しその⼤⼩によって⼆値 分類を⾏う • BERT[Devling et al., 2019]に基づく評価尺度 (BERT) Ø TETRAの3/4を学習⽤データ(868⽂書対)として使⽤し,BERT+線形分類レイ ヤによって⼆値分類タスクとしてFinetuneを⾏う 教師あり 教師なし
  17. デモンストレーション 16 ⾃動評価の現状: • 教師なし評価尺度は⽂書レベルのリ ビジョンをほとんど捉えることがで きていない • 教師あり評価尺度はある程度捉える ことができている

    ⽂書レベルのリビジョンにおける ⾃動評価の実現可能性を⽰唆
  18. まとめ 17 • 「⽂」から「⽂書」レベルのより⾼度な編集へ − ⽂法誤り訂正の⾃然な拡張としての論述リビジョンタスクを提案した − タスクの確⽴に向けた課題を紹介した • 論述リビジョンのためのメタ評価基盤

    − ⾼精度な参照なし評価尺度の開発を促進させることを⽬的とした透明性・ 解釈性の⾼いメタ評価基盤を提案した • メタ評価のデモンストレーション − ⽂書レベルのリビジョンに対する⾃動評価の現状と実現可能性を⽰した