Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論述リビジョンのためのメタ評価基盤

 論述リビジョンのためのメタ評価基盤

言語処理学会第28回年次大会 発表資料

Masato Mita

March 15, 2022
Tweet

More Decks by Masato Mita

Other Decks in Research

Transcript

  1. 論述リビジョンのためのメタ評価基盤
    三⽥雅⼈1 坂⼝慶祐2 萩原正⼈3,4 ⽔本智也5,1 鈴⽊潤6,1 乾健太郎6,1
    ⾔語処理学会第28回年次⼤会
    1理化学研究所 2Allen Institute for AI 3Earth Species Project
    4Octanove Labs 5フューチャー株式会社 6東北⼤学

    View Slide

  2. リビジョン(Revision)とは
    1
    “ After splitting, the text is amenable for further fine-tuned simplification
    operations. In particular, we show that neural machine translation can be
    effectively used in this situation. Previous applications of machine
    translation for simplification reveal that it has considerable disadvantage of
    being overly conservative, often failing to modify the source in any way. The
    proposed method of splitting based on semantic parsing alleviates this
    issue;. after splitting, more fine-tuned simplification operations can be
    applied to the text.”
    - 本研究で作成したデータセットより
    “Flow(論述の流れ)” ; この情報は論述の流れを中断
    させるため下に移動させてください
    論述全体の流れや⼀貫性など⽂書単位でライティングの品質を向上させること
    を⽬的とした編集

    View Slide

  3. リビジョンは論述ライティングにおける重要なステップ
    2
    “The language model allows emulation of to emulate the noise generated.”
    “We present results of on a quantitative analysis.”
    ⽂書
    句/⽂
    単語
    ライティング
    “ After splitting, the text is amenable for further fine-tuned simplification operations. In particular,
    we show that neural machine translation can be effectively used in this situation. Previous
    applications of machine translation for simplification reveal that it has considerable disadvantage
    of being overly conservative, often failing to modify the source in any way. The proposed method of
    splitting based on semantic parsing alleviates this issue;. after splitting, more fine-tuned
    simplification operations can be applied to the text.”
    Editing
    Proofreading
    典型的なライティングプロセスは広範囲で⾼次な観点から徐々に編集
    範囲を狭めていくとされている [Buchman et al., 2000; Seow, 2002]
    Revision
    スコープ

    View Slide

  4. ライティングと⾃然⾔語処理(⽂法誤り訂正)
    3
    “The language model allows emulation of to emulate the noise generated.”
    “We present results of on a quantitative analysis.”
    ⽂書
    句/⽂
    単語
    ライティング
    “ After splitting, the text is amenable for further fine-tuned simplification operations. In particular,
    we show that neural machine translation can be effectively used in this situation. Previous
    applications of machine translation for simplification reveal that it has considerable disadvantage
    of being overly conservative, often failing to modify the source in any way. The proposed method of
    splitting based on semantic parsing alleviates this issue;. after splitting, more fine-tuned
    simplification operations can be applied to the text.”
    Revision
    Editing
    Proofreading
    前置詞や冠詞など閉じたクラスを対象とした局所的な編集から句・⽂単位で
    流暢性のある編集へとスコープを広げてきた [Ng et al., 2014; Napoles et al., 2017]
    スコープ ⾃然⾔語処理
    ⽂法誤り訂正
    - 流暢性のある編集 -
    - 局所的な編集 -
    ⽂書単位で⾃動的にリビジョンを⾏う研究についてほとんど議論されていない

    View Slide

  5. 本研究の概要
    4
    “The language model allows emulation of to emulate the noise generated.”
    “We present results of on a quantitative analysis.”
    ⽂書
    句/⽂
    単語
    “ After splitting, the text is amenable for further fine-tuned simplification operations. In particular,
    we show that neural machine translation can be effectively used in this situation. Previous
    applications of machine translation for simplification reveal that it has considerable disadvantage
    of being overly conservative, often failing to modify the source in any way. The proposed method of
    splitting based on semantic parsing alleviates this issue;. after splitting, more fine-tuned
    simplification operations can be applied to the text.”
    Revision
    ʢOur focusʣ
    Editing
    Proofreading
    本研究のビジョン: ⾼精度な⾃動リビジョンシステムの実現
    →より広く深い⽂脈を考慮した編集技術が必要
    ⽂法誤り訂正
    - 流暢性のある編集 -
    - 局所的な編集 -
    論述リビジョン
    ライティング スコープ ⾃然⾔語処理
    本研究の⽬的: 論述リビジョンタスクの提案とそのための研究基盤の提供

    View Slide

  6. 論述リビジョンのタスク定義
    5
    ⼊⼒⽂書 𝑑
    Community-based Question Answering services,
    such as Yahoo! Answers, OKWave and Baidu Zhidao,
    have become popular web services. In these services,
    a user posts a question and other users answer it.
    The questioner chooses one of the answers as the
    best answer. These services have many threads
    consisting of one question and a number of answers,
    and the number of threads grows day by day. The
    threads are stored and anyone can read them. When
    a user has a question, if there is a similar question
    in the service, he or she can refer to the answers to
    the similar question. Herefrom, these services are
    useful for not only the questioner but also other
    users having a similar question.
    Community-based Question Answering services,
    such as Yahoo! Answers, OKWave, and Baidu
    Zhidao, have become popular web services. As
    the name suggests, on such services, a user posts
    a question, other users answer it, and the
    original questioner selects the best answer.
    Typically, such services have an increasing
    number of threads comprising a single question
    and multiple answers. The threads are stored and
    are publicly available. If a user posts a question
    similar to one stored in the system, they can refer
    to the answers to the stored question.
    出⼒⽂書 𝑑’
    • ⼊⼒⽂書 𝑑 が与えられたとき,⾃動リビジョンシステム 𝒇 は元の意味を保持しつつ⽂書
    単位で品質を向上させるためのリビジョン 𝑹 を⾏い出⼒⽂書 𝑑’ を返すタスク (𝑓: 𝑑 ⟼ 𝑑’)
    • リビジョン 𝑹 は編集 𝒆 の集合からなる (𝒆 ∈ 𝑹)
    システム 𝒇 編集 𝒆
    編集 𝒆
    リビジョン 𝑹

    View Slide

  7. ⾼精度な参照なし⾃動評価の実現が⼤きな課題
    6
    1. ⽂を跨いだ編集(⽂結合/分割,⽂の並び替え)も含まれる
    → 参照との正確な照合は難しい😩
    2. ⽂レベルの正解参照空間に⽐べ,⽂書レベルの正解参照空間はさらに⼤きい
    → 妥当な参照をすべて収集することは難しい😩
    論述リビジョンタスクの⾃動評価の特徴:
    参照なし評価が必須
    → どの程度⼈間の判断と相関があるかに関する評価(メタ評価)が必要

    View Slide

  8. 提案メタ評価基盤(概要)
    7
    メタ評価
    ペアワイズ評価
    TETRA
    1⽂書(段落)
    論述リビジョンに向けた提案メタ評価基盤
    評価尺度α
    評価尺度β
    評価尺度α
    論述リビジョン(将来的)
    リビジョン
    システム
    抽出
    無編集 1編集後
    複数の編集箇所が混在
    ,
    1編集事例のみからなる⽂書対
    (one-hotペアデータ)
    Instance-based Revision Classification (IRC)
    評価尺度β

    View Slide

  9. Text Revision of ACL papers (TETRA)
    8
    ACL系論⽂に対して⽂書レベルのリビジョンをアノテーションしたデータセット(386⽂書対)
    ü 英語⺟語話者かつ英⽂校正の専⾨家3名によるリビジョン
    ü ⼤域的な編集にも対応可能なアノテーションスキームに基づいて設計・XMLを⽤いた構造化
    ü 編集タイプおよび編集根拠コメントをアノテーション
    ※ データセット作成⼿順の詳細は予稿をご査証ください

    View Slide

  10. 編集の実例(Clarity; 明瞭さ)
    9
    We propose an approach combining two methodologies to address
    these shortcomings. Firstly, (…) Secondly, (…) Finally, the more
    layers we freeze the fewer layers we will need to back-propagate
    through during training. Thus we expect to see a decrease in GPU
    memory usage since we do not have to maintain gradients for all layers.
    We propose an approach combining two methodologies to address
    these shortcomings. Firstly, (…) Secondly, (…) Finally, the more
    layers we freeze the fewer layers we will need to back-propagate
    through during training; thus, we expect to see a decrease in GPU
    memory usage since we do not have to maintain gradients for all layers.
    “Clarity”; joining these two sentences to make it clear the both form
    the third improvement, rather than there being four.
    リビジョン前:
    リビジョン後:

    View Slide

  11. 編集の実例(Readability; 読みやすさ)
    10
    “Readability”; rearranged to make it less choppy and make the choice
    of "have" vs "has" more clear
    リビジョン前:
    リビジョン後: In this research area, image captioning methods, which
    automatically generate image descriptions (captions), have
    attracted a great deal of attention (Karpathy and Fei-Fei, 2015;
    Donahue et al., 2015; Vinyals et al., 2015; Mao et al., 2015).
    In this research area, methods to automatically generate image
    descriptions (captions), that is, image captioning, have attracted a
    great deal of attention (Karpathy and Fei-Fei, 2015; Donahue et
    al., 2015; Vinyals et al., 2015; Mao et al., 2015).

    View Slide

  12. TETRAに含まれる各評価項⽬の分布
    11
    評価項⽬ 編集タイプ (抜粋) 編集範囲 論述リビジョン固有 # %
    Grammaticality grammar, capitalization ⽂ 81 22.1
    Fluency word choice, word order ⽂ 42 11.4
    Style style, tone ⽂ ✔ 5 1.4
    Clarity clarity ⽂/⽂書 ✔ 43 11.7
    Readability readability, punctuation ⽂/⽂書 ✔ 160 43.6
    Redundancy redundancy, conciseness ⽂書 ✔ 28 7.6
    Consistency consistency, flow ⽂書 ✔ 8 2.2
    • これまで⽂法誤り訂正が対象としてきた編集も含めて全7種類の評価項⽬に基づく編集が存在
    • 論述リビジョン固有の編集が66.5%
    アノテータ1名分のサンプルデータにおける編集タイプの分布を算出
    Ø 関連する編集タイプを各評価項⽬に⼈⼿で対応付け

    View Slide

  13. 提案メタ評価基盤(概要)
    12
    メタ評価
    ペアワイズ評価
    TETRA
    1⽂書(段落)
    論述リビジョンに向けた提案メタ評価基盤
    評価尺度α
    評価尺度β
    評価尺度α
    論述リビジョン(将来的)
    リビジョン
    システム
    抽出
    無編集 1編集後
    複数の編集箇所が混在
    ,
    1編集事例のみからなる⽂書対
    (one-hotペアデータ)
    Instance-based Revision Classification (IRC)
    評価尺度β

    View Slide

  14. モチベーション
    13
    ⼈間の専⾨家によるリビジョン(gold revision)を⽤いた⼆値分類?
    Ø ペアワイズ⽐較は,絶対評価が難しい状況下のメタ評価⼿法として有効 [Guzman et al.,
    2015; Christiano et al., 2017]
    どちらがgold revision?
    ,
    ⽂書 𝒅’ (gold revision)
    ⽂書 𝒅
    論述リビジョンの評価⽅法として絶対評価は難しい
    ü 7種類の評価項⽬に基づく多種多様な編集が混在
    ü 正解参照空間が⼤きい
    問題:
    • 透明性や解釈性の⾼い分析が難しい😩
    • 包括的な評価では限界がある😩 [Kasai et al., 2021]

    View Slide

  15. Instance-based Revision Classification (IRC)
    14
    1. 複数の多種多様な編集が混在する⽂書に対して,1⽂書につき1編集事例のみ
    からなる⽂書対(one-hot ペアデータ)に変換
    2. One-hotペアデータに対してペアワイズ⽐較(⼆値分類)
    評価項⽬毎の精度および編集根拠をフィードバック可能
    Ø 透明性および解釈性の⾼い評価・分析が実現😄
    ペアワイズ評価
    TETRA
    1⽂書(段落)
    評価尺度α
    評価尺度β
    抽出
    無編集 1編集後
    複数の編集箇所が混在
    ,
    1編集事例のみからなる⽂書対
    (one-hotペアデータ)
    Instance-based Revision Classification (IRC)

    View Slide

  16. 実験設定
    15
    ⽬的:
    • 提案メタ評価基盤を⽤いたメタ評価のデモンストレーションを通して,⾃動評価
    の現状と実現可能性を明らかにする
    評価:
    • TETRAの1/4を評価⽤one-hotペアデータ(1368⽂書対)に変換
    ベースライン参照なし評価尺度:
    • GPT-2[Radford et al., 2019]に基づく評価尺度 (GPT-2)
    Ø ⼊⼒の2⽂書それぞれの単語あたりのperplexity を⽐較しその⼤⼩によって⼆値
    分類を⾏う
    • BERT[Devling et al., 2019]に基づく評価尺度 (BERT)
    Ø TETRAの3/4を学習⽤データ(868⽂書対)として使⽤し,BERT+線形分類レイ
    ヤによって⼆値分類タスクとしてFinetuneを⾏う
    教師あり
    教師なし

    View Slide

  17. デモンストレーション
    16
    ⾃動評価の現状:
    • 教師なし評価尺度は⽂書レベルのリ
    ビジョンをほとんど捉えることがで
    きていない
    • 教師あり評価尺度はある程度捉える
    ことができている
    ⽂書レベルのリビジョンにおける
    ⾃動評価の実現可能性を⽰唆

    View Slide

  18. まとめ
    17
    • 「⽂」から「⽂書」レベルのより⾼度な編集へ
    − ⽂法誤り訂正の⾃然な拡張としての論述リビジョンタスクを提案した
    − タスクの確⽴に向けた課題を紹介した
    • 論述リビジョンのためのメタ評価基盤
    − ⾼精度な参照なし評価尺度の開発を促進させることを⽬的とした透明性・
    解釈性の⾼いメタ評価基盤を提案した
    • メタ評価のデモンストレーション
    − ⽂書レベルのリビジョンに対する⾃動評価の現状と実現可能性を⽰した

    View Slide