（読み会）Evaluating Factuality in Text Simplification

ACL Outstanding paper Ando

- simplificationは、⼊⼒テキストをより読みやすくすることを⽬的としている。 - しかし、オリジナルの⽂にない情報が挿⼊されたり、key informationが省略されたりして、誤りが⽣じる危険性もある。 2 概要 - 読みやすいけど不正確な情報を提供することは、
simplificationを全く提供しないことよりも悪い - 要約モデルの⽂脈では、factual accuracyという問題が注⽬されているが、平易化されたテキストの事実性は調査されていない

- 最近の研究では、複雑な⽂章を単純化したものに「翻訳」するsequence-to-sequence モデルにより、⼤きく精度が向上した - 平易化において、出⼒が⼊⼒にfaithfulかどうかということであるという重要なことが⾒逃されている[Laban+, 2021] • 事実性の間違いを含むが読みやすいような医療情報を提⽰することは、平易⽂を全く提供しないことよりも悪い[Devaraj+
,2021] • XSUMデータセットで学習したモデルでは、 70%以上のサマリーがhallucinationを含む[Maynez+, 2020] 3 Introduction

- Inserting︓ ༻ޠΛఆٛͨ͠Γɺઆ໌ͨ͠Γ͢Δͷʹ༗ޮ͕ͩɺແؔ܎ͳ಺༰΍ޡͬͨ಺༰ʢʮIBMMVDJOBUJPOʯʣ Λಋೖ͢Δ͜ͱ͸Α͘ͳ͍ʢྫʙʣ - Omitting︓ NBJOFOUJUZʹؔ࿈͢Δ৘ใΛলུ͢Δͱɺจষͷཧղͷ͞Εํ͕มΘͬͯ͠·͏ʢྫʣ - Substitution︓ ໃ६͕ੜ͡ΔՄೳੑ͕͋Δʢྫʣ
4 [Xu+, 2015]の編集操作定義

(1) Information Insertion: ૠೖ͸ɺ৽͍͠ݻ༗໊ࢺʹݴٴ͢Δ͚ͩͷΑ͏ͳখ͞ͳ΋ͷ͔Βɺ৽͍͠ΞΠσΞΛಋೖ͢ΔΑ͏ͳେ ͖ͳ΋ͷ·Ͱ͋Δɻ ͜ͷΧςΰϦ͸ཁ໿ʹ͓͚ΔFYUSJOTJDIBMMVDJOBUJPOʹࣅ͍ͯΔ <.BZOF[ ><(PZBMBOE%VSSFUU > (2)
Information Deletion: "NJOPSFYBNQMFɿ&OUJUZ͕୅໊ࢺʹஔ͖׵ΘΔ (3) Information Substitution - 0︓なし/些細な変更、1︓trivialではないがメインアイデアは維持、2︓メインアイデアが維持されない、-1︓意味不明 - マルチラベルで付与 → レベルを新たに定義することでfactualityを測定 5 この研究での平易化操作の定義

- 平易化データセットそのもの（reference）と、モデル⽣成されたテキストMechanical Turkでアノテーションする。 - Newsela︓ WBMͱςετηοτ͔ΒͦΕͧΕ૊ͷจʢෳࡶจɼฏқจʣΛΞϊςʔγϣϯɽ - Wikilarge︓ WBMηοτ͔Β૊ɼςετηοτ͔Β૊ɽ 6
アノテーションモデルの種類

- 結果 - Agreement 7 Referenceの結果 Krippendorffのαを測定した（-1ラベルを3として最⼤の厳しさを⽰す）挿⼊のアノテーションは
moderate agreement （0.425）、削除のアノテーションはsubstantial agreement（0.639）、置換のアノテーションは fair agreement（0.200） • deletionエラーはinsertion エラーよりもはるかに多 • WikilargeはNewselaよりも数が少ない。Newsela データセットを導⼊した動機の1つは、短くて構⽂的に複雑でない単純化が含まれていることだったので、これは当然 • どちらのデータセットでも、置換エラーはほとんどない

- Transformerの3つのモデルは、WikilargeではRNNモデルよりも削除ミスが少なく、さらにNewselaではT5が削除ミスを低く抑えている 8 モデル出⼒ RNN→ RNN→

- SARI is the most popular metric used to evaluate
text simplification models Xu et al. (2016). - As Table 7 reports, there is only a weak correlation - This parallels the case with ROUGE in summarization Falke et al. (2019a); Maynez et al. (2020); Wallace et al. (2021). 9 Relationship to SARI

- 意味的類似性尺度はdeletionエラーを⾮常によく捕らえる⼀⽅で、insertionエラーについては中程度の指標であり、置換エラーについては⾮常に弱い - 含意関係では捉えられない 10 Measures of Semantic Similarity
and Factuality

- RoBERTaでFinetuning - Level 2 insertion と substitution errorsが少ない •
ૠೖޡΓΛൃੜͤ͞ΔͨΊʹɺݪจͷFOUJSZΛ୅໊ࢺʹஔ͖׵͑ͨΓɺϑϨʔζΛ࡟আͯ͠ର৅ จΛ࡞੒͠ʢ৘ใ࡟আʣɺݪจͱର৅จΛೖΕସ͑ͯ৘ใૠೖΛൃੜͤͨ͞ɻ • ஔ׵Λੜ੒͢ΔͨΊʹɺݪจͷ਺ࣈΛมߋͨ͠ΓɺจΛ൱ఆͨ͠Γɺ#&35ϚεΩϯάΛ༻͍ͯ จதͷ৘ใΛperturbationͨ͠Γͨ͠ɻ → （多分簡単になってる） - Level 1と2で良いF1スコア。 → トレーニングデータセットにレベル 1 と 2 の削除エラーが多数含まれていたため。 - Insertionはsubstitutionよりも⼤幅に優れている →なぜ︖ 11 Automatic Factuality Assessment

おわり

（読み会）Evaluating Factuality in Text Simplification

（読み会）Evaluating Factuality in Text Simplification

ando

More Decks by ando

Other Decks in Research

Featured

Transcript

ACL Outstanding paper Ando

(1) Information Insertion: ૠೖ͸ɺ৽͍͠ݻ༗໊ࢺʹݴٴ͢Δ͚ͩͷΑ͏ͳখ͞ͳ΋ͷ͔Βɺ৽͍͠ΞΠσΞΛಋೖ͢ΔΑ͏ͳେ ͖ͳ΋ͷ·Ͱ͋Δɻ ͜ͷΧςΰϦ͸ཁ໿ʹ͓͚ΔFYUSJOTJDIBMMVDJOBUJPOʹࣅ͍ͯΔ <.BZOF[ ><(PZBMBOE%VSSFUU > (2)

- 平易化データセットそのもの（reference）と、モデル⽣成されたテキストMechanical Turkでアノテーションする。 - Newsela︓ WBMͱςετηοτ͔ΒͦΕͧΕ૊ͷจʢෳࡶจɼฏқจʣΛΞϊςʔγϣϯɽ - Wikilarge︓ WBMηοτ͔Β૊ɼςετηοτ͔Β૊ɽ 6

- 結果 - Agreement 7 Referenceの結果 Krippendorffのαを測定した（-1ラベルを3として最⼤の厳しさを⽰す）挿⼊のアノテーションは

- Transformerの3つのモデルは、WikilargeではRNNモデルよりも削除ミスが少なく、さらにNewselaではT5が削除ミスを低く抑えている 8 モデル出⼒ RNN→ RNN→

- SARI is the most popular metric used to evaluate

- 意味的類似性尺度はdeletionエラーを⾮常によく捕らえる⼀⽅で、insertionエラーについては中程度の指標であり、置換エラーについては⾮常に弱い - 含意関係では捉えられない 10 Measures of Semantic Similarity

- RoBERTaでFinetuning - Level 2 insertion と substitution errorsが少ない •

おわり