Upgrade to Pro — share decks privately, control downloads, hide ads and more …

(読み会)Evaluating Factuality in Text Simplification

ando
November 01, 2022

(読み会)Evaluating Factuality in Text Simplification

komachi lab

ando

November 01, 2022
Tweet

More Decks by ando

Other Decks in Research

Transcript

  1. - simplificationは、⼊⼒テキストをより読みやすくすることを⽬的としている。 - しかし、オリジナルの⽂にない情報が挿⼊されたり、key informationが省略されたりし て、誤りが⽣じる危険性もある。 2 概要 - 読みやすいけど不正確な情報を提供することは、

    simplificationを全く提供しないことよりも悪い - 要約モデルの⽂脈では、factual accuracyとい う問題が注⽬されているが、平易化されたテキ ストの事実性は調査されていない
  2. (1) Information Insertion: ૠೖ͸ɺ৽͍͠ݻ༗໊ࢺʹݴٴ͢Δ͚ͩͷΑ͏ͳখ͞ͳ΋ͷ͔Βɺ৽͍͠ΞΠσΞΛಋೖ͢ΔΑ͏ͳେ ͖ͳ΋ͷ·Ͱ͋Δɻ ͜ͷΧςΰϦ͸ཁ໿ʹ͓͚ΔFYUSJOTJDIBMMVDJOBUJPOʹࣅ͍ͯΔ <.BZOF[ ><(PZBMBOE%VSSFUU > (2)

    Information Deletion: "NJOPSFYBNQMFɿ&OUJUZ͕୅໊ࢺʹஔ͖׵ΘΔ (3) Information Substitution - 0︓なし/些細な変更、1︓trivialではないがメインアイデアは維持、2︓メインアイデア が維持されない、-1︓意味不明 - マルチラベルで付与 → レベルを新たに定義することでfactualityを測定 5 この研究での平易化操作の定義
  3. - 結果 - Agreement 7 Referenceの結果 Krippendorffのαを測定した (-1ラベルを3として最⼤の 厳しさを⽰す) 挿⼊のアノテーションは

    moderate agreement (0.425)、削除のアノテー ションはsubstantial agreement(0.639)、置換 のアノテーションは fair agreement(0.200) • deletionエラーはinsertion エラーよりもはるかに多 • WikilargeはNewselaより も数が少ない。Newsela データセットを導⼊した動 機の1つは、短くて構⽂的 に複雑でない単純化が含ま れていることだったので、 これは当然 • どちらのデータセットでも、 置換エラーはほとんどない
  4. - SARI is the most popular metric used to evaluate

    text simplification models Xu et al. (2016). - As Table 7 reports, there is only a weak correlation - This parallels the case with ROUGE in summarization Falke et al. (2019a); Maynez et al. (2020); Wallace et al. (2021). 9 Relationship to SARI
  5. - RoBERTaでFinetuning - Level 2 insertion と substitution errorsが少ない •

    ૠೖޡΓΛൃੜͤ͞ΔͨΊʹɺݪจͷFOUJSZΛ୅໊ࢺʹஔ͖׵͑ͨΓɺϑϨʔζΛ࡟আͯ͠ର৅ จΛ࡞੒͠ʢ৘ใ࡟আʣɺݪจͱର৅จΛೖΕସ͑ͯ৘ใૠೖΛൃੜͤͨ͞ɻ • ஔ׵Λੜ੒͢ΔͨΊʹɺݪจͷ਺ࣈΛมߋͨ͠ΓɺจΛ൱ఆͨ͠Γɺ#&35ϚεΩϯάΛ༻͍ͯ จதͷ৘ใΛperturbationͨ͠Γͨ͠ɻ → (多分簡単になってる) - Level 1と2で良いF1スコア。 → トレーニング データセットにレベル 1 と 2 の削除エラーが多数含まれていたため。 - Insertionはsubstitutionよりも⼤幅に優れている →なぜ︖ 11 Automatic Factuality Assessment