Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
(読み会)Evaluating Factuality in Text Simplification
Search
ando
November 01, 2022
Research
1
190
(読み会)Evaluating Factuality in Text Simplification
komachi lab
ando
November 01, 2022
Tweet
Share
More Decks by ando
See All by ando
(Reading )Does BERT Know that the IS-A Relation Is Transitive?
ando55
0
100
博士論文公聴会資料
ando55
0
300
Is In-hospital Meta-information Useful for Abstractive Discharge Summary Generation?
ando55
0
210
(Reading) Relational Multi-Task Learning Modeling Relations between Data and Tasks
ando55
0
190
(Reading )Agreeing to Disagree: Annotating Offensive Language Datasets with Annotators’ Disagreement
ando55
0
170
(Reading) Preregistering NLP research
ando55
0
57
(Reading) Predictive Adversarial Learning from Positive and Unlabeled Data
ando55
0
130
Argument Invention from First Principles
ando55
2
330
Other Decks in Research
See All in Research
CVPR2025論文紹介:Unboxed
murakawatakuya
0
210
[IBIS 2025] 深層基盤モデルのための強化学習驚きから理論にもとづく納得へ
akifumi_wachi
12
6.4k
長期・短期メモリを活用したエージェントの個別最適化
isidaitc
0
270
2025/7/5 応用音響研究会招待講演@北海道大学
takuma_okamoto
1
230
Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation
satai
3
330
snlp2025_prevent_llm_spikes
takase
0
400
なめらかなシステムと運用維持の終わらぬ未来 / dicomo2025_coherently_fittable_system
monochromegane
0
5k
SNLP2025:Can Language Models Reason about Individualistic Human Values and Preferences?
yukizenimoto
0
200
とあるSREの博士「過程」 / A Certain SRE’s Ph.D. Journey
yuukit
11
4.9k
言語モデルの地図:確率分布と情報幾何による類似性の可視化
shimosan
8
2.1k
EcoWikiRS: Learning Ecological Representation of Satellite Images from Weak Supervision with Species Observation and Wikipedia
satai
3
350
EOGS: Gaussian Splatting for Efficient Satellite Image Photogrammetry
satai
4
810
Featured
See All Featured
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.2k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
253
22k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Rails Girls Zürich Keynote
gr2m
95
14k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
2.9k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.3k
What's in a price? How to price your products and services
michaelherold
246
12k
Faster Mobile Websites
deanohume
310
31k
Why You Should Never Use an ORM
jnunemaker
PRO
60
9.6k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
132
19k
A designer walks into a library…
pauljervisheath
210
24k
Transcript
ACL Outstanding paper Ando
- simplificationは、⼊⼒テキストをより読みやすくすることを⽬的としている。 - しかし、オリジナルの⽂にない情報が挿⼊されたり、key informationが省略されたりし て、誤りが⽣じる危険性もある。 2 概要 - 読みやすいけど不正確な情報を提供することは、
simplificationを全く提供しないことよりも悪い - 要約モデルの⽂脈では、factual accuracyとい う問題が注⽬されているが、平易化されたテキ ストの事実性は調査されていない
- 最近の研究では、複雑な⽂章を単純化したものに「翻訳」するsequence-to-sequence モデルにより、⼤きく精度が向上した - 平易化において、出⼒が⼊⼒にfaithfulかどうかということであるという重要なことが⾒ 逃されている[Laban+, 2021] • 事実性の間違いを含むが読みやすいような医療情報を提⽰することは、平易⽂を全く提供しない ことよりも悪い[Devaraj+
,2021] • XSUMデータセットで学習したモデルでは、 70%以上のサマリーがhallucinationを含む[Maynez+, 2020] 3 Introduction
- Inserting︓ ༻ޠΛఆٛͨ͠Γɺઆ໌ͨ͠Γ͢Δͷʹ༗ޮ͕ͩɺແؔͳ༰ޡͬͨ༰ʢʮIBMMVDJOBUJPOʯʣ Λಋೖ͢Δ͜ͱΑ͘ͳ͍ʢྫʙʣ - Omitting︓ NBJOFOUJUZʹؔ࿈͢ΔใΛলུ͢Δͱɺจষͷཧղͷ͞Εํ͕มΘͬͯ͠·͏ʢྫʣ - Substitution︓ ໃ६͕ੜ͡ΔՄೳੑ͕͋Δʢྫʣ
4 [Xu+, 2015]の編集操作定義
(1) Information Insertion: ૠೖɺ৽͍͠ݻ༗໊ࢺʹݴٴ͢Δ͚ͩͷΑ͏ͳখ͞ͳͷ͔Βɺ৽͍͠ΞΠσΞΛಋೖ͢ΔΑ͏ͳେ ͖ͳͷ·Ͱ͋Δɻ ͜ͷΧςΰϦཁʹ͓͚ΔFYUSJOTJDIBMMVDJOBUJPOʹࣅ͍ͯΔ <.BZOF[ ><(PZBMBOE%VSSFUU > (2)
Information Deletion: "NJOPSFYBNQMFɿ&OUJUZ໊͕ࢺʹஔ͖ΘΔ (3) Information Substitution - 0︓なし/些細な変更、1︓trivialではないがメインアイデアは維持、2︓メインアイデア が維持されない、-1︓意味不明 - マルチラベルで付与 → レベルを新たに定義することでfactualityを測定 5 この研究での平易化操作の定義
- 平易化データセットそのもの(reference)と、モデル⽣成されたテキストMechanical Turkでアノテーションする。 - Newsela︓ WBMͱςετηοτ͔ΒͦΕͧΕͷจʢෳࡶจɼฏқจʣΛΞϊςʔγϣϯɽ - Wikilarge︓ WBMηοτ͔Βɼςετηοτ͔Βɽ 6
アノテーション モデルの種類
- 結果 - Agreement 7 Referenceの結果 Krippendorffのαを測定した (-1ラベルを3として最⼤の 厳しさを⽰す) 挿⼊のアノテーションは
moderate agreement (0.425)、削除のアノテー ションはsubstantial agreement(0.639)、置換 のアノテーションは fair agreement(0.200) • deletionエラーはinsertion エラーよりもはるかに多 • WikilargeはNewselaより も数が少ない。Newsela データセットを導⼊した動 機の1つは、短くて構⽂的 に複雑でない単純化が含ま れていることだったので、 これは当然 • どちらのデータセットでも、 置換エラーはほとんどない
- Transformerの3つのモデルは、WikilargeではRNNモデルよりも削除ミスが少なく、さ らにNewselaではT5が削除ミスを低く抑えている 8 モデル出⼒ RNN→ RNN→
- SARI is the most popular metric used to evaluate
text simplification models Xu et al. (2016). - As Table 7 reports, there is only a weak correlation - This parallels the case with ROUGE in summarization Falke et al. (2019a); Maynez et al. (2020); Wallace et al. (2021). 9 Relationship to SARI
- 意味的類似性尺度はdeletionエラーを⾮常によく捕らえる⼀⽅で、insertionエラーにつ いては中程度の指標であり、置換エラーについては⾮常に弱い - 含意関係では捉えられない 10 Measures of Semantic Similarity
and Factuality
- RoBERTaでFinetuning - Level 2 insertion と substitution errorsが少ない •
ૠೖޡΓΛൃੜͤ͞ΔͨΊʹɺݪจͷFOUJSZΛ໊ࢺʹஔ͖͑ͨΓɺϑϨʔζΛআͯ͠ର จΛ࡞͠ʢใআʣɺݪจͱରจΛೖΕସ͑ͯใૠೖΛൃੜͤͨ͞ɻ • ஔΛੜ͢ΔͨΊʹɺݪจͷࣈΛมߋͨ͠ΓɺจΛ൱ఆͨ͠Γɺ#&35ϚεΩϯάΛ༻͍ͯ จதͷใΛperturbationͨ͠Γͨ͠ɻ → (多分簡単になってる) - Level 1と2で良いF1スコア。 → トレーニング データセットにレベル 1 と 2 の削除エラーが多数含まれていたため。 - Insertionはsubstitutionよりも⼤幅に優れている →なぜ︖ 11 Automatic Factuality Assessment
おわり