Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
(読み会)Evaluating Factuality in Text Simplification
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
ando
November 01, 2022
Research
1
190
(読み会)Evaluating Factuality in Text Simplification
komachi lab
ando
November 01, 2022
Tweet
Share
More Decks by ando
See All by ando
(Reading )Does BERT Know that the IS-A Relation Is Transitive?
ando55
0
100
博士論文公聴会資料
ando55
0
400
Is In-hospital Meta-information Useful for Abstractive Discharge Summary Generation?
ando55
0
220
(Reading) Relational Multi-Task Learning Modeling Relations between Data and Tasks
ando55
0
190
(Reading )Agreeing to Disagree: Annotating Offensive Language Datasets with Annotators’ Disagreement
ando55
0
170
(Reading) Preregistering NLP research
ando55
0
58
(Reading) Predictive Adversarial Learning from Positive and Unlabeled Data
ando55
0
140
Argument Invention from First Principles
ando55
2
340
Other Decks in Research
See All in Research
ローテーション別のサイドアウト戦略 ~なぜあのローテは回らないのか?~
vball_panda
0
280
病院向け生成AIプロダクト開発の実践と課題
hagino3000
0
530
CoRL2025速報
rpc
4
4.2k
ForestCast: Forecasting Deforestation Risk at Scale with Deep Learning
satai
3
390
離散凸解析に基づく予測付き離散最適化手法 (IBIS '25)
taihei_oki
PRO
1
690
LLM-jp-3 and beyond: Training Large Language Models
odashi
1
760
Can AI Generated Ambrotype Chain the Aura of Alternative Process? In SIGGRAPH Asia 2024 Art Papers
toremolo72
0
140
ブレグマン距離最小化に基づくリース表現量推定:バイアス除去学習の統一理論
masakat0
0
140
説明可能な機械学習と数理最適化
kelicht
2
940
さまざまなAgent FrameworkとAIエージェントの評価
ymd65536
1
420
生成AI による論文執筆サポート・ワークショップ 論文執筆・推敲編 / Generative AI-Assisted Paper Writing Support Workshop: Drafting and Revision Edition
ks91
PRO
0
120
Sat2City:3D City Generation from A Single Satellite Image with Cascaded Latent Diffusion
satai
4
660
Featured
See All Featured
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
117
110k
Thoughts on Productivity
jonyablonski
74
5k
How to Talk to Developers About Accessibility
jct
2
130
jQuery: Nuts, Bolts and Bling
dougneiner
65
8.4k
How to build an LLM SEO readiness audit: a practical framework
nmsamuel
1
650
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
2
420
Stop Working from a Prison Cell
hatefulcrawdad
273
21k
The #1 spot is gone: here's how to win anyway
tamaranovitovic
2
940
Large-scale JavaScript Application Architecture
addyosmani
515
110k
Site-Speed That Sticks
csswizardry
13
1.1k
Marketing to machines
jonoalderson
1
4.6k
Transcript
ACL Outstanding paper Ando
- simplificationは、⼊⼒テキストをより読みやすくすることを⽬的としている。 - しかし、オリジナルの⽂にない情報が挿⼊されたり、key informationが省略されたりし て、誤りが⽣じる危険性もある。 2 概要 - 読みやすいけど不正確な情報を提供することは、
simplificationを全く提供しないことよりも悪い - 要約モデルの⽂脈では、factual accuracyとい う問題が注⽬されているが、平易化されたテキ ストの事実性は調査されていない
- 最近の研究では、複雑な⽂章を単純化したものに「翻訳」するsequence-to-sequence モデルにより、⼤きく精度が向上した - 平易化において、出⼒が⼊⼒にfaithfulかどうかということであるという重要なことが⾒ 逃されている[Laban+, 2021] • 事実性の間違いを含むが読みやすいような医療情報を提⽰することは、平易⽂を全く提供しない ことよりも悪い[Devaraj+
,2021] • XSUMデータセットで学習したモデルでは、 70%以上のサマリーがhallucinationを含む[Maynez+, 2020] 3 Introduction
- Inserting︓ ༻ޠΛఆٛͨ͠Γɺઆ໌ͨ͠Γ͢Δͷʹ༗ޮ͕ͩɺແؔͳ༰ޡͬͨ༰ʢʮIBMMVDJOBUJPOʯʣ Λಋೖ͢Δ͜ͱΑ͘ͳ͍ʢྫʙʣ - Omitting︓ NBJOFOUJUZʹؔ࿈͢ΔใΛলུ͢Δͱɺจষͷཧղͷ͞Εํ͕มΘͬͯ͠·͏ʢྫʣ - Substitution︓ ໃ६͕ੜ͡ΔՄೳੑ͕͋Δʢྫʣ
4 [Xu+, 2015]の編集操作定義
(1) Information Insertion: ૠೖɺ৽͍͠ݻ༗໊ࢺʹݴٴ͢Δ͚ͩͷΑ͏ͳখ͞ͳͷ͔Βɺ৽͍͠ΞΠσΞΛಋೖ͢ΔΑ͏ͳେ ͖ͳͷ·Ͱ͋Δɻ ͜ͷΧςΰϦཁʹ͓͚ΔFYUSJOTJDIBMMVDJOBUJPOʹࣅ͍ͯΔ <.BZOF[ ><(PZBMBOE%VSSFUU > (2)
Information Deletion: "NJOPSFYBNQMFɿ&OUJUZ໊͕ࢺʹஔ͖ΘΔ (3) Information Substitution - 0︓なし/些細な変更、1︓trivialではないがメインアイデアは維持、2︓メインアイデア が維持されない、-1︓意味不明 - マルチラベルで付与 → レベルを新たに定義することでfactualityを測定 5 この研究での平易化操作の定義
- 平易化データセットそのもの(reference)と、モデル⽣成されたテキストMechanical Turkでアノテーションする。 - Newsela︓ WBMͱςετηοτ͔ΒͦΕͧΕͷจʢෳࡶจɼฏқจʣΛΞϊςʔγϣϯɽ - Wikilarge︓ WBMηοτ͔Βɼςετηοτ͔Βɽ 6
アノテーション モデルの種類
- 結果 - Agreement 7 Referenceの結果 Krippendorffのαを測定した (-1ラベルを3として最⼤の 厳しさを⽰す) 挿⼊のアノテーションは
moderate agreement (0.425)、削除のアノテー ションはsubstantial agreement(0.639)、置換 のアノテーションは fair agreement(0.200) • deletionエラーはinsertion エラーよりもはるかに多 • WikilargeはNewselaより も数が少ない。Newsela データセットを導⼊した動 機の1つは、短くて構⽂的 に複雑でない単純化が含ま れていることだったので、 これは当然 • どちらのデータセットでも、 置換エラーはほとんどない
- Transformerの3つのモデルは、WikilargeではRNNモデルよりも削除ミスが少なく、さ らにNewselaではT5が削除ミスを低く抑えている 8 モデル出⼒ RNN→ RNN→
- SARI is the most popular metric used to evaluate
text simplification models Xu et al. (2016). - As Table 7 reports, there is only a weak correlation - This parallels the case with ROUGE in summarization Falke et al. (2019a); Maynez et al. (2020); Wallace et al. (2021). 9 Relationship to SARI
- 意味的類似性尺度はdeletionエラーを⾮常によく捕らえる⼀⽅で、insertionエラーにつ いては中程度の指標であり、置換エラーについては⾮常に弱い - 含意関係では捉えられない 10 Measures of Semantic Similarity
and Factuality
- RoBERTaでFinetuning - Level 2 insertion と substitution errorsが少ない •
ૠೖޡΓΛൃੜͤ͞ΔͨΊʹɺݪจͷFOUJSZΛ໊ࢺʹஔ͖͑ͨΓɺϑϨʔζΛআͯ͠ର จΛ࡞͠ʢใআʣɺݪจͱରจΛೖΕସ͑ͯใૠೖΛൃੜͤͨ͞ɻ • ஔΛੜ͢ΔͨΊʹɺݪจͷࣈΛมߋͨ͠ΓɺจΛ൱ఆͨ͠Γɺ#&35ϚεΩϯάΛ༻͍ͯ จதͷใΛperturbationͨ͠Γͨ͠ɻ → (多分簡単になってる) - Level 1と2で良いF1スコア。 → トレーニング データセットにレベル 1 と 2 の削除エラーが多数含まれていたため。 - Insertionはsubstitutionよりも⼤幅に優れている →なぜ︖ 11 Automatic Factuality Assessment
おわり