Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
(読み会)Evaluating Factuality in Text Simplification
Search
ando
November 01, 2022
Research
200
1
Share
(読み会)Evaluating Factuality in Text Simplification
komachi lab
ando
November 01, 2022
More Decks by ando
See All by ando
(Reading )Does BERT Know that the IS-A Relation Is Transitive?
ando55
0
110
博士論文公聴会資料
ando55
0
410
Is In-hospital Meta-information Useful for Abstractive Discharge Summary Generation?
ando55
0
230
(Reading) Relational Multi-Task Learning Modeling Relations between Data and Tasks
ando55
0
190
(Reading )Agreeing to Disagree: Annotating Offensive Language Datasets with Annotators’ Disagreement
ando55
0
170
(Reading) Preregistering NLP research
ando55
0
64
(Reading) Predictive Adversarial Learning from Positive and Unlabeled Data
ando55
0
140
Argument Invention from First Principles
ando55
2
340
Other Decks in Research
See All in Research
An Open and Reproducible Deep Research Agent for Long-Form Question Answering
ikuyamada
0
370
20年前に50代だった人たちの今
hysmrk
0
180
「車1割削減、渋滞半減、公共交通2倍」を 熊本から岡山へ@RACDA設立30周年記念都市交通フォーラム2026
trafficbrain
1
850
SREのためのテレメトリー技術の探究 / Telemetry for SRE
yuukit
13
3.4k
Thirty Years of Progress in Speech Synthesis: A Personal Perspective on the Past, Present, and Future
ktokuda
0
200
Grounding Text Complexity Control in Defined Linguistic Difficulty [Keynote@*SEM2025]
yukiar
0
140
AIを叩き台として、 「検証」から「共創」へと進化するリサーチ
mela_dayo
0
200
湯村研究室の紹介2025 / yumulab2025
yumulab
0
330
討議:RACDA設立30周年記念都市交通フォーラム2026
trafficbrain
0
670
生成的情報検索時代におけるAI利用と認知バイアス
trycycle
PRO
0
420
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
300
[IBIS 2025] 深層基盤モデルのための強化学習驚きから理論にもとづく納得へ
akifumi_wachi
20
9.9k
Featured
See All Featured
Raft: Consensus for Rubyists
vanstee
141
7.4k
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
300
Amusing Abliteration
ianozsvald
0
150
The SEO Collaboration Effect
kristinabergwall1
0
410
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
250
The Mindset for Success: Future Career Progression
greggifford
PRO
0
290
Bash Introduction
62gerente
615
210k
The Power of CSS Pseudo Elements
geoffreycrofte
82
6.2k
Fashionably flexible responsive web design (full day workshop)
malarkey
408
66k
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
260
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
0
470
Large-scale JavaScript Application Architecture
addyosmani
515
110k
Transcript
ACL Outstanding paper Ando
- simplificationは、⼊⼒テキストをより読みやすくすることを⽬的としている。 - しかし、オリジナルの⽂にない情報が挿⼊されたり、key informationが省略されたりし て、誤りが⽣じる危険性もある。 2 概要 - 読みやすいけど不正確な情報を提供することは、
simplificationを全く提供しないことよりも悪い - 要約モデルの⽂脈では、factual accuracyとい う問題が注⽬されているが、平易化されたテキ ストの事実性は調査されていない
- 最近の研究では、複雑な⽂章を単純化したものに「翻訳」するsequence-to-sequence モデルにより、⼤きく精度が向上した - 平易化において、出⼒が⼊⼒にfaithfulかどうかということであるという重要なことが⾒ 逃されている[Laban+, 2021] • 事実性の間違いを含むが読みやすいような医療情報を提⽰することは、平易⽂を全く提供しない ことよりも悪い[Devaraj+
,2021] • XSUMデータセットで学習したモデルでは、 70%以上のサマリーがhallucinationを含む[Maynez+, 2020] 3 Introduction
- Inserting︓ ༻ޠΛఆٛͨ͠Γɺઆ໌ͨ͠Γ͢Δͷʹ༗ޮ͕ͩɺແؔͳ༰ޡͬͨ༰ʢʮIBMMVDJOBUJPOʯʣ Λಋೖ͢Δ͜ͱΑ͘ͳ͍ʢྫʙʣ - Omitting︓ NBJOFOUJUZʹؔ࿈͢ΔใΛলུ͢Δͱɺจষͷཧղͷ͞Εํ͕มΘͬͯ͠·͏ʢྫʣ - Substitution︓ ໃ६͕ੜ͡ΔՄೳੑ͕͋Δʢྫʣ
4 [Xu+, 2015]の編集操作定義
(1) Information Insertion: ૠೖɺ৽͍͠ݻ༗໊ࢺʹݴٴ͢Δ͚ͩͷΑ͏ͳখ͞ͳͷ͔Βɺ৽͍͠ΞΠσΞΛಋೖ͢ΔΑ͏ͳେ ͖ͳͷ·Ͱ͋Δɻ ͜ͷΧςΰϦཁʹ͓͚ΔFYUSJOTJDIBMMVDJOBUJPOʹࣅ͍ͯΔ <.BZOF[ ><(PZBMBOE%VSSFUU > (2)
Information Deletion: "NJOPSFYBNQMFɿ&OUJUZ໊͕ࢺʹஔ͖ΘΔ (3) Information Substitution - 0︓なし/些細な変更、1︓trivialではないがメインアイデアは維持、2︓メインアイデア が維持されない、-1︓意味不明 - マルチラベルで付与 → レベルを新たに定義することでfactualityを測定 5 この研究での平易化操作の定義
- 平易化データセットそのもの(reference)と、モデル⽣成されたテキストMechanical Turkでアノテーションする。 - Newsela︓ WBMͱςετηοτ͔ΒͦΕͧΕͷจʢෳࡶจɼฏқจʣΛΞϊςʔγϣϯɽ - Wikilarge︓ WBMηοτ͔Βɼςετηοτ͔Βɽ 6
アノテーション モデルの種類
- 結果 - Agreement 7 Referenceの結果 Krippendorffのαを測定した (-1ラベルを3として最⼤の 厳しさを⽰す) 挿⼊のアノテーションは
moderate agreement (0.425)、削除のアノテー ションはsubstantial agreement(0.639)、置換 のアノテーションは fair agreement(0.200) • deletionエラーはinsertion エラーよりもはるかに多 • WikilargeはNewselaより も数が少ない。Newsela データセットを導⼊した動 機の1つは、短くて構⽂的 に複雑でない単純化が含ま れていることだったので、 これは当然 • どちらのデータセットでも、 置換エラーはほとんどない
- Transformerの3つのモデルは、WikilargeではRNNモデルよりも削除ミスが少なく、さ らにNewselaではT5が削除ミスを低く抑えている 8 モデル出⼒ RNN→ RNN→
- SARI is the most popular metric used to evaluate
text simplification models Xu et al. (2016). - As Table 7 reports, there is only a weak correlation - This parallels the case with ROUGE in summarization Falke et al. (2019a); Maynez et al. (2020); Wallace et al. (2021). 9 Relationship to SARI
- 意味的類似性尺度はdeletionエラーを⾮常によく捕らえる⼀⽅で、insertionエラーにつ いては中程度の指標であり、置換エラーについては⾮常に弱い - 含意関係では捉えられない 10 Measures of Semantic Similarity
and Factuality
- RoBERTaでFinetuning - Level 2 insertion と substitution errorsが少ない •
ૠೖޡΓΛൃੜͤ͞ΔͨΊʹɺݪจͷFOUJSZΛ໊ࢺʹஔ͖͑ͨΓɺϑϨʔζΛআͯ͠ର จΛ࡞͠ʢใআʣɺݪจͱରจΛೖΕସ͑ͯใૠೖΛൃੜͤͨ͞ɻ • ஔΛੜ͢ΔͨΊʹɺݪจͷࣈΛมߋͨ͠ΓɺจΛ൱ఆͨ͠Γɺ#&35ϚεΩϯάΛ༻͍ͯ จதͷใΛperturbationͨ͠Γͨ͠ɻ → (多分簡単になってる) - Level 1と2で良いF1スコア。 → トレーニング データセットにレベル 1 と 2 の削除エラーが多数含まれていたため。 - Insertionはsubstitutionよりも⼤幅に優れている →なぜ︖ 11 Automatic Factuality Assessment
おわり