Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
(読み会)Evaluating Factuality in Text Simplification
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
ando
November 01, 2022
Research
200
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
(読み会)Evaluating Factuality in Text Simplification
komachi lab
ando
November 01, 2022
More Decks by ando
See All by ando
(Reading )Does BERT Know that the IS-A Relation Is Transitive?
ando55
0
110
博士論文公聴会資料
ando55
0
450
Is In-hospital Meta-information Useful for Abstractive Discharge Summary Generation?
ando55
0
260
(Reading) Relational Multi-Task Learning Modeling Relations between Data and Tasks
ando55
0
200
(Reading )Agreeing to Disagree: Annotating Offensive Language Datasets with Annotators’ Disagreement
ando55
0
180
(Reading) Preregistering NLP research
ando55
0
72
(Reading) Predictive Adversarial Learning from Positive and Unlabeled Data
ando55
0
150
Argument Invention from First Principles
ando55
2
350
Other Decks in Research
See All in Research
Harness Engineering and Al Agent
kzinmr
3
1.6k
Can We Teach Logical Reasoning to LLMs? – An Approach Using Synthetic Corpora (AAAI 2026 bridge keynote)
morishtr
1
250
NLP colloquium: AI Safety Survey
kanekomasahiro
0
550
Ghost in the 7‑Zip: The Shadow of Residential Proxies Creeping into Your Life
nttcom
0
960
NII S. Koyama's Lab Research Overview AY2026
skoyamalab
0
280
英語教育 “研究” のあり方:学術知とアウトリーチの緊張関係
terasawat
1
990
IEEE AIxVR 2026 Keynote Talk: "Beyond Visibility: Understanding Scenes and Humans under Challenging Conditions with Diverse Sensing"
miso2024
0
200
SOTAのさらに先へ:厳しい推論制約下での高性能モデルのPost-Training
analokmaus
0
1.2k
LLM の Attention 機構まとめ — 数式・計算量・メモリ
puwaer
7
2k
2026 東京科学大 情報通信系 研究室紹介 (大岡山)
icttitech
0
3.7k
LINEヤフー データサイエンス Meetup「三井物産コモディティ予測チャレンジ」の舞台裏-AlpacaTechパート
gamella
1
550
2026年1月の生成AI領域の重要リリース&トピック解説
kajikent
0
1k
Featured
See All Featured
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3.2k
Breaking role norms: Why Content Design is so much more than writing copy - Taylor Woolridge
uxyall
0
310
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
10
1.2k
Documentation Writing (for coders)
carmenintech
77
5.4k
How to Align SEO within the Product Triangle To Get Buy-In & Support - #RIMC
aleyda
2
1.5k
Introduction to Domain-Driven Design and Collaborative software design
baasie
1
820
It's Worth the Effort
3n
188
29k
Typedesign – Prime Four
hannesfritz
42
3.1k
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
11k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
49
10k
The Illustrated Children's Guide to Kubernetes
chrisshort
51
52k
Agile that works and the tools we love
rasmusluckow
331
21k
Transcript
ACL Outstanding paper Ando
- simplificationは、⼊⼒テキストをより読みやすくすることを⽬的としている。 - しかし、オリジナルの⽂にない情報が挿⼊されたり、key informationが省略されたりし て、誤りが⽣じる危険性もある。 2 概要 - 読みやすいけど不正確な情報を提供することは、
simplificationを全く提供しないことよりも悪い - 要約モデルの⽂脈では、factual accuracyとい う問題が注⽬されているが、平易化されたテキ ストの事実性は調査されていない
- 最近の研究では、複雑な⽂章を単純化したものに「翻訳」するsequence-to-sequence モデルにより、⼤きく精度が向上した - 平易化において、出⼒が⼊⼒にfaithfulかどうかということであるという重要なことが⾒ 逃されている[Laban+, 2021] • 事実性の間違いを含むが読みやすいような医療情報を提⽰することは、平易⽂を全く提供しない ことよりも悪い[Devaraj+
,2021] • XSUMデータセットで学習したモデルでは、 70%以上のサマリーがhallucinationを含む[Maynez+, 2020] 3 Introduction
- Inserting︓ ༻ޠΛఆٛͨ͠Γɺઆ໌ͨ͠Γ͢Δͷʹ༗ޮ͕ͩɺແؔͳ༰ޡͬͨ༰ʢʮIBMMVDJOBUJPOʯʣ Λಋೖ͢Δ͜ͱΑ͘ͳ͍ʢྫʙʣ - Omitting︓ NBJOFOUJUZʹؔ࿈͢ΔใΛলུ͢Δͱɺจষͷཧղͷ͞Εํ͕มΘͬͯ͠·͏ʢྫʣ - Substitution︓ ໃ६͕ੜ͡ΔՄೳੑ͕͋Δʢྫʣ
4 [Xu+, 2015]の編集操作定義
(1) Information Insertion: ૠೖɺ৽͍͠ݻ༗໊ࢺʹݴٴ͢Δ͚ͩͷΑ͏ͳখ͞ͳͷ͔Βɺ৽͍͠ΞΠσΞΛಋೖ͢ΔΑ͏ͳେ ͖ͳͷ·Ͱ͋Δɻ ͜ͷΧςΰϦཁʹ͓͚ΔFYUSJOTJDIBMMVDJOBUJPOʹࣅ͍ͯΔ <.BZOF[ ><(PZBMBOE%VSSFUU > (2)
Information Deletion: "NJOPSFYBNQMFɿ&OUJUZ໊͕ࢺʹஔ͖ΘΔ (3) Information Substitution - 0︓なし/些細な変更、1︓trivialではないがメインアイデアは維持、2︓メインアイデア が維持されない、-1︓意味不明 - マルチラベルで付与 → レベルを新たに定義することでfactualityを測定 5 この研究での平易化操作の定義
- 平易化データセットそのもの(reference)と、モデル⽣成されたテキストMechanical Turkでアノテーションする。 - Newsela︓ WBMͱςετηοτ͔ΒͦΕͧΕͷจʢෳࡶจɼฏқจʣΛΞϊςʔγϣϯɽ - Wikilarge︓ WBMηοτ͔Βɼςετηοτ͔Βɽ 6
アノテーション モデルの種類
- 結果 - Agreement 7 Referenceの結果 Krippendorffのαを測定した (-1ラベルを3として最⼤の 厳しさを⽰す) 挿⼊のアノテーションは
moderate agreement (0.425)、削除のアノテー ションはsubstantial agreement(0.639)、置換 のアノテーションは fair agreement(0.200) • deletionエラーはinsertion エラーよりもはるかに多 • WikilargeはNewselaより も数が少ない。Newsela データセットを導⼊した動 機の1つは、短くて構⽂的 に複雑でない単純化が含ま れていることだったので、 これは当然 • どちらのデータセットでも、 置換エラーはほとんどない
- Transformerの3つのモデルは、WikilargeではRNNモデルよりも削除ミスが少なく、さ らにNewselaではT5が削除ミスを低く抑えている 8 モデル出⼒ RNN→ RNN→
- SARI is the most popular metric used to evaluate
text simplification models Xu et al. (2016). - As Table 7 reports, there is only a weak correlation - This parallels the case with ROUGE in summarization Falke et al. (2019a); Maynez et al. (2020); Wallace et al. (2021). 9 Relationship to SARI
- 意味的類似性尺度はdeletionエラーを⾮常によく捕らえる⼀⽅で、insertionエラーにつ いては中程度の指標であり、置換エラーについては⾮常に弱い - 含意関係では捉えられない 10 Measures of Semantic Similarity
and Factuality
- RoBERTaでFinetuning - Level 2 insertion と substitution errorsが少ない •
ૠೖޡΓΛൃੜͤ͞ΔͨΊʹɺݪจͷFOUJSZΛ໊ࢺʹஔ͖͑ͨΓɺϑϨʔζΛআͯ͠ର จΛ࡞͠ʢใআʣɺݪจͱରจΛೖΕସ͑ͯใૠೖΛൃੜͤͨ͞ɻ • ஔΛੜ͢ΔͨΊʹɺݪจͷࣈΛมߋͨ͠ΓɺจΛ൱ఆͨ͠Γɺ#&35ϚεΩϯάΛ༻͍ͯ จதͷใΛperturbationͨ͠Γͨ͠ɻ → (多分簡単になってる) - Level 1と2で良いF1スコア。 → トレーニング データセットにレベル 1 と 2 の削除エラーが多数含まれていたため。 - Insertionはsubstitutionよりも⼤幅に優れている →なぜ︖ 11 Automatic Factuality Assessment
おわり