Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
(読み会)Evaluating Factuality in Text Simplification
Search
ando
November 01, 2022
Research
200
1
Share
(読み会)Evaluating Factuality in Text Simplification
komachi lab
ando
November 01, 2022
More Decks by ando
See All by ando
(Reading )Does BERT Know that the IS-A Relation Is Transitive?
ando55
0
110
博士論文公聴会資料
ando55
0
450
Is In-hospital Meta-information Useful for Abstractive Discharge Summary Generation?
ando55
0
250
(Reading) Relational Multi-Task Learning Modeling Relations between Data and Tasks
ando55
0
190
(Reading )Agreeing to Disagree: Annotating Offensive Language Datasets with Annotators’ Disagreement
ando55
0
180
(Reading) Preregistering NLP research
ando55
0
68
(Reading) Predictive Adversarial Learning from Positive and Unlabeled Data
ando55
0
150
Argument Invention from First Principles
ando55
2
350
Other Decks in Research
See All in Research
計算情報学研究室(数理情報学第7研究室)2026
tomohirokoana
0
410
2026年3月1日(日)福島「除染土」の公共利用をかんがえる
atsukomasano2026
0
600
PGDM: Physically Guided Diffusion Model for L Downscaling
satai
0
130
YOLO26_ Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection
satai
3
680
姫路市 -都市OSの「再実装」-
hopin
0
1.7k
[チュートリアル] 電波マップ構築入門 :研究動向と課題設定の勘所
k_sato
0
440
「AIとWhyを深堀る」をAIと深堀る
iflection
0
400
セマンティック通信勉強会 6Gに向けたデバイス間効率的な通信の技術紹介・課題・今後展望
satai
2
120
NII S. Koyama's Lab Research Overview AY2026
skoyamalab
0
210
英語教育 “研究” のあり方:学術知とアウトリーチの緊張関係
terasawat
1
960
【SIGGRAPH Asia 2025】Lo-Fi Photograph with Lo-Fi Communication
toremolo72
0
170
非試合日の野球場を楽しむためのARホームランボールキャッチ体験システムの開発 / EC79-miyazaki
yumulab
0
180
Featured
See All Featured
Navigating the Design Leadership Dip - Product Design Week Design Leaders+ Conference 2024
apolaine
1
320
Sam Torres - BigQuery for SEOs
techseoconnect
PRO
0
270
ラッコキーワード サービス紹介資料
rakko
1
3.4M
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
810
Agile that works and the tools we love
rasmusluckow
331
21k
Bioeconomy Workshop: Dr. Julius Ecuru, Opportunities for a Bioeconomy in West Africa
akademiya2063
PRO
1
120
Prompt Engineering for Job Search
mfonobong
0
310
The Limits of Empathy - UXLibs8
cassininazir
1
330
Digital Projects Gone Horribly Wrong (And the UX Pros Who Still Save the Day) - Dean Schuster
uxyall
0
1.4k
KATA
mclloyd
PRO
35
15k
Crafting Experiences
bethany
1
150
Paper Plane (Part 1)
katiecoart
PRO
0
7.7k
Transcript
ACL Outstanding paper Ando
- simplificationは、⼊⼒テキストをより読みやすくすることを⽬的としている。 - しかし、オリジナルの⽂にない情報が挿⼊されたり、key informationが省略されたりし て、誤りが⽣じる危険性もある。 2 概要 - 読みやすいけど不正確な情報を提供することは、
simplificationを全く提供しないことよりも悪い - 要約モデルの⽂脈では、factual accuracyとい う問題が注⽬されているが、平易化されたテキ ストの事実性は調査されていない
- 最近の研究では、複雑な⽂章を単純化したものに「翻訳」するsequence-to-sequence モデルにより、⼤きく精度が向上した - 平易化において、出⼒が⼊⼒にfaithfulかどうかということであるという重要なことが⾒ 逃されている[Laban+, 2021] • 事実性の間違いを含むが読みやすいような医療情報を提⽰することは、平易⽂を全く提供しない ことよりも悪い[Devaraj+
,2021] • XSUMデータセットで学習したモデルでは、 70%以上のサマリーがhallucinationを含む[Maynez+, 2020] 3 Introduction
- Inserting︓ ༻ޠΛఆٛͨ͠Γɺઆ໌ͨ͠Γ͢Δͷʹ༗ޮ͕ͩɺແؔͳ༰ޡͬͨ༰ʢʮIBMMVDJOBUJPOʯʣ Λಋೖ͢Δ͜ͱΑ͘ͳ͍ʢྫʙʣ - Omitting︓ NBJOFOUJUZʹؔ࿈͢ΔใΛলུ͢Δͱɺจষͷཧղͷ͞Εํ͕มΘͬͯ͠·͏ʢྫʣ - Substitution︓ ໃ६͕ੜ͡ΔՄೳੑ͕͋Δʢྫʣ
4 [Xu+, 2015]の編集操作定義
(1) Information Insertion: ૠೖɺ৽͍͠ݻ༗໊ࢺʹݴٴ͢Δ͚ͩͷΑ͏ͳখ͞ͳͷ͔Βɺ৽͍͠ΞΠσΞΛಋೖ͢ΔΑ͏ͳେ ͖ͳͷ·Ͱ͋Δɻ ͜ͷΧςΰϦཁʹ͓͚ΔFYUSJOTJDIBMMVDJOBUJPOʹࣅ͍ͯΔ <.BZOF[ ><(PZBMBOE%VSSFUU > (2)
Information Deletion: "NJOPSFYBNQMFɿ&OUJUZ໊͕ࢺʹஔ͖ΘΔ (3) Information Substitution - 0︓なし/些細な変更、1︓trivialではないがメインアイデアは維持、2︓メインアイデア が維持されない、-1︓意味不明 - マルチラベルで付与 → レベルを新たに定義することでfactualityを測定 5 この研究での平易化操作の定義
- 平易化データセットそのもの(reference)と、モデル⽣成されたテキストMechanical Turkでアノテーションする。 - Newsela︓ WBMͱςετηοτ͔ΒͦΕͧΕͷจʢෳࡶจɼฏқจʣΛΞϊςʔγϣϯɽ - Wikilarge︓ WBMηοτ͔Βɼςετηοτ͔Βɽ 6
アノテーション モデルの種類
- 結果 - Agreement 7 Referenceの結果 Krippendorffのαを測定した (-1ラベルを3として最⼤の 厳しさを⽰す) 挿⼊のアノテーションは
moderate agreement (0.425)、削除のアノテー ションはsubstantial agreement(0.639)、置換 のアノテーションは fair agreement(0.200) • deletionエラーはinsertion エラーよりもはるかに多 • WikilargeはNewselaより も数が少ない。Newsela データセットを導⼊した動 機の1つは、短くて構⽂的 に複雑でない単純化が含ま れていることだったので、 これは当然 • どちらのデータセットでも、 置換エラーはほとんどない
- Transformerの3つのモデルは、WikilargeではRNNモデルよりも削除ミスが少なく、さ らにNewselaではT5が削除ミスを低く抑えている 8 モデル出⼒ RNN→ RNN→
- SARI is the most popular metric used to evaluate
text simplification models Xu et al. (2016). - As Table 7 reports, there is only a weak correlation - This parallels the case with ROUGE in summarization Falke et al. (2019a); Maynez et al. (2020); Wallace et al. (2021). 9 Relationship to SARI
- 意味的類似性尺度はdeletionエラーを⾮常によく捕らえる⼀⽅で、insertionエラーにつ いては中程度の指標であり、置換エラーについては⾮常に弱い - 含意関係では捉えられない 10 Measures of Semantic Similarity
and Factuality
- RoBERTaでFinetuning - Level 2 insertion と substitution errorsが少ない •
ૠೖޡΓΛൃੜͤ͞ΔͨΊʹɺݪจͷFOUJSZΛ໊ࢺʹஔ͖͑ͨΓɺϑϨʔζΛআͯ͠ର จΛ࡞͠ʢใআʣɺݪจͱରจΛೖΕସ͑ͯใૠೖΛൃੜͤͨ͞ɻ • ஔΛੜ͢ΔͨΊʹɺݪจͷࣈΛมߋͨ͠ΓɺจΛ൱ఆͨ͠Γɺ#&35ϚεΩϯάΛ༻͍ͯ จதͷใΛperturbationͨ͠Γͨ͠ɻ → (多分簡単になってる) - Level 1と2で良いF1スコア。 → トレーニング データセットにレベル 1 と 2 の削除エラーが多数含まれていたため。 - Insertionはsubstitutionよりも⼤幅に優れている →なぜ︖ 11 Automatic Factuality Assessment
おわり