社内勉強会でNAACL2021で聴講した論文を紹介しました。
【紹介する論文】 ・"Enhancing Factual Consistency of Abstractive Summarization" ・"GSum: A General Framework for Guided Neural Abstractive Summarization" ・"Annotating and Modeling Fine-grained Factuality in Summarization"
NAACL2021 参加報告Soichiro Murakami
View Slide
2自己紹介村上 聡一朗 (Soichiro MURAKAMI)● Research Scientist○ Areas: Natural Language Generation, Data-to-Text Generation● 経歴○ サイバーエージェント(2021.03-present)○ 東工大 奥村・船越研 博士課程(2019.09-present)● 趣味○ キャンプ,料理,野球観戦,読書@ichiroex #times-ichiro
紹介する論文と選定理由● Enhancing Factual Consistency of Abstractive Summarization● GSum: A General Framework for Guided Neural Abstractive Summarization● Annotating and Modeling Fine-grained Factuality in Summarization【選定理由】➔ 要約タスクにおける生成テキストのFaithfulnessは広告文生成においても重要な課題である。テキスト生成(特にText-to-Text)の分野でどのようなアプローチがあるのか調査して、研究に活かしたかったため。arXivTimes形式で紹介します! (概要、新規性・差分、手法、結果、コメント) 参考:https://github.com/arXivTimes/arXivTimes
文書要約タスクとは(1/2)● ソース文書から(要求に合わせて)重要な内容のみを提示するタスク○ {抽出型要約, 抽象型要約}, {単一文書要約, 複数文書要約}ソース文書 (ニュース記事, LP) 要約テキスト (3行要約、TD) 伝統的手法:重要文抽出→文圧縮→並び替え 最近の手法:ニューラルでEnd-to-End!
● ソース文書から(要求に合わせて)重要な内容のみを提示するタスク○ {抽出型要約, 抽象型要約}, {単一文書要約, 複数文書要約}抽出型要約 (Extractive Summarization) 抽象型要約(生成型要約) (Abstractive Summarization) 引用元:https://tech.retrieva.jp/entry/2020/08/28/113000UniLMによる抽象型要約 BERTによる抽出型要約 Enc-Dec型のモデル もある(BART, T5) 文書要約タスクとは(2/2)生成的なので内容の誤りが発生しやすい
要約タスクにおける課題:Factual Inconsistency● 生成された内容がソース文書の事実と異なる問題○ 入力:「〇〇は全ての商品が送料無料!価格は 1480円(税別)から取り揃え … 」○ 出力:「全商品送料無料!価格は 1980円(税込み)から」● 研究の方向性とそれらの代表的な手法よく出る用語:Hullcination, Unfaithful summaries, Factual Inconsistency(1) 事実に忠実な要約を生成タスク (生成内容を制御するタスク) (2) 生成要約が事実と異なるかを判定するタスク (Factuality identification) ソース文書の事実と異なる! Encoder Encoder Decoder ソース文書 何らかの 追加情報 Encoder ソース文書 生成要約 {0, 1}
紹介する論文の立ち位置1) 事実に忠実な要約を生成するタスク○ Enhancing Factual Consistency of Abstractive Summarization○ GSum: A General Framework for Guided Neural Abstractive Summarization2) 生成要約が事実と異なるかを判定するタスク (Factuality identification)○ Annotating and Modeling Fine-grained Factuality in Summarization
Enhancing Factual Consistency of Abstractive Summarization● 概要文書要約タスクにおけて、ソース文書と生成テキストの事実(Fact)が異なる問題(エンティティの誤り、hallucination)を防ぐために、事実に着目した要約モデルFASUMを提案した。提案手法では、ソース文書における事実を知識グラフで表し、生成時に考慮する。また、後処理として事実を訂正するモデルにより、さらにFactual Consistencyの向上がすることを確認した。● 新規性・差分従来研究では、要約モデルに含意関係認識(Entailment model)を組み込む手法や、固有表現(Named Entity)に着目する手法、誤りが含まれる学習データをフィルタリングする手法、などが提案されている。本研究では、ソース文書における事実を知識グラフとして表し、デコーダに融合することで事実に基づく要約生成を実現している。また、Factual Consistencyの自動評価指標 Relation Matching Rateを提案した。(生成要約の事実がソース文書に含まれているかを判定)● 手法ソース文書における事実を(Subject, Relation, Object)のタプルで構成される知識グラフ(Knowledge Graph)で表し、デコーダにそれらの情報を組み込む。知識グラフは、Stanford OpenIE ツールを利用する。さらに、後処理として、生成された要約テキストの事実を訂正するモデル FactualCorrector (FC) により、Factual Consistencyが向上することを確認した。(※DenoisingAutoencoder)● 結果提案手法(FASUM)によって、Factual Scoreの向上を確認できた。ROUGEはあまり変わらず(わずかに低下)。Factual Correctorを利用した場合、提案法や既存モデルのFactual Scoreをさらに向上させることができた。● コメントFCのようなDenoising Autoencoderは、様々な生成タスクで活用できそう。どのような誤りをどのくらい訂正できたのか分析した結果が気になる。Chenguang Zhu William Hinthorn Ruochen Xu Qingkai Zeng Michael Zeng Xuedong Huang Meng Jiang (Microsoft, University of Notre Dame)引用元:https://www.aclweb.org/anthology/2021.naacl-main.58/知識グラフ(Knowledge Graph)の構築例 Albert Einstein( S) was born in( R) March 14, 1879( O) → (Albert Einstein , was born in , March 14, 1879 ) ※ Stanford OpenIEツールを使用 提案モデル Factual Corrector ↑ 要約文にノイズ(Entityの置換 等)を与えて、疑似データを作成実験結果
GSum: A General Framework for Guided Neural Abstractive Summarization● 概要要約タスクにおける2つの課題を扱う:① 生成された要約に読み手の好みが反映されていない、②事実と異なる情報が含まれる。Guidance signalを使って、出力内容が制御可能な抽象型要約モデルを提案した。Guidance signalとして、キーワードや抽出文、要約などが利用可能で、ソース文書とは別のエンコーダによりエンコードし、デコーダで生成する。複数の要約タスク(CNN/DM, NYT 等)のベンチマークでSOTAを達成した。提案モデルは、従来モデルに比べてfaithful(忠実、正確)な要約が生成可能であった。● 新規性・差分従来研究において、生成テキストのFaithfulnessやControlabilityを向上させるために、Guidance signalを検証されてきたが、どのような手法が最も良くて、それぞれを網羅的に比較する研究は行われていない。そのため、本研究では、様々な種類のGuidance signalを比較して、どの手法が最も良さそうかを明らかにする。● 手法出力を制御するためにGuidance signalを導入するためのエンコーダを導入した。Guidance Signalとして、Tokens, Triples(Relation), Sentences, Summariesのいずれかを利用する(学習時はOracle, 推論時は予測したものを使用する)。デコーダでは、最初にGuidance signalに対してattendして、次にソース文書にattendした方が結果が良かった。● 結果Guidance signalとして、“sentence”を用いた手法が最も精度が優れていた。また、生成テキストのFaithfulnessを3人で3段階の人手評価し、baselineと有意差を確認した。● コメントGuidance signalの抽出手法の精度が、後段タスク(要約)の精度に大きく影響するので注意が必要である。引用元:https://www.aclweb.org/anthology/2021.naacl-main.384/提案モデル 各Guidance signalの効果 生成結果のFaithfulness 提案するフレームワーク Zi-Yi Dou, Pengfei Liu, Hiroaki Hayashi, Zhengbao Jiang, Graham Neubig (Carnegie Mellon University)
Annotating and Modeling Fine-grained Factuality in Summarization● 概要生成テキストの事実の正しさを評価するために様々なモデルやデータセットが提案されてきたが、何をターゲットにすればよいか(エラータイプ、ドメイン、モデル)、現在の技術でどこで成功してどこで失敗しているのかが、全体像が明らかでない。Research Question①Factuality identificationのために作成された疑似学習データは、実際の生成テキストにおけるFactual errorに適したデータになっているか? → 答えは, NO。疑似データは実際のエラーと分布が異なるため実システムの性能劣化が懸念される。②Factuality detection modelはどのような粒度(単語、スパン、文、要約)で設計すればよいか? → より細かい粒度のほうが精度が良い! コストはかかるが人手で誤りをアノテーションしていったほうがよい。● 新規性・差分上記①、②のResearch Questionに対する貢献が新規性に該当する。● 手法① 疑似データの作成方法: Entity-Centric (ENT-C) Method (固有名詞や数詞の置換等)、Generation-Centric (GEN-C) Method(言い換え、生成確率の低い単語を生成)② 細かい粒度を扱える手法として、Dependency arc entailment (DAE)モデルを利用した。● 結果① 疑似データにおけるエラー分布は、実際の要約モデルによるエラーと異なる分布だった。 また、学習データが異なる場合(CNNDM, XSum)も、起きやすいエラーの分布は異なるので疑似データ作成時には注意が必要である。② 大量の疑似データで学習するよりも高品質な人手で作成したデータの方が精度が優れていた。また、要約全体を使って判定するより(Sent-level)、係り受け単位で判定するモデル(DAE)のほうが精度が優れていた。● コメント疑似データの問題点に着目している点が面白かった。分析は大事。Tanya Goyal, Greg Durrett(The University of Texas)引用元:https://www.aclweb.org/anthology/2021.naacl-main.114/Extrinsic: ソース文書に存在しない情報が湧き出したことに起因する誤り Intrinsic: ソース文書の情報がを誤って解釈したことに起因する誤り Other: 文法エラー等 DAEモデル 各学習データ、モデルにおける判定精度の比較 (Label-Balanced Accuracy) 人手で作成したデータを使用
Thank you for your attention!