Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【NAACL2021】論文紹介

 【NAACL2021】論文紹介

社内勉強会でNAACL2021で聴講した論文を紹介しました。

【紹介する論文】
・"Enhancing Factual Consistency of Abstractive Summarization"
・"GSum: A General Framework for Guided Neural Abstractive Summarization"
・"Annotating and Modeling Fine-grained Factuality in Summarization"

Soichiro Murakami

July 01, 2021
Tweet

More Decks by Soichiro Murakami

Other Decks in Research

Transcript

  1. 2 自己紹介 村上 聡一朗 (Soichiro MURAKAMI) • Research Scientist ◦

    Areas: Natural Language Generation, Data-to-Text Generation • 経歴 ◦ サイバーエージェント(2021.03-present) ◦ 東工大 奥村・船越研 博士課程(2019.09-present) • 趣味 ◦ キャンプ,料理,野球観戦,読書 @ichiroex #times-ichiro

  2. 紹介する論文と選定理由 • Enhancing Factual Consistency of Abstractive Summarization • GSum:

    A General Framework for Guided Neural Abstractive Summarization • Annotating and Modeling Fine-grained Factuality in Summarization 【選定理由】 ➔ 要約タスクにおける生成テキストの Faithfulnessは広告文生成においても重要な課題である。 テキスト生成(特にText-to-Text)の分野でどのようなアプローチがあるのか調査して、研究に 活 かしたかったため。 arXivTimes形式で紹介します!
 (概要、新規性・差分、手法、結果、コメント) 
 参考:https://github.com/arXivTimes/arXivTimes 

  3. 文書要約タスクとは(1/2) • ソース文書から(要求に合わせて)重要な内容のみを提示するタスク ◦ {抽出型要約, 抽象型要約}, {単一文書要約, 複数文書要約} ソース文書
 (ニュース記事,

    LP)
 要約テキスト
 (3行要約、TD)
 伝統的手法:重要文抽出→文圧縮→並び替え 
 最近の手法:ニューラルでEnd-to-End! 

  4. • ソース文書から(要求に合わせて)重要な内容のみを提示するタスク ◦ {抽出型要約, 抽象型要約}, {単一文書要約, 複数文書要約} 抽出型要約
 (Extractive Summarization)

    
 抽象型要約(生成型要約) 
 (Abstractive Summarization) 
 引用元:https://tech.retrieva.jp/entry/2020/08/28/113000 UniLMによる抽象型要約 
 BERTによる抽出型要約 
 Enc-Dec型のモデル
 もある(BART, T5)
 文書要約タスクとは(2/2) 生成的なので内容の 誤りが発生しやすい

  5. 要約タスクにおける課題:Factual Inconsistency • 生成された内容がソース文書の事実と異なる問題 ◦ 入力:「〇〇は全ての商品が送料無料!価格は 1480円(税別)から取り揃え … 」 ◦

    出力:「全商品送料無料!価格は 1980円(税込み)から」 • 研究の方向性とそれらの代表的な手法 よく出る用語:Hullcination, Unfaithful summaries, Factual Inconsistency (1) 事実に忠実な要約を生成タスク 
 (生成内容を制御するタスク) 
 (2) 生成要約が事実と異なるかを判定するタスク 
 (Factuality identification) 
 ソース文書の事実と異なる! 
 Encoder
 Encoder
 Decoder
 ソース文書
 何らかの
 追加情報
 Encoder
 ソース文書
 生成要約
 {0, 1}

  6. 紹介する論文の立ち位置 1) 事実に忠実な要約を生成するタスク ◦ Enhancing Factual Consistency of Abstractive Summarization

    ◦ GSum: A General Framework for Guided Neural Abstractive Summarization 2) 生成要約が事実と異なるかを判定するタスク (Factuality identification) ◦ Annotating and Modeling Fine-grained Factuality in Summarization
  7. Enhancing Factual Consistency of Abstractive Summarization • 概要 文書要約タスクにおけて、ソース文書と生成テキストの事実(Fact)が異なる問題(エ ンティティの誤り、hallucination)を防ぐために、事実に着目した要約モデルFASUM

    を提案した。 提案手法では、ソース文書における事実を知識グラフで表し、生成時に考慮する。 また、後処理として事実を訂正するモデルにより、さらにFactual Consistencyの向 上がすることを確認した。 • 新規性・差分 従来研究では、要約モデルに含意関係認識(Entailment model)を組み込む手法 や、固有表現(Named Entity)に着目する手法、誤りが含まれる学習データをフィル タリングする手法、などが提案されている。 本研究では、ソース文書における事実を知識グラフとして表し、デコーダに融合する ことで事実に基づく要約生成を実現している。 また、Factual Consistencyの自動評価指標 Relation Matching Rateを提案した。 (生成要約の事実がソース文書に含まれているかを判定) • 手法 ソース文書における事実を(Subject, Relation, Object)のタプルで構成される知識グラ フ(Knowledge Graph)で表し、デコーダにそれらの情報を組み込む。知識グラフは、 Stanford OpenIE ツールを利用する。 さらに、後処理として、生成された要約テキストの事実を訂正するモデル Factual Corrector (FC) により、Factual Consistencyが向上することを確認した。(※Denoising Autoencoder) • 結果 提案手法(FASUM)によって、Factual Scoreの向上を確認できた。ROUGEはあまり変 わらず(わずかに低下)。Factual Correctorを利用した場合、提案法や既存モデルの Factual Scoreをさらに向上させることができた。 • コメント FCのようなDenoising Autoencoderは、様々な生成タスクで活用できそう。どのような誤 りをどのくらい訂正できたのか分析した結果が気になる。 Chenguang Zhu William Hinthorn Ruochen Xu Qingkai Zeng Michael Zeng Xuedong Huang Meng Jiang (Microsoft, University of Notre Dame) 引用元:https://www.aclweb.org/anthology/2021.naacl-main.58/ 知識グラフ(Knowledge Graph)の構築例 
 Albert Einstein( S) was born in( R) March 14, 1879( O)
 → (Albert Einstein , was born in , March 14, 1879 )
 ※ Stanford OpenIEツールを使用 
 提案モデル
 Factual Corrector 
 ↑ 要約文にノイズ(Entityの置換 等)を与え て、疑似データを作成 実験結果

  8. GSum: A General Framework for Guided Neural Abstractive Summarization •

    概要 要約タスクにおける2つの課題を扱う:① 生成された要約に読み手の好みが反映さ れていない、②事実と異なる情報が含まれる。 Guidance signalを使って、出力内容が制御可能な抽象型要約モデルを提案した。 Guidance signalとして、キーワードや抽出文、要約などが利用可能で、ソース文書 とは別のエンコーダによりエンコードし、デコーダで生成する。 複数の要約タスク(CNN/DM, NYT 等)のベンチマークでSOTAを達成した。提案モ デルは、従来モデルに比べてfaithful(忠実、正確)な要約が生成可能であった。 • 新規性・差分 従来研究において、生成テキストのFaithfulnessやControlabilityを向上させるため に、Guidance signalを検証されてきたが、どのような手法が最も良くて、それぞれを 網羅的に比較する研究は行われていない。 そのため、本研究では、様々な種類のGuidance signalを比較して、どの手法が最 も良さそうかを明らかにする。 • 手法 出力を制御するためにGuidance signalを導入するためのエンコーダを導入した。 Guidance Signalとして、Tokens, Triples(Relation), Sentences, Summariesのいず れかを利用する(学習時はOracle, 推論時は予測したものを使用する)。 デコーダでは、最初にGuidance signalに対してattendして、次にソース文書にattendし た方が結果が良かった。 • 結果 Guidance signalとして、“sentence”を用いた手法が最も精度が優れていた。また、生成 テキストのFaithfulnessを3人で3段階の人手評価し、baselineと有意差を確認した。 • コメント Guidance signalの抽出手法の精度が、後段タスク(要約)の精度に大きく影響するので 注意が必要である。 引用元:https://www.aclweb.org/anthology/2021.naacl-main.384/ 提案モデル
 各Guidance signalの効果 
 生成結果のFaithfulness 
 提案するフレームワーク 
 Zi-Yi Dou, Pengfei Liu, Hiroaki Hayashi, Zhengbao Jiang, Graham Neubig (Carnegie Mellon University)
  9. Annotating and Modeling Fine-grained Factuality in Summarization • 概要 生成テキストの事実の正しさを評価するために様々なモデルやデータセットが提案

    されてきたが、何をターゲットにすればよいか(エラータイプ、ドメイン、モデル)、現在 の技術でどこで成功してどこで失敗しているのかが、全体像が明らかでない。 Research Question ①Factuality identificationのために作成された疑似学習データは、実際の生成テキ ストにおけるFactual errorに適したデータになっているか? → 答えは, NO。 疑似データは実際のエラーと分布が異なるため実システムの性能劣化が懸念され る。 ②Factuality detection modelはどのような粒度(単語、スパン、文、要約)で設計す ればよいか? → より細かい粒度のほうが精度が良い! コストはかかるが人手で 誤りをアノテーションしていったほうがよい。 • 新規性・差分 上記①、②のResearch Questionに対する貢献が新規性に該当する。 • 手法 ① 疑似データの作成方法: Entity-Centric (ENT-C) Method (固有名詞や数詞の置換等)、 Generation-Centric (GEN-C) Method(言い換え、生成確率の低い単語を生成) ② 細かい粒度を扱える手法として、Dependency arc entailment (DAE)モデルを利用した。 • 結果 ① 疑似データにおけるエラー分布は、実際の要約モデルによるエラーと異なる分布だった。 また、 学習データが異なる場合(CNNDM, XSum)も、起きやすいエラーの分布は異なるので疑似データ 作成時には注意が必要である。 ② 大量の疑似データで学習するよりも高品質な人手で作成したデータの方が精度が優れていた。ま た、要約全体を使って判定するより(Sent-level)、係り受け単位で判定するモデル(DAE)のほうが 精度が優れていた。 • コメント 疑似データの問題点に着目している点が面白かった。分析は大事。 Tanya Goyal, Greg Durrett(The University of Texas) 引用元:https://www.aclweb.org/anthology/2021.naacl-main.114/ Extrinsic: ソース文書に存在 しない情報が湧き出したこと に起因する誤り 
 
 Intrinsic: ソース文書の情報 がを誤って解釈したことに起 因する誤り
 
 Other: 文法エラー等 
 DAEモデル
 各学習データ、モデルにおける判定精度の比較 
 (Label-Balanced Accuracy) 
 人手で作成した データを使用