Slide 1 text

話者情報を認識した対話要約 Speaker-Aware Dialogue Summarization 楢木悠士 (Yuji Naraki)1, 酒井哲也 (Tetsuya Sakai)1 1 早稲田大学 (Waseda University) NLP2021 B7-4 2021/03/18 自動対話要約は対話文書から話者の意図を客観的に捉え,正確かつ 簡潔な要約を生成することを目的としたタスクである.本研究では話者 交代情報または話者識別情報を含む埋め込み表現を効果的に加算し ,収束性とROUGEの向上を示した.

Slide 2 text

目次 ❏ 導入 ❏ 背景 ❏ 関連研究 ❏ 提案手法 ❏ 実験設定 ❏ 結果・考察 ❏ 結論・今後の課題 ❏ 要約例 ❏ 参考文献 2

Slide 3 text

❑ 導入 ~ 対話要約の意義と性質 ~ 話者の意図を客観的に捉え、正確かつ簡潔にまとめる ➢ SNSの会話 ➢ サービスセンターや会議での対話 ➢ 病院での医師と患者のやりとり 目的 応用例 研究の特色 3 ✘ 対話要約のためのデータセットが少ない ✘ 抽出型要約は適さない ✘ 文書要約手法を基盤とする

Slide 4 text

❑ 背景 ~ 研究の特色 ~ 4 ✘ 対話要約のためのデータセットが少ない → SAMSumの公開 ✘ 抽出型要約は適さない ✘ 文書要約手法を基盤とする

Slide 5 text

❑ 背景 ~ 特色① データセットが少ない ~ SAMSum[1] 対話要約のためのデータセット ➢ 言語学者によって人手で作成 ➢ 深層学習モデルの訓練が十分に可能なデータ数 ➢ あらゆる日常会話が含まれる ex. くだらない会話, 会議の設定 図1. 対話要約の例 表1. SAMSumのデータ数 5

Slide 6 text

❑ 背景 ~ 研究の特色 ~ 6 ✘ 対話要約のためのデータセットが少ない → SAMSumの公開 ✘ 抽出型要約は適さない ✘ 文書要約手法を基盤とする

Slide 7 text

❑ 背景 ~ 特色② 抽出型要約は適さない ~ 抽出型の対話要約の例 対話文 Mary: Hi Mike! Mike: Hello :) Mary: do u have any plans for tonight? Mike: I’m going to visit my grandma. You can go with me. She likes u very much. Mary: Good Idea, i’ll buy some chocolate for her. 要約文 I’m going to visit my grandma. You can go with me. i’ll buy some chocolate for her. 7 抽出型対話要約の問題点 ▻ 一人称・二人称 ▻ 口語

Slide 8 text

❑ 背景 ~ 研究の特色 ~ 8 ✘ 対話要約のためのデータセットが少ない → SAMSumの公開 ✘ 抽出型要約は適さない → 一人称・二人称・口語が ❌ ✘ 文書要約手法を基盤とする ✘ 対話要約のためのデータセットが少ない → SAMSumの公開 ✘ 抽出型要約は適さない → 一人称・二人称・口語が ❌ ✘ 文書要約手法を基盤とする 対話要約 = 文書要約 + α(対話に特化) → 最新の要約手法を用いるには時間がかかる

Slide 9 text

❑ 背景 ~ 対話要約研究の特色の考察 ~ 文書要約手法の変遷 2000年 〜 2014年 抽出型要約 (ex. TextRank) 2015年 〜 2018年 RNNを用いた抽象型要約 (ex. Pointer Generator) 2018年 〜 2019年 Transformerを用いた抽出型要約 (ex. BERTSum) 2020年 〜 現在 Transformerを用いた抽象型要約 (ex. PEGASUS) 9

Slide 10 text

❑ 背景 ~ 対話要約研究の特色の考察 ~ 文書要約手法の変遷 2000年 〜 2014年 抽出型要約 (ex. TextRank) 2015年 〜 2018年 RNNを用いた抽象型要約 (ex. Pointer Generator) 2018年 〜 2019年 Transformerを用いた抽出型要約 (ex. BERTSum) 2020年 〜 現在 Transformerを用いた抽象型要約 (ex. PEGASUS) 10 → そもそも対話要約の研究が少ないにも関わらず、 → Transformerを用いた対話要約の研究はほとんど見られない

Slide 11 text

❑ 関連研究 ~ 対話要約手法 ~ ➢ 2018年 Gooら[6] ○ RNNをベースとした構造 ○ 発言の役割(role)を副次的に学習 ➢ 2019年 Yuanら[8] ○ Pointer Generatorを基にした構造 ○ 対話のトピック(domain)を副次的に学習 ➢ 2020年 Zhaoら[17] ○ Pointer Generatorを基にした構造 ○ トピックとなる単語と発言間の相互関係を考慮 I. 対話特有の特徴をモデルに認識させる A. 発言の役割や関係性 B. 対話のトピック II. RNN、特にPointer Generator、をベースとした研究が活発 11

Slide 12 text

❑ 提案手法(前提) ~ Embedding (埋め込み表現) ~ ❖ Token Embedding 単語を表すベクトル ❖ Position Embedding 入力文中の位置を表すベクトル ❖ Segment Embedding (要約タスクには用いられないため省略) 入力文中の役割の違いを表すベクトル 図2. Transformerの入力に用いられるEmbeddingの構造 12

Slide 13 text

❑ 提案手法① ~ Turn Embedding & Speaker Embedding ~ ❖ Turn Embedding 2種類のベクトルを持つ。 話者交代のタイミングでベクトルを変える。 ❖ Speaker Embedding 発言の話者ごとに異なるベクトルを与える。 図4. 提案手法を加えたEmbeddingの構造 対話例 Tom: Hello Ana: Hi John: What’s up? 13 図3. 簡素な対話例

Slide 14 text

❑ 提案手法② ~ Partial Turn/Speaker Embedding ~ ❖ Position Embedding 入力文中のトークンの位置を表すベクトル モデルに入力できる最大トークン数 x Embeddingの次元数 → 今回の実験では512 x 1024 図5. 視覚化したPosition Embedding 14

Slide 15 text

❑ 提案手法② ~ Partial Turn/Speaker Embedding ~ 図6. Partial Turn/Speaker Embeddingの構造 ❖ Partial Turn Embedding / PartialSpeaker Embedding Position Embeddingの情報量の少ない箇所に限定的に加算する → 今回の実験では128次元 x 2箇所 = 256次元 15

Slide 16 text

❑ 実験設定 モデル: PEGASUS (次スライドで説明) データセット: XSum (事前学習), SAMSum (fine-tuning) 評価指標: ROUGE, 人手評価 有意性の検証: Tukey HSD検定 比較実験5種 ❖ ベースライン: PEGASUSをSAMSumで学習させる ❖ Turn Embedding: ベースラインにTurn Embeddingを追加 ❖ Speaker Embedding: ベースラインにSpeaker Embeddingを追加 ❖ Partial Turn Embedding: ベースラインにPartial Turn Embeddingを追加 ❖ Partial Speaker Embedding: ベースラインにPartial Speaker Embeddingを追加 16

Slide 17 text

❑ 実験設定 ~ PEGASUS[5] ~ ★ 文書要約タスクで高性能 ★ Encoder-Decoderを採用した抽象型要約モデル ★ 文生成に特化した事前学習手法 図7. PEGASUSの事前学習構造 17

Slide 18 text

❑ 結果・考察 ~ Validation Loss ~ ★ Turn/Speaker Embeddingを用いるとLossが高止まり ★ BaselineとPartial Turn/Speaker Embeddingを用いた手法は同程度のLossに収束 ★ Partial Turn/Speaker Embeddingを用いることでLossの低下が早い → Partial Turn/Speaker Embeddingはモデルの収束性を向上させる 図8. Validation Lossの変遷 18

Slide 19 text

❑ 結果・考察 ~ ROUGEスコア ~ ★ Turn/Speaker Embeddingを用いた場合、大幅なスコアの低下 ★ Partial Turn/Speaker Embeddingを用いた場合、スコアの向上 ROUGE-2のTukey HSD検定により Turn EmbedとSpeaker Embedの2手法は ベースライン, Partial Turn Embed, Partial Speaker Embedの3手法と 統計的に有意な差が認められた。 表2. ROUGEスコアの結果 19

Slide 20 text

❑ 結果・考察 ~ 人手評価 ~ 図9. 人手評価のUI ➢ ベースライン ➢ Partial Speaker Embedding 以上の2手法について Preferenceの評価を実施した * 入力文のトークン数が512以下 & 二つの生 成要約中に出現する単語集合の Jaccard係 数が0.8以下のデータを無作為に 60個抽出し た。1つのデータに3人の評価者を割り当て、 1 人15個の評価を12名実施した。 20 評価者に示した基準 「対話を客観的に捉え、要点を簡潔にま とめた短文にすること」

Slide 21 text

❑ 結果・考察 ~ 人手評価 ~ ★ 3つ全ての項目においてPartial Speaker Embeddingの方が 多くの票を獲得した。 → Partial Speaker Embeddingを用いることで → 要約を改善していると示唆される。 表3. 人手評価の結果 * Totalはすべての票数、Winsは評価の多いデータ数、 Unanimityはすべての票を獲得したデータ数である 21

Slide 22 text

❑ 結果・考察 ~ 要約例 ~ 22 Dialogue Shelly: This year I'm volunteering at the food shelter! Tracy: Good 4 u! Jody: Gr8! Shelly: How about u? Any volunteer work? Tracy: Nah. Not into that. Jody: Sure! Every year I do some charity 4 Xmas :) Summary Shelly is volunteering at a food shelter and asks if others do some volunteer work. Tracy is not into that, but Jody always does some charity for Christmas. Baseline Shelly is volunteering at the food shelter this year. Tracy does charity work every year. Partial Speaker Embedding Shelly is volunteering at the food shelter this year. Tracy doesn't want to do any volunteer work. ボランティアの話 ★ Tracyはボランティアに興味がない ★ Jodyは毎年チャリティをしている。 ❌ Tracyは毎年チャリティをしている ⭕ Tracyはボランティアをしたくない

Slide 23 text

❑ 結果・考察 ~ 要約例 ~ 23 Dialogue Josh: Stephen, I think you've accidentally taken my notebook home Stephen: wait lemme check Stephen: nope, I don't see it anywhere Jack: oh shit, I've got it xDDD I don't even know why Josh: xDDD ok, no problem, cool I know where it is Jack: I'll bring it tomorrow Summary Josh thinks Stephen accidentally took his notebook. Jack has it and will bring it tomorrow. Baseline Jack found Josh's notebook. Partial Speaker Embedding Jack accidentally took Josh's notebook home. Jack will bring it tomorrow. Joshのノートがどこかに行った ★ Stephenは持っていなかった ★ Jackがなぜか 持 っていたから 明日持っていく 🔺 JackがJoshのノートを見つけた ⭕ Jackが偶然家に持って帰っていたから、明日返す

Slide 24 text

❑ 結果・考察 ~ 要約例 ~ 24 Dialogue Maddie: I'm in Asda, do you need anything? John: could do with a white bread and some apples Maddie: ok. Gala? John: yes please ta Summary Maddie will buy a white bread and apples on John's request. Baseline John will buy white bread and some apples at Asda. Partial Speaker Embedding John will buy white bread and some apples for Maddie in Asda. MaddieがJohnに頼まれて 白いパンとりんごをいくつか買う ❌ Johnが買う ❌ Johnが買う ベースラインとPartial Speaker Embeddingのどちらも間違えている

Slide 25 text

❑ 結論・今後の課題 結論 ❖ 話者交代情報を含むTurn Embedding ❖ 話者識別情報を含むSpeaker Embedding ❖ 限定的に加算するPartial Turn/Speaker Embedding → Partial Turn/Speaker Embeddingは → モデルの収束性と要約性能の向上をもたらす 今後の課題 ➔ 意味上の性能の違いの分析 (QAGS) ➔ PEGASUSに限らず,、他のモデルでの追加Embeddingの効果検証 ➔ 提案手法に関する最良のパラメータ探索 ➔ 要約に限らず、あらゆる対話ドメインタスクへの応用 25

Slide 26 text

Slide 27 text

❑ Appendix ~ Position Embedding ~ Position Embeddingの設計は2通りある i. sin/cosを用いた固定Embedding ii. 初期Embedding → 逆伝搬による学習 どちらがよいかは未だ明らかになっていない 最近は学習する(ii)が使われている印象? 固定Embedding(i)のメリット ↓ ★ 入力長or次元数が変化してもスケール可能 (ii)だと学習し直さなければならない。 ★ 情報量の分布から本研究のような工夫が可能 ← new!! 27