nlpaper.challenge ACL2020分野サーベイLT会資料

Slide 1

Slide 1 text

Open-domain Question Answering Systems Seitaro Shinagawa (NAIST)

Slide 2

Slide 2 text

品川政太朗 (@sei_shinagawa) NAISTで研究員をしています博士での研究：自然言語を用いた対話的な画像生成コミュニケーション支援や、Vision & Language周りが好物です近況 ● 博士（工学）になりました ● プレゼンをより良くするための live feedbackの研究を始めました。「こういうfeedback欲しいな」みたいなリクエストがあればぜひ下さいm(__)m

Slide 3

Slide 3 text

なぜ今回open domainについてまとめたのか？ ● 最近ちょっとずつアツくなってきている（気がした）　ACL2020のチュートリアルにもOpen-domain QAが！！（おススメ）　https://github.com/danqi/acl2020-openqa-tutorial ● よく知識ベースが使われている印象だが、どうやって使っているのか（タスク設定や応用方法）が知りたかった ● より難しい問題設定として、Conversational QAが流行ってきている　対話履歴(過去のQA履歴)も考慮した高い推論能力を求めるタスク＆　データセットが提案されてきていて興味を持った　（大人の都合で、後半の Dialogue systemとの2本立てでご紹介します）

Slide 4

Slide 4 text

Open-domainな問題設定の要点広範な話題について対応できる必要がある A. Out-of-vocabularyへの対応→Copy mechanismの利用など B. 知識データベースの利用 C. 履歴を考慮した、一貫性のある応答を返すための推論能力が必要 D. 汎用性→データの規模に対してモデルの能力がスケールするかどうか E. Out-of-distributionへの対応

Slide 5

Slide 5 text

まとめ対話的なQAにおいて多様な話題を扱うために、話題が遷移した質問なのか掘り下げ質問なのかどうかを二値で判定する新しいタスク＆データセットが提案された (①) オープンドメインの設定で問題となるout-of-domainな質問を予測確率のCalibrationによってより高精度に検知する手法が提案された (②) 多彩なトピックを網羅する学術論文での質問応答データセットが提案された (③) 複雑な質問をグラフに展開してから回答するQuery Graphのアプローチに、制約情報を強化学習効率的にグラフを作成する方法が提案された（④）質問生成の多様性を向上させることで、QAシステムの性能が向上することが示された（⑤）

Slide 6

Slide 6 text

① Learning to Identify Follow-Up Questions in Conversational Question Answering ● 与えられた文章に関する対話的なQAタスクをベースとして、質問が前の質問に関連する(同 topicか)質問(follow-up quesiton)になっているか否かを二値で判定するタスクとデータセットを提案 ● ベースラインとして、文章・履歴・follow-up質問の候補の３つの情報の関係をattentionで捉えるThree-Way Attentive Pooling Networkを提案。単純にBERTを使うよりも良い結果 ● Recall, Precisionは0.8前後であり、まだまだ向上の余地がありそう履歴を考慮した、一貫性のある応答を返すための推論能力が必要

Slide 7

Slide 7 text

Three-Way Attentive Pooling Networkの中身履歴(Q)・文章(P)・follow-up質問の候補(C)の3種類の情報源のうち2種類の組合せごとにsource-target attentionをとる ● (P,Q), (P,C)の組合せではPがクエリ ● (Q,C)の組合せではQ、Cそれぞれをクエリとした2種類のattentionをとる履歴を考慮した、一貫性のある応答を返すための推論能力が必要

Slide 8

Slide 8 text

② Selective Question Answering under Domain Shift ● 質問応答モデルは、訓練時と分布が異なる入力に対して意図しない応答を示す問題がある。オープンドメインな設定では特に頻出する問題 ● 分布外を検知するには予測確率を確信度として利用することが多い。通常の学習ではモデルが過剰に予測確率を見積もりがちなので、補正する手法を提案方法別のQAデータセットの少量サンプルを仮想的に分布外データとして加え、入力がドメイン内かどうかを二値分類する分類器を学習した結果二値分類器が予測確率の補正 (Calibration)として働き、out-of-domainなテストデータに対してfalse positiveやfalse negativeを減らせた予測確率が実際の分布を反映している(点線に沿っている)ほど良い提案手法ベースライン Out-of-distributionへの対応予測確率の最大値真の確率値

Slide 9

Slide 9 text

③ Talk to Papers: Bringing Neural Question Answering to Academic Search (demo paper) 学術論文におけるオープンドメインな情報検索を質問応答形式で行う手法Talk to Paper の提案。貢献 ● Talk to Paper実現のためのインターフェース、アノテーションツールの提供 ● SOCO-QAデータセットの提供 ● BERTベースのベースライン手法の提供その他 ● 回答の形式は質問に対する応答の他、根拠となるフレーズレベル(論文内のスニペットの抜き出し)による回答も可能とのこと ● GPT-2で質問生成器をつくることでquery expansionができる ● 著者はSOCO AIという企業の所属

Slide 10

Slide 10 text

④ Query Graph Generation for Answering Multi-hop Complex Questions from Knowledge Bases multi-hopを含む複雑な質問に答えるための段階的なQuery Graph生成手法を提案 ● Query Graph：質問をグラフで表現することで知識ベースから回答を推論する ● 課題：multi-hopな場合は生成対象のグラフの候補が増えてしまう(beam searchが主流)；制約情報（例：「最初の○○は誰か？」）は後から付け足していた ● 生成途中の段階から制約情報を利用して生成候補を絞りたい→強化学習による段階的なQuery Graph手法の提案 extend connect aggregate “Who is the first TV producer nominated for The Jeff Probst Show in 2010?“ 1-hop 2-hop

Slide 11

Slide 11 text

⑤ On the Importance of Diversity in Question Generation for QA QAシステムの性能向上に質問生成(Question Generation; QG)の多様性の重要性を主張 QGモデルの多様性向上にはnucleus (top-p) samplingを使用（予測確率の合計が閾値pを上回るまでの上位単語から次の単語をサンプリング） RoBERTaベースの事前学習モデルをfine-tuningしてQGモデルを学習、BERTベースのQAモデルで評価結果：質問文の参照文との一致度（BLEU-1, ROUGE-4, METEOR）と質問に対する回答のF値（SQuADの公式F1スコア；回答と正答のlexical overlap）は逆相関してることを報告→質問文が多様になるほどQAの性能が上がる

Slide 12

Slide 12 text

QA関連でサーベイしてみて分かったこと&感想全体的な研究動向 ● いわゆる従来のsingle turn open-domain QAは全然ない・・・ ● 対照的にConversational QAが増えてる印象（読む時間は無かった）対話方向へ向かう上で重要になってきそうな話が印象的だった ● Identify Follow-Up Questions ● 予測確率の補正 (Calibration)という概念も重要そう（初めて知った）確信が持てない時に返答しないか決めるのはQA or 対話システムに重要

Slide 13

Slide 13 text

ACLチュートリアルで課題として言及されていたもの引用： https://github.com/danqi/acl2020-openqa-tutorial 現在ホットなのは文脈の検索ベース vs 知識の抽出をして答える手法文脈を利用した回答ができるか分からない時に分からないと言えるか物語の理解を問われる質問や長い回答ができるか Conversational QAな設定への対応マルチモーダルな設定への対応

Slide 14

Slide 14 text

Open-domain Dialogue Systems Seitaro Shinagawa (NAIST)

Slide 15

Slide 15 text

Open-domainな雑談対話システムでも、複数ターンを考慮した高い推論能力の達成に課題意識が向いてきている印象タスク指向対話：情報案内など非タスク指向対話：雑談　雑談応答生成システム（りんなとか）　音声アシスタント（Siriとか）より文脈・履歴を考慮した複数ターンの問題設定へ Conversational QA

Slide 16

Slide 16 text

Open-domainな問題設定の要点広範な話題について対応できる必要がある例えば… A. Out-of-vocabularyへの対応→Copy mechanismの利用など B. 知識データベースの利用 C. 履歴を考慮した、一貫性のある応答を返すための推論能力が必要 D. 汎用性→データの規模に対してモデルの能力がスケールするかどうか E. Out-of-distributionへの対応

Slide 17

Slide 17 text

まとめ知識ベースを利用した雑談対話応答生成モデルの改良が提案された (①,②) ● 知識ファクトを扱うモデル：知識へのattentionを教師ありで予測して性能向上 ● 文ベースの知識を扱うモデル：知識へのattentionを再帰的に行い性能向上対話モデルの推論能力のベンチマークデータセットMuTualが登場 (③) ● SoTAの手法(RoBERTaベース)で71%、人間は94%の正解率でまだ差がある応答生成の内容語と文体をグラフとして表現し、対話制御の対象とすることで話題の自然な遷移を反映した一貫性のある応答生成を実現 (④) 12の対話タスクを横断的に学習するタスクDialogue Dodecathlonが登場 (⑤) ● transformerベースのモデルを12の対話タスク(内2つは画像付きタスク)で学習することで、相補的に各タスクの性能が向上することを確認

Slide 18

Slide 18 text

① Generating Informative Conversational Response using Recurrent Knowledge-Interaction and Knowledge-Copy ● 知識が文として与えられる場合の対話応答文生成を行う ● LSTMの文生成で一般的に使われている再帰的なattentionを知識embedding側にも適用することで、オープンドメイン対話での応答文生成の性能を改善知識embedding へのattention (Dynamic Attention) 知識ベースを利用した雑談対話応答生成モデルの改良

Slide 19

Slide 19 text

● データセット： Wizard-of-Wikipedia, DuConv ● 評価尺度： Bleu1/2/3, F1, DISTINCT1/2 ● 提案モデル(KIC)は特に、多様性を示すDISTINCTが向上→色々な単語を使っているから知識をうまく使えているという主張 ● （ちなみに）Ablation studyを見ると、Dynamic Attentionを抜いてもcopy mechanism があれば十分強力であることが伺える知識ベースを利用した雑談対話応答生成モデルの改良

Slide 20

Slide 20 text

② Diverse and Informative Dialogue Generation with Context-Specific Commonsense Knowledge Awareness ● 知識がファクトとして与えられる場合の対話応答文生成を行う ● エンティティを基に検索される知識ファクト候補の多義性に対し、応答に適切な概念を選択して応答に使えるモデルを提案して性能を改善ファクトによる応答生成のプロセスと問題 1. 入力文に含まれるエンティティを抽出　例：Apple 2. エンティティからファクトの候補を検索候補１： (Apple, RelatedTo, Delicious) 候補２：(Apple, RelatedTo, Mac) Appleには食物と企業の2つの別の概念が候補に挙がるので、適切に選ぶ必要がある知識ベースを利用した雑談対話応答生成モデルの改良

Slide 21

Slide 21 text

Felicitous Fact Recognizer ● 発話文をクエリとして、検索されたknowledgeへのattention (Prior)を出力する ● 訓練時は応答文も入力として得られる分布を教師とし、Priorとの損失を最小化 Triple Knowledge Decoder 単語の出力を入力文、知識、デコーダの３つの出力分布を混ぜ合わせた分布からサンプリングする手法。2層MLP+softmaxの出力分布を用いる提案モデル ConKADIによる知識ファクトを利用した応答生成コード、データセット：https://github.com/pku-orangecat/ACL2020-ConKADI データセット： Reddit dataset, 自前のWeibo dataset (中国語) 知識ファクトにはConceptNetを使用 Felicitous Fact Recognizerによる attentionの損失の最小化がキモ知識ベースを利用した雑談対話応答生成モデルの改良

Slide 22

Slide 22 text

③ MuTual: A Dataset for Multi-Turn Dialogue Reasoning 深層学習ベースの対話モデルの論理的な推論能力向上を目標として、推論能力を必要とする会話データセットMuTualを提案 English listening comprehension試験に基づいた8,860対話最新の手法(RoBERTaベース)で71%、人間は94%の正解率で、まだ向上の余地あり特徴： ● 次の文を予測するタスク ● 推論を必要とする ● オープンドメイン ● 人手による調整コード、データセット：https://github.com/Nealcly/MuTua l 対話モデルの推論能力のベンチマークデータセット MuTual

Slide 23

Slide 23 text

● listening comprehensionの元の問題(左図)をベースとして、人手で対話履歴を抜き出して次の応答を予測する４つの候補文(右図)を作成 ● 回答の一つは、正答を見ながら作った、表層的な単語のmatchingでは間違えてしまう選択肢（右図だと選択肢D、dinnerが履歴に含まれている） ● TF-IDFからRoBERTaまで古今にわたる様々な手法を利用して評価 ● Ablation studyでは対話履歴を落としていくにつれ顕著に正解率が悪化。対話履歴が文脈情報として重要なタスクであることを示唆している対話モデルの推論能力のベンチマークデータセット MuTual

Slide 24

Slide 24 text

④ Conversational Graph Grounded Policy Learning for Open-Domain Conversation Generation 応答文における内容語(what-to-say), と文体(how-to-say)をグラフで表現して強化学習でグラフ中の遷移方策を学習させることで、話題に一貫性を持たせた対話を実現 nlpaperまとめ： http://xpaperchallenge.org/nlp/summaries/acl2020/75/ 新規性対話制御を、生成する内容語と文体の遷移グラフを構築して行えるようにしたことグラフの作り方 ① tf-idfでキーワードを抽出 ② キーワードからキーワードへの遷移を RNNで学習　　　　　　（予測する対象が一つなのに RNNなのか・・・？) ③ 最も頻出する文体の生成選択肢を５つ用意　　(同じ著者らの先行研究によって事前に学習する ) ② ③ 一貫性のある応答生成

Slide 25

Slide 25 text

文体(how-to-say; Mechanism)の学習 [Chen+, IJICAI2019] Generating Multiple Diverse Responses with Multi-Mapping and Posterior Mapping Selection https://arxiv.org/abs/1906.01781 1. 別々のMLPによるmapping関数により、K個のembedding {m1,m2,...,mK}を得る 2. 訓練時は応答 yをクエリとしてmとのattention πを計算する→attention πの分布に沿ってmをgumbel-softmaxでサンプリングして、mとyが対応したものとして学習する 3. 推論時は、人手で選んでいる（これを強化学習でモデルが選べるようにしたのも前頁の研究の新規性）一貫性のある応答生成著者らの先行研究 [Chen+, IJICAI2019]を使用文体のアノテーションなしで学習できる方針：訓練時に応答yと最も近いmechanismを類似度計算により選ぶ

Slide 26

Slide 26 text

⑤ The Dialogue Dodecathlon: Open-Domain Knowledge and Image Grounded Conversational Agents Image+Seq2Seq transformerを12の対話タスク(内2つは画像付きタスク)で学習することで、相補的に各タスクの性能が向上することを確認学習したモデルは公開されていて利用可能 https://parl.ai/projects/do decadialogue/ 12の対話タスクを横断的に学習

Slide 27

Slide 27 text

サーベイしてみて分かったこと&感想知識ベースを使っている手法について ● 知識が文の場合とファクトの場合の2種類の問題設定が存在 ● Copy mechanismの存在が重要(out-of-vocabularyの問題を緩和している) 対話をグラフ化する話が面白かった ● Conversational QAみたいなタスク対話にも応用が利きそう発話文（クエリ）のみの場合と、発話・応答ペアの差を利用してるの賢い ● ConKADI：発話文のみによる事前分布をペアによる事後分布に近づけるように学習 ● Mechanismによるhow-to-sayの生成：発話文に対して対応するMechanism をgold応答文との類似度から計算 →how-to-sayのアノテーションなんていらんかったんや・・・