nlpaper.challenge ACL2020分野サーベイLT会資料

nlpaper.challenge ACL2020分野サーベイLT会資料

ACL2020のサーベイ資料です。Open-domainを指向しているQuestion AnsweringとDialogue systemについてまとめました。

7b3e0dbc0d712ad5df602d9f9e5e4209?s=128

Seitaro Shinagawa

October 18, 2020
Tweet

Transcript

  1. Open-domain Question Answering Systems Seitaro Shinagawa (NAIST)

  2. 品川 政太朗 (@sei_shinagawa) NAISTで研究員をしています 博士での研究:自然言語を用いた対話的な画像生成 コミュニケーション支援や、Vision & Language周りが好物です 近況 •

    博士(工学)になりました • プレゼンをより良くするための live feedbackの研究を始めました。 「こういうfeedback欲しいな」みたいな リクエストがあればぜひ下さいm(__)m
  3. なぜ今回open domainについてまとめたのか? • 最近ちょっとずつアツくなってきている(気がした)  ACL2020のチュートリアルにもOpen-domain QAが!!(おススメ)  https://github.com/danqi/acl2020-openqa-tutorial • よく知識ベースが使われている印象だが、どうやって使っているのか(タス ク設定や応用方法)が知りたかった

    • より難しい問題設定として、Conversational QAが流行ってきている  対話履歴(過去のQA履歴)も考慮した高い推論能力を求めるタスク&  データセットが提案されてきていて興味を持った  (大人の都合で、後半の Dialogue systemとの2本立てでご紹介します)
  4. Open-domainな問題設定の要点 広範な話題について対応できる必要がある A. Out-of-vocabularyへの対応→Copy mechanismの利用など B. 知識データベースの利用 C. 履歴を考慮した、一貫性のある応答を返すための推論能力が必要 D.

    汎用性→データの規模に対してモデルの能力がスケールするかどうか E. Out-of-distributionへの対応
  5. まとめ 対話的なQAにおいて多様な話題を扱うために、話題が遷移した質問なのか掘り下げ質問 なのかどうかを二値で判定する新しいタスク&データセットが提案された (①) オープンドメインの設定で問題となるout-of-domainな質問を予測確率のCalibrationに よってより高精度に検知する手法が提案された (②) 多彩なトピックを網羅する学術論文での質問応答データセットが提案された (③) 複雑な質問をグラフに展開してから回答するQuery

    Graphのアプローチに、制約情報を 強化学習効率的にグラフを作成する方法が提案された(④) 質問生成の多様性を向上させることで、QAシステムの性能が向上することが示された (⑤)
  6. ① Learning to Identify Follow-Up Questions in Conversational Question Answering

    • 与えられた文章に関する対話的なQAタスクを ベースとして、質問が前の質問に関連する(同 topicか)質問(follow-up quesiton)になってい るか否かを二値で判定するタスクとデータセッ トを提案 • ベースラインとして、文章・履歴・follow-up質 問の候補の3つの情報の関係をattentionで捉 えるThree-Way Attentive Pooling Networkを 提案。単純にBERTを使うよりも良い結果 • Recall, Precisionは0.8前後であり、まだまだ 向上の余地がありそう 履歴を考慮した、一貫性のある応答を返すための推論能力が必要
  7. Three-Way Attentive Pooling Networkの中身 履歴(Q)・文章(P)・follow-up質問の候補(C)の3種類 の情報源のうち2種類の組合せごとにsource-target attentionをとる • (P,Q), (P,C)の組合せではPがクエリ

    • (Q,C)の組合せではQ、Cそれぞれをクエリとし た2種類のattentionをとる 履歴を考慮した、一貫性のある応答を返すための推論能力が必要
  8. ② Selective Question Answering under Domain Shift • 質問応答モデルは、訓練時と分布が異なる入力に対して意図しない応答を示す問題 がある。オープンドメインな設定では特に頻出する問題

    • 分布外を検知するには予測確率を確信度として利用することが多い。通常の学習で はモデルが過剰に予測確率を見積もりがちなので、補正する手法を提案 方法 別のQAデータセットの少量サンプルを仮想的に分 布外データとして加え、入力がドメイン内かどうかを 二値分類する分類器を学習した 結果 二値分類器が予測確率の補正 (Calibration)として 働き、out-of-domainなテストデータに対してfalse positiveやfalse negativeを減らせた 予測確率が実際の分布を反映して いる(点線に沿っている)ほど良い 提案 手法 ベース ライン Out-of-distributionへの対応 予測確率の 最大値 真の確率値
  9. ③ Talk to Papers: Bringing Neural Question Answering to Academic

    Search (demo paper) 学術論文におけるオープンドメインな情報検索を質問応答形式で行う手法Talk to Paper の提案。 貢献 • Talk to Paper実現のためのインターフェー ス、アノテーションツールの提供 • SOCO-QAデータセットの提供 • BERTベースのベースライン手法の提供 その他 • 回答の形式は質問に対する応答の他、根拠と なるフレーズレベル(論文内のスニペットの抜 き出し)による回答も可能とのこと • GPT-2で質問生成器をつくることでquery expansionができる • 著者はSOCO AIという企業の所属
  10. ④ Query Graph Generation for Answering Multi-hop Complex Questions from

    Knowledge Bases multi-hopを含む複雑な質問に答えるための段階的なQuery Graph生成手法を提案 • Query Graph:質問をグラフで表現することで知識ベースから回答を推論する • 課題:multi-hopな場合は生成対象のグラフの候補が増えてしまう(beam searchが主 流);制約情報(例:「最初の◦◦は誰か?」)は後から付け足していた • 生成途中の段階から制約情報を利用して生成候補を絞りたい→強化学習による段階 的なQuery Graph手法の提案 extend connect aggregate “Who is the first TV producer nominated for The Jeff Probst Show in 2010?“ 1-hop 2-hop
  11. ⑤ On the Importance of Diversity in Question Generation for

    QA QAシステムの性能向上に質問生成(Question Generation; QG)の多様性の重要性を主張 QGモデルの多様性向上にはnucleus (top-p) samplingを使用(予測確率の合計が閾値pを上回るま での上位単語から次の単語をサンプリング) RoBERTaベースの事前学習モデルをfine-tuningしてQGモデルを学習、BERTベース のQAモデルで評価 結果:質問文の参照文との一致度(BLEU-1, ROUGE-4, METEOR)と質問に対する回 答のF値(SQuADの公式F1スコア;回答と正答のlexical overlap)は逆相関してることを 報告→質問文が多様になるほどQAの性能が上がる
  12. QA関連でサーベイしてみて分かったこと&感想 全体的な研究動向 • いわゆる従来のsingle turn open-domain QAは全然ない・・・ • 対照的にConversational QAが増えてる印象(読む時間は無かった)

    対話方向へ向かう上で重要になってきそうな話が印象的だった • Identify Follow-Up Questions • 予測確率の補正 (Calibration)という概念も重要そう(初めて知った) 確信が持てない時に返答しないか決めるのはQA or 対話システムに重要
  13. ACLチュートリアルで課題として言及されていたもの 引用: https://github.com/danqi/acl2020-openqa-tutorial 現在ホットなのは 文脈の検索ベース vs 知識の抽出をして答える手法 文脈を利用した回答ができるか 分からない時に分からないと言えるか 物語の理解を問われる質問や長い回答

    ができるか Conversational QAな設定への対応 マルチモーダルな設定への対応
  14. Open-domain Dialogue Systems Seitaro Shinagawa (NAIST)

  15. Open-domainな雑談対話システムでも、複数ターンを考慮した高 い推論能力の達成に課題意識が向いてきている印象 タスク指向対話:情報案内など 非タスク指向対話:雑談  雑談応答生成システム (りんなとか)  音声アシスタント(Siriとか) より文脈・履歴を考慮した複数ター ンの問題設定へ Conversational

    QA
  16. Open-domainな問題設定の要点 広範な話題について対応できる必要がある 例えば… A. Out-of-vocabularyへの対応→Copy mechanismの利用など B. 知識データベースの利用 C. 履歴を考慮した、一貫性のある応答を返すための推論能力が必要

    D. 汎用性→データの規模に対してモデルの能力がスケールするかどうか E. Out-of-distributionへの対応
  17. まとめ 知識ベースを利用した雑談対話応答生成モデルの改良が提案された (①,②) • 知識ファクトを扱うモデル:知識へのattentionを教師ありで予測して性能向上 • 文ベースの知識を扱うモデル:知識へのattentionを再帰的に行い性能向上 対話モデルの推論能力のベンチマークデータセットMuTualが登場 (③) •

    SoTAの手法(RoBERTaベース)で71%、人間は94%の正解率でまだ差がある 応答生成の内容語と文体をグラフとして表現し、対話制御の対象とすることで話題の自然 な遷移を反映した一貫性のある応答生成を実現 (④) 12の対話タスクを横断的に学習するタスクDialogue Dodecathlonが登場 (⑤) • transformerベースのモデルを12の対話タスク(内2つは画像付きタスク)で学習するこ とで、相補的に各タスクの性能が向上することを確認
  18. ① Generating Informative Conversational Response using Recurrent Knowledge-Interaction and Knowledge-Copy

    • 知識が文として与えられる場合の対話応答文生成を行う • LSTMの文生成で一般的に使われている再帰的なattentionを知識embedding側に も適用することで、オープンドメイン対話での応答文生成の性能を改善 知識embedding へのattention (Dynamic Attention) 知識ベースを利用した雑談対話応答生成モデルの改良
  19. • データセット: Wizard-of-Wikipedia, DuConv • 評価尺度: Bleu1/2/3, F1, DISTINCT1/2 •

    提案モデル(KIC)は特に、多様性を示すDISTINCTが向上→色々な単語を使っている から知識をうまく使えているという主張 • (ちなみに)Ablation studyを見ると、Dynamic Attentionを抜いてもcopy mechanism があれば十分強力であることが伺える 知識ベースを利用した雑談対話応答生成モデルの改良
  20. ② Diverse and Informative Dialogue Generation with Context-Specific Commonsense Knowledge

    Awareness • 知識がファクトとして与えられる場合の対話応答文生成を行う • エンティティを基に検索される知識ファクト候補の多義性に対し、応答に適切な概念 を選択して応答に使えるモデルを提案して性能を改善 ファクトによる応答生成のプロセスと問題 1. 入力文に含まれるエンティティを抽出 例 :Apple 2. エンティティからファクトの候補を検索候補1: (Apple, RelatedTo, Delicious) 候補2:(Apple, RelatedTo, Mac) Appleには食物と企業の2つの別の概念が候補に 挙がるので、適切に選ぶ必要がある 知識ベースを利用した雑談対話応答生成モデルの改良
  21. Felicitous Fact Recognizer • 発話文をクエリとして、検索されたknowledgeへのattention (Prior)を出力する • 訓練時は応答文も入力として得られる分布を教師とし、Priorとの損失を最小化 Triple Knowledge

    Decoder 単語の出力を入力文、知識、デコーダの3つの出力分布を混ぜ合わせた分布からサンプ リングする手法。2層MLP+softmaxの出力分布を用いる 提案モデル ConKADIによる知識ファクトを利用した応答生成 コード、データセット :https://github.com/pku-orangecat/ACL2020-ConKADI データセット: Reddit dataset, 自前のWeibo dataset (中国語) 知識ファクトにはConceptNetを使用 Felicitous Fact Recognizerによる attentionの損失の最小化がキモ 知識ベースを利用した雑談対話応答生成モデルの改良
  22. ③ MuTual: A Dataset for Multi-Turn Dialogue Reasoning 深層学習ベースの対話モデルの論理的な推論能力向上を目標として、推論能力を必要と する会話データセットMuTualを提案

    English listening comprehension試験に基づいた8,860対話 最新の手法(RoBERTaベース)で71%、人間は94%の正解率で、まだ向上の余地あり 特徴: • 次の文を予測するタ スク • 推論を必要とする • オープンドメイン • 人手による調整 コード、データセット :https://github.com/Nealcly/MuTua l 対話モデルの推論能力のベンチマークデータセット MuTual
  23. • listening comprehensionの元の問題(左図)をベースとして、人手で対話履歴を抜き 出して次の応答を予測する4つの候補文(右図)を作成 • 回答の一つは、正答を見ながら作った、表層的な単語のmatchingでは間違えてしまう 選択肢(右図だと選択肢D、dinnerが履歴に含まれている) • TF-IDFからRoBERTaまで古今にわたる様々な手法を利用して評価 •

    Ablation studyでは対話履歴を落としていくにつれ顕著に正解率が悪化。対話履歴が 文脈情報として重要なタスクであることを示唆している 対話モデルの推論能力のベンチマークデータセット MuTual
  24. ④ Conversational Graph Grounded Policy Learning for Open-Domain Conversation Generation

    応答文における内容語(what-to-say), と文体(how-to-say)をグラフで表現して強化学習で グラフ中の遷移方策を学習させることで、話題に一貫性を持たせた対話を実現 nlpaperまとめ: http://xpaperchallenge.org/nlp/summaries/acl2020/75/ 新規性 対話制御を、生成する内容語と文体の遷移グラフを構築して 行えるようにしたこと グラフの作り方 ① tf-idfでキーワードを抽出 ② キーワードからキーワードへの遷移を RNNで学習        (予測する対象が一つなのに RNNなのか・・・?) ③ 最も頻出する文体の生成選択肢を5つ用意   (同じ著者らの先行研究によって事前に学習する ) ② ③ 一貫性のある応答生成
  25. 文体(how-to-say; Mechanism)の学習 [Chen+, IJICAI2019] Generating Multiple Diverse Responses with Multi-Mapping

    and Posterior Mapping Selection https://arxiv.org/abs/1906.01781 1. 別々のMLPによるmapping関数により、K個のembedding {m1,m2,...,mK}を得る 2. 訓練時は応答 yをクエリとしてmとのattention πを計算する→attention πの分布に 沿ってmをgumbel-softmaxでサンプリングして、mとyが対応したものとして学習する 3. 推論時は、人手で選んでいる(これを強化学習でモデルが選べるようにしたのも前頁 の研究の新規性) 一貫性のある応答生成 著者らの先行研究 [Chen+, IJICAI2019]を使用 文体のアノテーションなしで学習できる 方針: 訓練時に応答yと最も近いmechanismを類似度 計算により選ぶ
  26. ⑤ The Dialogue Dodecathlon: Open-Domain Knowledge and Image Grounded Conversational

    Agents Image+Seq2Seq transformerを12の対話タスク(内2つは画像付きタスク)で学習すること で、相補的に各タスクの性能が向上することを確認 学習したモデルは 公開されていて利用可能 https://parl.ai/projects/do decadialogue/ 12の対話タスクを横断的に学習
  27. サーベイしてみて分かったこと&感想 知識ベースを使っている手法について • 知識が文の場合とファクトの場合の2種類の問題設定が存在 • Copy mechanismの存在が重要(out-of-vocabularyの問題を緩和している) 対話をグラフ化する話が面白かった • Conversational

    QAみたいなタスク対話にも応用が利きそう 発話文(クエリ)のみの場合と、発話・応答ペアの差を利用してるの賢い • ConKADI:発話文のみによる事前分布をペアによる事後分布に近づけるよう に学習 • Mechanismによるhow-to-sayの生成:発話文に対して対応するMechanism をgold応答文との類似度から計算 →how-to-sayのアノテーションなんていらんかったんや・・・