nlpaper.challenge 外部知識に基づく応答生成サーベイ

nlpaper.challenge #1 外部知識に基づく応答生成サーベイ発表 2019/07/03 Kentaro Nakanishi, Koki Obinata, Hiromasa
Sakata #nlp-survey-kb-res

定期更新予定 • 2019/07/06 upload

自己紹介大日方(オビナタ) 孝輝 @not_oohikata 東大M2/カラクリ株式会社珍しいので苗字だけでも (ry 坂田大直 @dwarfplanet7634 株式会社レトリバ
今日は, 渋谷駅から出るのに苦労しました. 中西健太郎 @cﬁken 株式会社ミクシィ / 株式会社UZUMAKI ポプテピピックが好き

自動応答システム今日の天気は？晴れ時々曇りでしょうユーザーの発言に応答するシステム・サービスの増加機械自動応答はNLPの目標の1つ Siri(*2) Google Home(*1) *1:
https://store.google.com/jp/product/google_home *2: https://www.apple.com/jp/siri/ *3: Amazon Echo(*3)

質問応答 & 対話応答 • 広範囲の質問に解答する ◦ 多量のデータを活用して解答を導き出す • ユーザーと多様な会話を行う ◦
正解は存在せず，人間らしい対話が求められる IBMJapanChannelより *1: https://youtu.be/Wq0XnBYC3nQ *2: https://www.rinna.jp/ LINE りんなアカウントとのトーク例

目次 • 応答システム（質問応答・対話応答） • 外部知識の活用へ • データセット・ベンチマーク • 研究紹介

応答システム

QA例① : SQuAD The Stanford Question Answering Dataset (HP, Paper)
• 与えられたWikipediaのパラグラフに関する質問に答える • 正解はパラグラフ内のスパンで解答可能 • v2.0から<No Answer>が追加図：Single model BERTのOxygenに関する例

QA例② : bAbI Facebook AI Researchによるデータセット（HP, Paper） • 自然文の理解を測る20種類のタスク •
エージェントのシミュレーションにより機械的に生成 • 複数文に基づく推論が必要なタスクを含む図は論文内で紹介されている20個のタスクの内の4つ

QAのアプローチ今回主に関連するのは解答抽出型のQA • SQuAD ◦ 言語モデルの性能比較で用いられる ◦ XLNet (Yang et
al. 2019) ◦ BERT (Devlin et al. 2018) • bAbI ◦ 明示的に記憶を持つモデルが使われている ◦ End-to-End Memory Network (Sukhbaatar et al. 2015) ◦ Dynamic Memory Network (Kumar et al. 2015) ◦ 詳細はNLP/CV交流勉強会で扱った赤い本で

QAモデルの課題 • • 実応用では通常，関連パラグラフは与えられない！ → 推論時に外部知識(Knowledge Base)にアクセスして答えるモデルが必要 → Open
Domain QA, Commonsense QA

Conversation例① A Neural Conversational Model (Vinyals and Le 2015) •
Seq2Seqを対話モデルに応用対話例（論文内より引用）

Conversationのアプローチ • 枠組みとしては機械翻訳と類似 • 機械翻訳で使われる Deep なモデルが応用される ◦ Seq2Seq (Sutskever
et al. 2014) ◦ Transformer (Vaswani et al. 2017) • データセット ◦ Twitter ◦ OpenSubtitle Where are you going? I have to walk the dog. Encoder Decoder 入力予測機械学習

Conversationモデルの課題① • 一貫性（Consistency） ◦ 人格や対話の記憶を保持しないと、対話の中で一貫した発話が出来ない ◦ 例: （P: 人間,
M: 学習モデル） P: 専攻はどちらですか？ → M: 心理学です． → P: 大学で何を勉強していますか？ → M: 英文学です． • 常識（Commonsense） ◦ 文脈依存の多義語や慣用句，比喩 ◦ QAとも共通した課題

Conversationモデルの課題② • 情報量・多様性（Informativeness・Diversity） ◦ 発話内容に情報が少ない ▪ I don’t know., OK.,
Yes. などの一般的な返答 ◦ 結果として似たような発話が多くなる → 文脈や個人プロフィール，オープンデータ等の外部知識にアクセスして意味のある対話生成を目指す (Knowledge based, aware, groundedなどと表現される)

QAとConversationの比較 Question Answering（質問応答） • 発話（≒問い）に対して解答を予測する • 正解は限られる • 評価がしやすい Conversation
/ Dialog Generation（対話） • 発話に対して適切な返答を予測する • 適切な返答として多様な返答が考えられる • 評価がしづらい

Coﬀee Break (Visual QA&Dialog) QAやConversationの対象として画像を用いる VQAはCVPR 2019 Workshopの1つ (HP)

外部知識の活用へ

外部知識の活用先 • QA ◦ 学習データの範囲外に関する質問 ◦ 常識的な質問 • Conversation ◦
一般的な知識 ◦ 対話に関する記憶（履歴，プロフィール） ◦ Task-oriented な知識 (ex. レストランの予約状況) • 本グループでは応答生成にどう外部知識を組み込むかという点を主眼にサーベイ • 用いる外部知識データについては後述

Wikipediaや対話ログなどモデルの概要外部知識関連知識言語モデル入力文 (query) 応答 (output)
• 応答文の生成(Decode) • 応答内容の抽出 • 検索結果の再ランク情報検索(IR) 言語理解データ管理 (triplets, knowledge graph)

紹介論文の時系列一覧

トレンド: 論文数各カンファレンスの採択数自体増えているので単純に比較できないが、全体として件数は増えている

ベースとなるモデル • Seq2Seq ◦ 系列変換: Sutskever et al. 2014 ◦
対話への応用: Vinyals and Le 2015 • Memory Network ◦ End-to-End: Sukhbaatar et al. 2015 ◦ 対話への応用: Ghazvininejad et al. 2017 • Transformer ◦ Attention Is All You Need: Vaswani et al. 2017 ◦ 対話への応用例: Diwan et al. 2018

データセット・ベンチマークタスク

Knowledge Base, 学習データ • オープンデータ ◦ 非構造化データ ▪ Wikipedia ▪
Reddit（英語圏の掲示板） ▪ Twitter ◦ 構造化データ（tripletsやKnowledge Graph等） ▪ DBPedia：Wikipediaから抽出された構造化データ ▪ Freebase：オープンDB，現在はプロジェクト終了 ▪ ConceptNet：知識グラフ，多言語対応 • プライベートデータ ◦ 対話ログ・履歴データ ◦ 店舗の予約状況, 個人のプロフィール

ベンチマークタスク • Open Domain QA ◦ Quasar ◦ SearchQA ◦
SQuAD w/o Paragraph ◦ QALD（workshop) ◦ CommonsenseQA (A. Talmor+, NAACL 2019) • Conversation ◦ Persona Chat (S. Zhang+, 2018) ◦ Wizard of Wikipedia (E. Dinan+, ICLR 2019) ◦ DSTC7 (AAAI 2019 workshop)

対話生成の評価指標 • 自動評価指標 ◦ 出力と正解の単語マッチ等を利用 ▪ BLEU ← 翻訳由来 ▪
METEOR ← 翻訳由来 ▪ ROUGE ← 要約由来 ▪ (Entity) F1 ◦ モデルの出力確率を利用 ▪ Perplexity ◦ その他 ▪ Entropy

対話生成の評価指標 • 人手評価 ◦ 自動評価と並行して検証される ◦ 複数観点から評価 ▪ 多様性, 情報量
▪ 文脈, 一貫性 • 自動評価と人手評価の相関が弱い点が課題（Liu et al. 2016） Liu et al. 2016のFigure 2より，自動スコアは低いが人手評価は高い例 A: dearest! question. how many thousands of people can panaad[*1] occupy? B: @user[*2] panaad has <number> k seat capacity while rizal[*1] has <number> k thats why they choose rizal i think. 【Ground Truth】 A: now i know about the siting capasity. thanks for the info @user great evening. 【Proposed】 A: @user makes sense. thanks! （*1: スタジアム名, *2: おそらく個人名） BLEUと人手評価の相関

研究紹介

紹介論文 (QA) ‘Question Answering over Freebase with Multi-Column Convolutional Neural
Networks’, L. Dong et al., ACL 2015 ‘Question Answering on Freebase via Relation Extraction and Textual Evidence’, K. Xu et al., ACL 2016 ‘Bidirectional Attention Flow for Machine Comprehension’, M. Seo et al., ICLR 2017 ‘Hybrid Question Answering over Knowledge Base and Free Text’, K. Xu et al., COLING 2016 ‘Evidence Aggregation for Answer Re-Ranking in Open-Domain Question Answering’, S. Wang et al., ICLR 2018 ‘CommonsenseQA: A Question Answering Challenge Targeting Commonsense Knowledge’, A. Talmor et al., NAACL 2019

紹介論文 (Conversation) ‘Personalizing Dialogue Agents: I have a dog, do
you have pets too?’, S. Zhang et al., ACL 2018 ‘Wizard of Wikipedia: Knowledge-Powered Conversational Agents’, E. Dinan et al., ICLR 2019 ‘A Persona-Based Neural Conversation Model’, J. Li et al., ACL 2016 ‘Flexible End-to-End Dialogue System for Knowledge Grounded Conversation’, W. Zhu et al.,arXiv:1709.04264 ‘A Knowledge-Grounded Neural Conversation Model’, M. Ghazvininejad et al.,, AAAI 2018 ‘Commonsense Knowledge Aware Conversation Generation with Graph Attention’, H. Zhou et al., IJCAI 2018 ‘Knowledge Aware Conversation Generation with Explainable Reasoning on Augmented Graphs’, Z. Liu et al., arXiv:1903.10245 ‘Learning to Select Knowledge for Response Generation in Dialog Systems’, R. Lian et al, arXiv:1902.04911 ‘AliMe Chat: A Sequence to Sequence and Rerank based Chatbot Engine’, M. Qiu et al., ACL 2017 ‘Mem2Seq: Eﬀectively Incorporating Knowledge Bases into End-to-End Task-Oriented Dialog Systems’, A. Madotto et al., ACL 2018 ‘Disentangling Language and Knowledge in Task-Oriented Dialogs’, D. Raghu et al., NAACL 2019

研究紹介 QA

MCCNN • FreebaseとCNNを使った質問応答の研究. • 質問文とFreebaseから得た応答候補文をAnswer Path, Answer Type, Answer Context
の3つの観点からそれぞれEmbeddingを作成し,スコアを計算. • WebQuestions で[Berant et al, 2014] と比較しF値で0.9上回る. Li Dong, et al. ACL 2015(担当:坂田) どこ？誰？何？大学恋愛・結婚標準時文脈応答の種類語と語の関係性〜にある種類所有

MCCNN Li Dong, et al., ACL 2015(担当:坂田) 質問文からエンティティ抽出例. Avator
応答までの経路を学習周辺のエンティティ, リレーションを文脈とみなす. 応答のFreebase上でのタイプ

QA on Freebase via RE and Textual Evidence • Freebaseを使った応答生成の後,
Wikipediaを使ってその精査を行う. • 構造化データのみでは, 大きさの差や, 両親のうち片方の性別を答えるなどが難しい. • Wikipedia上の自然文から回答根拠を得る. • WebQuestions でSemantic Parsing via PP[Berant et al, 2016]よりF値で 0.8上回った.(53.3) Kun Xu,et al. ACL 2016 (担当:坂田)

QA on Freebase via RE and Textual Evidence Kun Xu,et
al. ACL 2016 (担当:坂田) • Freebase ◦ 質問文に対して, Entity Linking(曖昧性解消), Relation Extraction(Freebase内での predicateに変換) を行う. ◦ 得られた(Entity, Relation)を SVM Classiﬁerでランク付け. • Wikipedia ◦ wikiﬁerで上記最上位ペアのエンティティを含むwikiページを抽出. ◦ LIBSVMを使って, 回答(エンティティ)が正しいかどうかの2値分類問題を解く.

BiDAF • Context (回答が含まれる文書)とQuery（質問文)の双方向のAttentionを導入　 • 単語と文字の両方の粒度でEmbedding. ◦ 単語Embeddingは意味を取るのに有効. ◦ 文字Embeddingは未知語に対して有効.
Minjoon Seo et al, ICLR 2017 (担当:坂田) 単語ベクトルだけだと , may(たぶん~) と May(5月)の意味が似ていることになっている. 単語ベクトル単語ベクトル　＋　文字ベクトル

　 BiDAF Minjoon Seo et al, ICLR 2017 (担当:坂田) あるContext
wordにそれぞれのquey wordがどれだけ関連しているか. パラグラフ内で回答となるインデックスを出力あるQuery wordにそれぞれの Context wordがどれだけ関連しているか. ht;Q2C;C2Q concatする

Hybrid QA • Freebase, DBpedia などの構造化データと Wikipediaなどの非構造化データを組み合わせた KB質問応答システム. •
質問文をそれぞれがシンプルな関係性を表すように分解を行う • WebQuestionsにおいて, QA on Freebase に対してF値0.5上回った(53.8). Kun Xu,et al. COLING 2016(担当:坂田) 質問をTriplet で表せる形に分割質問文曖昧性解消 Coﬀee & TV(曲名) wrote → KBでは associatedBand is the front man of パラフレーズ化してテキスト内を探索

Hybrid QA • 以下の3つの処理を行う. ◦ Entity Linking: 質問文のエンティティの曖昧性解消. ◦ KB-based
Relation Extraction: DBPediaから質問文内の関係性を抽出. ◦ Textual Relation Extraction: Wikipediaから質問文内の関係性を抽出. • 上記のそれぞれの妥当性を最大化するような線形計画問題を解き統合. Kun Xu,et al. COLING 2016(担当:坂田) 曖昧性解消 Coﬀee & TV(曲名) wrote → KBでは associatedBand is the front man of パラフレーズ化してテキスト内を探索

Evidence Aggregation • Open Domain QAの Quasar-T というデータセットで現在もSOTA(相当) • 通常のアプローチ：
「検索」→「候補パッセージ」→「解答部分抽出」→「最終解答を選択」 • 最終解答を1つ選択するのではなく，複数の候補からの情報を集約 ◦ 検索候補上位に頻出の解答候補は有力（左の例） ◦ 質問への解答根拠が複数パッセージに分散しているので集約（右の例） Wang et al. ICLR 2018（担当: 大日方）登場頻度が高い解答候補複数パッセージを利用した解答根拠 P1 + P2 が Qの一部に合致 P1 + P2 が Qの全体に合致

Evidence Aggregation 1. Questionから解答に関連するパッセージをN個検索（ここの詳細は無し） 2. N個のパッセージから，解答spanの予測モデルで上位K個の解答候補を抽出 3. 抽出された解答候補をもとに2パターンのスコアを出し，足し合わせる 3.1. カウント
or 確率値のsumでre-ranking 3.2. 解答候補を含む全パッセージを結合し，Question, Passage, Answer の関係性をもとにre-ranking Wang et al. ICLR 2018（担当: 大日方） 1. 質問から検索 2. 解答部分の抽出 3.2. 質問に対する解答のカバー　　度合いを反映したスコア 3.1. 解答候補のカウントに基づくスコア

CommonsenseQA • 常識 (Commonsense) を取り入れた QA のための新しいベンチマークデータセット CommonsenseQA を提案。
• 12,247個の QA データで、1つの質問に対して5つの回答候補から正解を当てるタスク。 • 人間による accuracy は 89% に対して、BERT-Large では accuracy 56% と、既存モデルでは難しいタスクであることを示した。 A. Talmor et al., NAACL 2019 (担当: 中西)

CommonsenseQA • データの作成は、ConceptNet という Knowledge Graph を使用し、その出力をもとにクラウドワーカーが問題を作成する、というフロー。 • 簡単/難解になりすぎないように、5つの候補の作り方や質の再チェックなど
工夫が施されている A. Talmor et al., NAACL 2019 (担当: 中西)

研究紹介 Conversation

Persona-chat • Consistency や Informativeness の課題を解決するため Persona (プロフィール) を外部知識として活用して応答生成
• 会話のためのデータセットである Persona-chat を公開 ◦ 合計162,064 発話のデータセット ◦ データ例 S. Zhang et al. (FAIR), ACL 2018 (担当: 中西)

Persona-chat • さまざまなデータセットで実験し、対話モデルで特に Consistency においては有効なデータセットであることを実験で示した。 • Human Evaluation 結果の表
S. Zhang et al. (FAIR), ACL 2018 (担当: 中西)

Wizard of Wikipedia • ベンチマークタスクとして Wizard of Wikipedia を公開 ◦
クラウドワーカーの役割を Apprentice (普通の人), Wizard (知識のある人) と分けて会話させ、データ収集 ◦ Wizard 役の人には会話に合った Wikipedia 記事が複数与えられ、1つを選択してそれをもとに返答できる ◦ 合計 201,999 ターンの対話セット (train, valid, test 全体) Emily Dinan, et al. (FAIR), ICLR 2019 (担当: 中西)

Wizard of Wikipedia • ベースラインモデルとして Transformer Memory Network を提案 ◦
Transformer を組み合わせた珍しい例 ◦ Knowledge 候補から1つを選ぶ Transformer (下図左側)と、返答を生成する Transformer (下図右側) の2つで構成 ◦ End-to-end ver. と Two-stage ver. (知識の選択と返答生成のタスクを分ける) で実験 ◦ End-to-end ver. でも知識の選択部分に aux loss を追加している ◦ ベースラインモデルなので他モデルとの比較は少ないが、 Human Performance と比べるとまだまだ低い Emily Dinan, et al. (FAIR), ICLR 2019 (担当: 中西)

Persona Based Neural Conversational Model • 単語だけでなく, 各発話の話者もEmbedding化したSpeaker Modelを提案. •
会話データから, 同じような発言をしている人のEmbeddingを近く. • 発話者と受け手を考慮したモデルSpeaker-Adresee Modelも提案. • 一貫性のある発話を実現している. • Standard LSTM に比べ, Perplexity で2.3下回り, BLEUで0.23上回った. Jiwei Li,et al. ACL 2016 (担当:坂田)

Persona Based Neural Conversational Model • 各発話と発言者を関連付けたデータセットから学習. • 例えば, イギリス在住
A さんが, “Where do you live?” と聞かれた時に “In the UK.”と答えたとする. 同じくイギリス在住Bさんが”Where do you live?” と聞かれた時に, Bさんが回答したデータが無くても “In the UK.”と返せる. • I don’t know などの無難な応答生成を避けるため p(M(入力)/R(応答))も考慮. Jiwei Li,et al. ACL 2016 (担当:坂田)

GenDS • Structured な KB と RNN+CopyNetwork を組み合わせた GenDS を提案。
• 入力文の Entity を Entity Type に置き換えて学習したり、ターゲット文の Entity をオリジナルと Entity Type に置き換えたものそれぞれマルチタスクとして学習するなど工夫を加えている。 • Structured な KB を用いているので Entity を使いやすい。 • タスクイメージ図 W. Zhu et al., 2017, (担当: 中西)

GenDS • 音楽関連の Structured KB とセットの会話データ (ConversMusic) を収集し、公開。GenQA (Yin
et al. 2015) で使用された QA データの音楽関連のみを抽出し、実験・比較した。 • 既存手法と比較し、Entity Precision や Recall で高いスコアを記録した。 • 結果の Entity Precision と Recall の図、右3つが提案手法。 W. Zhu et al., 2017, (担当: 中西)

Knowledge-Grounded MemNet Ghazvininejad et al. AAAI 2018（担当: 大日方） I’m at
California Academy of Sciences. Make sure you catch the show at the Planetarium. Tickets are usually limited. ・Twitterの会話例・斜太字は新しい情報　が含まれる発言対話の学習のみでは，意味のある返答を生成するのが困難 → 外部知識を返答生成に　入れ込みたい！ User: Going to Kusakabe tonight. > Neural : Have a great time! > Human : You’ll love it! Try omakase, the bet in town. “jewely”に関連する”braceletsを生成文に入れ込めている！（あくまで上手くいった例） A: Obsessed with [jewely company] :-* B: oh my gosh obsessed with their bracelets and the meaning behind them! 本論文モデルでの生成例

Knowledge-Grounded MemNet モデル詳細 • 対話履歴のEncode及び生成文のDecodeはGRU • KBから検索した事実はbag-of-wordsでembedding • 知識の組み込み型はMemory Networkに類似
Ghazvininejad et al. AAAI 2018（担当: 大日方）入力文関連事実 1. 入力文の Encode 3. 関連知識の抽出 2. 検索結果の Encode 4. 情報を統合して Decoderへ検索

Knowledge-Grounded MemNet • 対話データ : Twitter KB : Foursquare •
単に {入力文，関連事実}→{出力文} を学習するのではなく，マルチタスクで複数の性能を向上 ◦ {入力文，関連事実}→{出力文} : KB-groundedなタスク ◦ {入力文}→{出力文} : シンプルな対話学習 ◦ {入力文，関連事実}→{関連事実の1つ} : Autoencoder的タスク結果 • 最初のスライドのように外部知識を組み込んだ対話文生成が可能に • 人手の評価結果も向上（下図） Ghazvininejad et al. AAAI 2018（担当: 大日方） }この紐付け方はとても効率が良い

CCM (Commonsense knowledge aware Conversational Model) • 大規模な一般常識の Knowledge Graph
(ConceptNet) を使って対話を行うモデル CCM の提案。 • 入力文の Entity だけではなく周辺も含めた Graph の情報をエンコードし、モデルへの入力としている。 H. Zhou et al., IJCAI 2018 (担当: 中西) Encoder, Decoder それぞれで Attention により Knowledge Graph から情報を取り入れる。 Encoder の例:

CCM (Commonsense knowledge aware Conversational Model) • GRU への入力を作るため Static
/ Dynamic Graph Attention を提案し Encoder / Decoder でそれぞれ適用。 ◦ Static は入力単語からグラフの情報を取得する ◦ Dynamic は Decoder の状態を query とし、グラフから情報を選択 • 生成例: • MemNet (Ghazvininejad et al.), CopyNet (W. Zhu et al.) と比較して全体的に良い結果に。 H. Zhou et al., IJCAI 2018 (担当: 中西) OOV にも対応しつつ、きちんと意味を理解した返答に。

AKGCM • KGとテキストデータから応答生成を行う. • QA ではなくConversationを志向しており, ノードにエンティティだけでなく文章も含む. • 応答文生成のためのノード探索に,
強化学習の手法(Policy Gradient)を用いる. • 要約問題に帰着させ, 既存のROUGUE-2, LでBiDAFをそれぞれ0.59, 0.14上回るスコアを出した. Zhibin Liu,et al. arXiv:1903.10245(担当:坂田)

AKGCM Zhibin Liu,et al. arXiv:1903.10245(担当:坂田) • KGの各ノードにはFactoid型質問の回答となるエンティティが含まれている. • そのエンティティと文書を紐付ける.
• 以下の様に応答文生成. ◦ 質問文からエンティティ抽出. ◦ KGから関連するノードを見つける. ◦ 強化学習(Policy Gradient) によって, 応答文を生成するためのノードを探索. • ノードの移動をしないというActionを選択肢に入れることで, 想定より少ないステップ数で適切なノードに到達した場合に対処.

Posterior Knowledge Selection • 既存研究では、入力文との類似度のようなものを計算し、それをもとに応答生成に使う外部知識を選択する。 • 応答生成にはそのための知識を選択する必要があるとして、事後知識確率 (Posterior Knowledge
Selection) を定義。 ◦ 入力文と返答文を使って事後知識確率を計算し、知識を選択する R. Lian et al. (Baidu), arXiv:1902.04911 (担当: 中西) ターゲット (返答文)も入力入力、ターゲットの両方を使って知識を選択している

Posterior Knowledge Selection • 推論時は返答文はもちろん使えないため、事前知識確率を定義。 ◦ 学習中に事前確率が事後確率に近づくよう KL Div. Loss
を追加。 • Persona-chat, Wizard-of-Wikipedia のタスクで実験し、Seq2Seq や MemNet (Ghazvininejad et al.) よりも全てで良い結果に。 R. Lian et al. (Baidu), arXiv:1902.04911 (担当: 中西)

AliMe Chat • 企業の対話履歴を活用した，対話応答（QA寄り）モデル • 検索(IR)ベースのモデルと生成モデルを併用することで，高い精度を達成 • 単純に精度のみでの評価ではなく，実際にオンラインチャットボットとしてデプロイすることを考えて議論しているのが特徴的 Qiu
et al. ACL 2017（担当: 大日方）

AliMe Chat 3段階のモデル構成 1. 質問 q を受け，KBから似た質問をBM25ベースのIRモデルでK個抽出 2. attention付きSeq2Seqの生成モデルをスコア関数として用いて， K個の回答候補をスコア付け
3. 最高スコアが閾値 T よりも高ければその回答を採用し，低ければ上で用いた生成モデルで生成した文章を返答に採用 Qiu et al. ACL 2017（担当: 大日方） 1. q から解答候補検索 2. 生成モデルで精緻なスコアを付与 3. 検索結果が採用されない場合生成モデルで返答生成

Mem2Seq • Task-Oriented なタスクに Knowledge Base + end-to-end • モデルは
Memory Network + Pointer Network のアイディア ◦ Pointer で Dialogue か KB にある単語を出力として選択する ◦ Sentinel (index=0) を選択した場合は GRU による生成結果を出力 ◦ Memory Network で、 1 hop 目の結果を vocab からの生成に、3 hop 目の出力を Pointer の出力として使うことで学習する表現を分ける A. Madotto et al., ACL 2018, (担当: 中西)

Mem2Seq • bAbI や In-Car Assistant などのデータセットで実験し、PointerNet, MemNN, Gated MemNN
などの既存手法を上回る結果になった。 • 特に Task-Oriented で重要とされている Entity-F1 が高かった。 A. Madotto et al., ACL 2018, (担当: 中西)

BoSsNet (Disentangling Language and Knowledge) • Task-Oriented + KB なタスクの学習において、言語モデルによる生成と
Knowledge の活用の disentangle を試みた研究。 • モデルは Memory Network + Copy Network • Memory の保存について、文や triplet の表現とその各トークンの特徴を分けて保存しておくことで、入力の理解と CopyNetwork に使う特徴を分離 D. Raghu et al., NAACL 2019, (担当: 中西) 各対話履歴や KB の Triplet の情報を保存 Encoder にも使う各対話履歴や KB の Triplet の情報を各トークンごとに保存 Decoder の Copy 用に使う

BoSsNet (Disentangling Language and Knowledge) • Copy Mechanism を取り入れているが、より disentanglement
を強くするために「KB や履歴にある単語を出力する場合は、CopyMechanism を使う」ようにする Loss を追加している。 • ランダムなタイミングで Memory からの生成を使うようにする Disentangle Label Dropout (DLD) も入れることで、更に Memory の使用を強化。 ◦ Ablation Study にて、どの提案手法も効果があることを確認 D. Raghu et al., NAACL 2019, (担当: 中西)

BoSsNet (Disentangling Language and Knowledge) • Mem2Seq をはじめとするベースラインモデルと bAbI などの複数データ
セットで比較し、SOTA を更新。 • 特に bAbI の OOV Task で既存手法に比べて性能劣化がかなり小さくなった • また、既存のテストデータセットに Unseen Entity を足す形で Knowledge Adaptability (KA) データセットを作成し、Unseen Entity の割合を変えながら各モデルで実験。 ◦ 他のモデルが Unseen Entity が増えると精度が落ちるのに対して、 BoSsNet はある程度精度を維持出来ていた D. Raghu et al., NAACL 2019, (担当: 中西)

まとめ

サーベイまとめ (感想) • モデルの評価が難しい ◦ 特に対話の場合は適切な指標がなく難しい ◦ Human Evaluation 頼りになっている
◦ LeaderBoard、評価指標などが充実すると分野として伸びてきそう • 分野としてまだまだ発展途上 ◦ SOTA でも人間評価とはまだまだ大きな差がある ◦ モデルも傾向的に古い ▪ 翻訳では Transformer が主流だが、外部知識を用いた対話応答では RNN が多い

サーベイまとめ (感想) • 今回のサーベイは手法ベースではなく目的ベースなので多様な手法の組み合わせになっている ◦ 既存手法の組み合わせ的なアプローチが多い ◦ Knowledge Graph,
Knowledge Base, IR, RNN, Transformer, MemoryNetwork • トレンド的には流行ってきてる(気がする) ◦ Knowledge Graph や Commonsense といったワードは増えてきている ◦ 自然言語処理の未来のためにもやっていきましょう

論文列挙 • A Diversity-Promoting Objective Function for Neural Conversation Models
(NAACL 2016) • A Persona-Based Neural Conversation Model (ACL 2016) • Building End-to-End Dialogue Systems Using Generative Hierarchical Neural Network Models (AAAI 2016) • Deep Reinforcement Learning for Dialogue Generation (EMNLP 2016) • Learning to Respond with Deep Neural Networks for Retrieval-Based Human-Computer Conversation System (SIGIR 2016) • Adversarial Learning for Neural Dialogue Generation (EMNLP 2017) • A Hierarchical Latent Variable Encoder-Decoder Model for Generating Dialogues (AAAI 2017) • End-to-End Task-Completion Neural Dialogue Systems (IJCNLP 2017) • Learning Discourse-level Diversity for Neural Dialog Models using Conditional Variational Autoencoders (ACL 2017) • Topic Aware Neural Response Generation (AAAI 2017) • Emotional Chatting Machine: Emotional Conversation Generation with

nlpaper.challenge 外部知識に基づく応答生成サーベイ

nlpaper.challenge 外部知識に基づく応答生成サーベイ

More Decks by cfiken

Other Decks in Technology

Featured

Transcript