Upgrade to Pro — share decks privately, control downloads, hide ads and more …

nlpaper.challenge 外部知識に基づく応答生成サーベイ

cfiken
July 03, 2019

nlpaper.challenge 外部知識に基づく応答生成サーベイ

2019/07/03 第1回 NLP/CV最先端勉強会にて発表

cfiken

July 03, 2019
Tweet

More Decks by cfiken

Other Decks in Technology

Transcript

  1. 自己紹介 大日方(オビナタ) 孝輝 @not_oohikata 東大M2/カラクリ株式会社 珍しいので苗字だけでも (ry 坂田大直 @dwarfplanet7634 株式会社レトリバ

    今日は, 渋谷駅から出るのに苦労しました. 中西健太郎 @cfiken 株式会社ミクシィ / 株式会社UZUMAKI ポプテピピックが好き
  2. 質問応答 & 対話応答 • 広範囲の質問に解答する ◦ 多量のデータを活用して解答を導き出す • ユーザーと多様な会話を行う ◦

    正解は存在せず,人間らしい対話が求められる IBMJapanChannelより *1: https://youtu.be/Wq0XnBYC3nQ *2: https://www.rinna.jp/ LINE りんなアカウントとのトーク例
  3. QA例① : SQuAD The Stanford Question Answering Dataset (HP, Paper)

    • 与えられたWikipediaのパラグラフに関する質問に答える • 正解はパラグラフ内のスパンで解答可能 • v2.0から<No Answer>が追加 図:Single model BERTのOxygenに関する例
  4. QA例② : bAbI Facebook AI Researchによるデータセット(HP, Paper) • 自然文の理解を測る20種類のタスク •

    エージェントのシミュレーションにより機械的に生成 • 複数文に基づく推論が必要なタスクを含む 図は論文内で紹介されている20個のタスクの内の4つ
  5. QAのアプローチ 今回主に関連するのは解答抽出型のQA • SQuAD ◦ 言語モデルの性能比較で用いられる ◦ XLNet (Yang et

    al. 2019) ◦ BERT (Devlin et al. 2018) • bAbI ◦ 明示的に記憶を持つモデルが使われている ◦ End-to-End Memory Network (Sukhbaatar et al. 2015) ◦ Dynamic Memory Network (Kumar et al. 2015) ◦ 詳細はNLP/CV交流勉強会で扱った赤い本で
  6. Conversation例① A Neural Conversational Model (Vinyals and Le 2015) •

    Seq2Seqを対話モデルに応用 対話例(論文内より引用)
  7. Conversationのアプローチ • 枠組みとしては機械翻訳と類似 • 機械翻訳で使われる Deep なモデルが応用される ◦ Seq2Seq (Sutskever

    et al. 2014) ◦ Transformer (Vaswani et al. 2017) • データセット ◦ Twitter ◦ OpenSubtitle Where are you going? I have to walk the dog. Encoder Decoder 入力 予測 機械学習
  8. Conversationモデルの課題① • 一貫性(Consistency) ◦ 人格や対話の記憶を保持しないと、対話の中で 一貫した発話が出来ない ◦ 例: (P: 人間,

    M: 学習モデル) P: 専攻はどちらですか? → M: 心理学です. → P: 大学で何を勉強していますか? → M: 英文学です. • 常識(Commonsense) ◦ 文脈依存の多義語や慣用句,比喩 ◦ QAとも共通した課題
  9. Conversationモデルの課題② • 情報量・多様性(Informativeness・Diversity) ◦ 発話内容に情報が少ない ▪ I don’t know., OK.,

    Yes. などの一般的な返答 ◦ 結果として似たような発話が多くなる → 文脈や個人プロフィール,オープンデータ等の 外部知識にアクセスして意味のある対話生成を目指す (Knowledge based, aware, groundedなどと表現される)
  10. QAとConversationの比較 Question Answering(質問応答) • 発話(≒問い)に対して解答を予測する • 正解は限られる • 評価がしやすい Conversation

    / Dialog Generation(対話) • 発話に対して適切な返答を予測する • 適切な返答として多様な返答が考えられる • 評価がしづらい
  11. 外部知識の活用先 • QA ◦ 学習データの範囲外に関する質問 ◦ 常識的な質問 • Conversation ◦

    一般的な知識 ◦ 対話に関する記憶(履歴,プロフィール) ◦ Task-oriented な知識 (ex. レストランの予約状況) • 本グループでは応答生成にどう外部知識を組み込むか という点を主眼にサーベイ • 用いる外部知識データについては後述
  12. Wikipediaや 対話ログなど モデルの概要 外部知識 関連知識 言語モデル 入力文 (query) 応答 (output)

    • 応答文の生成(Decode) • 応答内容の抽出 • 検索結果の再ランク 情報検索(IR) 言語理解 データ管理 (triplets, knowledge graph)
  13. ベースとなるモデル • Seq2Seq ◦ 系列変換: Sutskever et al. 2014 ◦

    対話への応用: Vinyals and Le 2015 • Memory Network ◦ End-to-End: Sukhbaatar et al. 2015 ◦ 対話への応用: Ghazvininejad et al. 2017 • Transformer ◦ Attention Is All You Need: Vaswani et al. 2017 ◦ 対話への応用例: Diwan et al. 2018
  14. Knowledge Base, 学習データ • オープンデータ ◦ 非構造化データ ▪ Wikipedia ▪

    Reddit(英語圏の掲示板) ▪ Twitter ◦ 構造化データ(tripletsやKnowledge Graph等) ▪ DBPedia:Wikipediaから抽出された構造化データ ▪ Freebase:オープンDB,現在はプロジェクト終了 ▪ ConceptNet:知識グラフ,多言語対応 • プライベートデータ ◦ 対話ログ・履歴データ ◦ 店舗の予約状況, 個人のプロフィール
  15. ベンチマークタスク • Open Domain QA ◦ Quasar ◦ SearchQA ◦

    SQuAD w/o Paragraph ◦ QALD(workshop) ◦ CommonsenseQA (A. Talmor+, NAACL 2019) • Conversation ◦ Persona Chat (S. Zhang+, 2018) ◦ Wizard of Wikipedia (E. Dinan+, ICLR 2019) ◦ DSTC7 (AAAI 2019 workshop)
  16. 対話生成の評価指標 • 自動評価指標 ◦ 出力と正解の単語マッチ等を利用 ▪ BLEU ← 翻訳由来 ▪

    METEOR ← 翻訳由来 ▪ ROUGE ← 要約由来 ▪ (Entity) F1 ◦ モデルの出力確率を利用 ▪ Perplexity ◦ その他 ▪ Entropy
  17. 対話生成の評価指標 • 人手評価 ◦ 自動評価と並行して検証される ◦ 複数観点から評価 ▪ 多様性, 情報量

    ▪ 文脈, 一貫性 • 自動評価と人手評価の相関が弱い点が課題(Liu et al. 2016) Liu et al. 2016のFigure 2より,自動スコアは低いが人手評価は高い例 A: dearest! question. how many thousands of people can panaad[*1] occupy? B: @user[*2] panaad has <number> k seat capacity while rizal[*1] has <number> k thats why they choose rizal i think. 【Ground Truth】 A: now i know about the siting capasity. thanks for the info @user great evening. 【Proposed】 A: @user makes sense. thanks! (*1: スタジアム名, *2: おそらく個人名) BLEUと人手評価の相関
  18. 紹介論文 (QA) ‘Question Answering over Freebase with Multi-Column Convolutional Neural

    Networks’, L. Dong et al., ACL 2015 ‘Question Answering on Freebase via Relation Extraction and Textual Evidence’, K. Xu et al., ACL 2016 ‘Bidirectional Attention Flow for Machine Comprehension’, M. Seo et al., ICLR 2017 ‘Hybrid Question Answering over Knowledge Base and Free Text’, K. Xu et al., COLING 2016 ‘Evidence Aggregation for Answer Re-Ranking in Open-Domain Question Answering’, S. Wang et al., ICLR 2018 ‘CommonsenseQA: A Question Answering Challenge Targeting Commonsense Knowledge’, A. Talmor et al., NAACL 2019
  19. 紹介論文 (Conversation) ‘Personalizing Dialogue Agents: I have a dog, do

    you have pets too?’, S. Zhang et al., ACL 2018 ‘Wizard of Wikipedia: Knowledge-Powered Conversational Agents’, E. Dinan et al., ICLR 2019 ‘A Persona-Based Neural Conversation Model’, J. Li et al., ACL 2016 ‘Flexible End-to-End Dialogue System for Knowledge Grounded Conversation’, W. Zhu et al.,arXiv:1709.04264 ‘A Knowledge-Grounded Neural Conversation Model’, M. Ghazvininejad et al.,, AAAI 2018 ‘Commonsense Knowledge Aware Conversation Generation with Graph Attention’, H. Zhou et al., IJCAI 2018 ‘Knowledge Aware Conversation Generation with Explainable Reasoning on Augmented Graphs’, Z. Liu et al., arXiv:1903.10245 ‘Learning to Select Knowledge for Response Generation in Dialog Systems’, R. Lian et al, arXiv:1902.04911 ‘AliMe Chat: A Sequence to Sequence and Rerank based Chatbot Engine’, M. Qiu et al., ACL 2017 ‘Mem2Seq: Effectively Incorporating Knowledge Bases into End-to-End Task-Oriented Dialog Systems’, A. Madotto et al., ACL 2018 ‘Disentangling Language and Knowledge in Task-Oriented Dialogs’, D. Raghu et al., NAACL 2019
  20. MCCNN • FreebaseとCNNを使った質問応答の研究. • 質問文とFreebaseから得た応答候補文をAnswer Path, Answer Type, Answer Context

    の3つの観点からそれぞれEmbeddingを作成し,スコアを計 算. • WebQuestions で[Berant et al, 2014] と比較しF値で0.9上回る. Li Dong, et al. ACL 2015(担当:坂田) どこ? 誰? 何? 大学 恋愛・結婚 標準時 文脈 応答の種類 語と語の関係性 〜に ある 種 類 所 有
  21. MCCNN Li Dong, et al., ACL 2015(担当:坂田) 質問文からエンティティ抽出 例. Avator

    応答までの経路を学習 周辺のエンティティ, リレー ションを文脈とみなす. 応答のFreebase上での タイプ
  22. QA on Freebase via RE and Textual Evidence • Freebaseを使った応答生成の後,

    Wikipediaを使ってその精査を行う. • 構造化データのみでは, 大きさの差や, 両親のうち片方の性別を答えるなどが 難しい. • Wikipedia上の自然文から回答根拠を得る. • WebQuestions でSemantic Parsing via PP[Berant et al, 2016]よりF値で 0.8上回った.(53.3) Kun Xu,et al. ACL 2016 (担当:坂田)
  23. QA on Freebase via RE and Textual Evidence Kun Xu,et

    al. ACL 2016 (担当:坂田) • Freebase ◦ 質問文に対して, Entity Linking(曖昧性解消), Relation Extraction(Freebase内での predicateに変換) を行う. ◦ 得られた(Entity, Relation)を SVM Classifierでランク付け. • Wikipedia ◦ wikifierで上記最上位ペアのエン ティティを含むwikiページを抽 出. ◦ LIBSVMを使って, 回答(エンティ ティ)が正しいかどうかの2値分 類問題を解く.
  24. BiDAF • Context (回答が含まれる文書)とQuery(質問文)の双方向のAttentionを導入  • 単語と文字の両方の粒度でEmbedding. ◦ 単語Embeddingは意味を取るのに有効. ◦ 文字Embeddingは未知語に対して有効.

    Minjoon Seo et al, ICLR 2017 (担当:坂田) 単語ベクトルだけだと , may(たぶん~) と May(5月)の 意味が似ていることになってい る. 単語ベクトル 単語ベクトル + 文字ベクトル
  25.   BiDAF Minjoon Seo et al, ICLR 2017 (担当:坂田) あるContext

    wordにそれぞれのquey wordがどれだけ関連しているか. パラグラフ内で回答となるインデックスを出力 あるQuery wordにそれぞれの Context wordがどれだけ関連してい るか. ht;Q2C;C2Q concatする
  26. Hybrid QA • Freebase, DBpedia などの構造化データと Wikipediaなどの非構造化データ を組み合わせた KB質問応答システム. •

    質問文をそれぞれがシンプルな関係性を表すように分解を行う • WebQuestionsにおいて, QA on Freebase に対してF値0.5上回った(53.8). Kun Xu,et al. COLING 2016(担当:坂田) 質問をTriplet で表せる形に分 割 質問文 曖昧性解消 Coffee & TV(曲名) wrote → KBでは associatedBand is the front man of パラフレーズ化してテ キスト内を探索
  27. Hybrid QA • 以下の3つの処理を行う. ◦ Entity Linking: 質問文のエンティティの曖昧性解消. ◦ KB-based

    Relation Extraction: DBPediaから質問文内の関係性を抽出. ◦ Textual Relation Extraction: Wikipediaから質問文内の関係性を抽出. • 上記のそれぞれの妥当性を最大化するような線形計画問題を解き統合. Kun Xu,et al. COLING 2016(担当:坂田) 曖昧性解消 Coffee & TV(曲名) wrote → KBでは associatedBand is the front man of パラフレーズ化してテキスト内を 探索
  28. Evidence Aggregation • Open Domain QAの Quasar-T というデータセットで現在もSOTA(相当) • 通常のアプローチ:

    「検索」→「候補パッセージ」→「解答部分抽出」→「最終解答を選択」 • 最終解答を1つ選択するのではなく,複数の候補からの情報を集約 ◦ 検索候補上位に頻出の解答候補は有力(左の例) ◦ 質問への解答根拠が複数パッセージに分散しているので集約(右の例) Wang et al. ICLR 2018(担当: 大日方) 登場頻度が高い解答候補 複数パッセージを利用した解答根拠 P1 + P2 が Qの一部に合致 P1 + P2 が Qの全体に合致
  29. Evidence Aggregation 1. Questionから解答に関連するパッセージをN個検索(ここの詳細は無し) 2. N個のパッセージから,解答spanの予測モデルで上位K個の解答候補を抽出 3. 抽出された解答候補をもとに2パターンのスコアを出し,足し合わせる 3.1. カウント

    or 確率値のsumでre-ranking 3.2. 解答候補を含む全パッセージを結合し,Question, Passage, Answer の関係性をもとにre-ranking Wang et al. ICLR 2018(担当: 大日方) 1. 質問から検索 2. 解答部分の抽出 3.2. 質問に対する解答のカバー   度合いを反映したスコア 3.1. 解答候補のカウント に基づくスコア
  30. CommonsenseQA • 常識 (Commonsense) を取り入れた QA のための新しいベンチマークデータ セット CommonsenseQA を提案。

    • 12,247個の QA データで、1つの質問に対して5つの回答候補から正解を当 てるタスク。 • 人間による accuracy は 89% に対して、BERT-Large では accuracy 56% と、既存モデルでは難しいタスクであることを示した。 A. Talmor et al., NAACL 2019 (担当: 中西)
  31. Persona-chat • Consistency や Informativeness の課題を解決するため Persona (プロ フィール) を外部知識として活用して応答生成

    • 会話のためのデータセットである Persona-chat を公開 ◦ 合計162,064 発話のデータセット ◦ データ例 S. Zhang et al. (FAIR), ACL 2018 (担当: 中西)
  32. Wizard of Wikipedia • ベンチマークタスクとして Wizard of Wikipedia を公開 ◦

    クラウドワーカーの役割を Apprentice (普通の人), Wizard (知識のある 人) と分けて会話させ、データ収集 ◦ Wizard 役の人には会話に合った Wikipedia 記事が複数与えられ、1つ を選択してそれをもとに返答できる ◦ 合計 201,999 ターンの対話セット (train, valid, test 全体) Emily Dinan, et al. (FAIR), ICLR 2019 (担当: 中西)
  33. Wizard of Wikipedia • ベースラインモデルとして Transformer Memory Network を提案 ◦

    Transformer を組み合わせた珍しい例 ◦ Knowledge 候補から1つを選ぶ Transformer (下図左側)と、返答を生成 する Transformer (下図右側) の2つで構成 ◦ End-to-end ver. と Two-stage ver. (知識の選択と返答生成のタスクを 分ける) で実験 ◦ End-to-end ver. でも知識の選択部分に aux loss を追加している ◦ ベースラインモデルなので他モデルとの比較は少ないが、 Human Performance と比べるとまだまだ低い Emily Dinan, et al. (FAIR), ICLR 2019 (担当: 中西)
  34. Persona Based Neural Conversational Model • 単語だけでなく, 各発話の話者もEmbedding化したSpeaker Modelを提案. •

    会話データから, 同じような発言をしている人のEmbeddingを近く. • 発話者と受け手を考慮したモデルSpeaker-Adresee Modelも提案. • 一貫性のある発話を実現している. • Standard LSTM に比べ, Perplexity で2.3下回り, BLEUで0.23上回った. Jiwei Li,et al. ACL 2016 (担当:坂田)
  35. Persona Based Neural Conversational Model • 各発話と発言者を関連付けたデータセットから学習. • 例えば, イギリス在住

    A さんが, “Where do you live?” と聞かれた時に “In the UK.”と答えたとする. 同じくイギリス在住Bさんが”Where do you live?” と聞かれた時に, Bさんが回答したデータが無くても “In the UK.”と返せる. • I don’t know などの無難な応答生成を避けるため p(M(入力)/R(応答))も考慮. Jiwei Li,et al. ACL 2016 (担当:坂田)
  36. GenDS • Structured な KB と RNN+CopyNetwork を組み合わせた GenDS を提案。

    • 入力文の Entity を Entity Type に置き換えて学習したり、ターゲット文の Entity をオリジナルと Entity Type に置き換えたものそれぞれマルチタスク として学習するなど工夫を加えている。 • Structured な KB を用いているので Entity を使いやすい。 • タスクイメージ図 W. Zhu et al., 2017, (担当: 中西)
  37. GenDS • 音楽関連の Structured KB とセットの会話データ (ConversMusic) を収集 し、公開。GenQA (Yin

    et al. 2015) で使用された QA データの音楽関連の みを抽出し、実験・比較した。 • 既存手法と比較し、Entity Precision や Recall で高いスコアを記録した。 • 結果の Entity Precision と Recall の図、右3つが提案手法。 W. Zhu et al., 2017, (担当: 中西)
  38. Knowledge-Grounded MemNet Ghazvininejad et al. AAAI 2018(担当: 大日方) I’m at

    California Academy of Sciences. Make sure you catch the show at the Planetarium. Tickets are usually limited. ・Twitterの会話例 ・斜太字は新しい情報  が含まれる発言 対話の学習のみでは,意味のある 返答を生成するのが困難 → 外部知識を返答生成に   入れ込みたい! User: Going to Kusakabe tonight. > Neural : Have a great time! > Human : You’ll love it! Try omakase, the bet in town. “jewely”に関連する”braceletsを 生成文に入れ込めている! (あくまで上手くいった例) A: Obsessed with [jewely company] :-* B: oh my gosh obsessed with their bracelets and the meaning behind them! 本論文モデルでの生成例
  39. Knowledge-Grounded MemNet モデル詳細 • 対話履歴のEncode及び生成文のDecodeはGRU • KBから検索した事実はbag-of-wordsでembedding • 知識の組み込み型はMemory Networkに類似

    Ghazvininejad et al. AAAI 2018(担当: 大日方) 入力文 関連事実 1. 入力文の Encode 3. 関連知識の抽出 2. 検索結果の Encode 4. 情報を統合して Decoderへ 検索
  40. Knowledge-Grounded MemNet • 対話データ : Twitter KB : Foursquare •

    単に {入力文,関連事実}→{出力文} を学習するのではなく,マルチタスク で複数の性能を向上 ◦ {入力文,関連事実}→{出力文} : KB-groundedなタスク ◦ {入力文}→{出力文} : シンプルな対話学習 ◦ {入力文,関連事実}→{関連事実の1つ} : Autoencoder的タスク 結果 • 最初のスライドのように外部知識を組み込んだ対話文生成が可能に • 人手の評価結果も向上(下図) Ghazvininejad et al. AAAI 2018(担当: 大日方) }この紐付け方はとても効率が良い
  41. CCM (Commonsense knowledge aware Conversational Model) • 大規模な一般常識の Knowledge Graph

    (ConceptNet) を使って対話を行う モデル CCM の提案。 • 入力文の Entity だけではなく周辺も含めた Graph の情報をエンコードし、 モデルへの入力としている。 H. Zhou et al., IJCAI 2018 (担当: 中西) Encoder, Decoder それぞれで Attention により Knowledge Graph から情報を取り入れる。 Encoder の例:
  42. CCM (Commonsense knowledge aware Conversational Model) • GRU への入力を作るため Static

    / Dynamic Graph Attention を提案し Encoder / Decoder で それぞれ適用。 ◦ Static は入力単語からグラフの情報を取得する ◦ Dynamic は Decoder の状態を query とし、グラフから情報を選択 • 生成例: • MemNet (Ghazvininejad et al.), CopyNet (W. Zhu et al.) と比較して全体的 に良い結果に。 H. Zhou et al., IJCAI 2018 (担当: 中西) OOV にも対応しつつ、きちんと意味を理解した返答に。
  43. AKGCM • KGとテキストデータから応答生成を行う. • QA ではなくConversationを志向しており, ノードにエンティティだけでな く文章も含む. • 応答文生成のためのノード探索に,

    強化学習の手法(Policy Gradient)を用い る. • 要約問題に帰着させ, 既存のROUGUE-2, LでBiDAFをそれぞれ0.59, 0.14上 回るスコアを出した. Zhibin Liu,et al. arXiv:1903.10245(担当:坂田)
  44. AKGCM Zhibin Liu,et al. arXiv:1903.10245(担当:坂田) • KGの各ノードにはFactoid型質問の回答と なるエンティティが含まれている. • そのエンティティと文書を紐付ける.

    • 以下の様に応答文生成. ◦ 質問文からエンティティ抽出. ◦ KGから関連するノードを見つける. ◦ 強化学習(Policy Gradient) によって, 応答文を生成するためのノードを探 索. • ノードの移動をしないというActionを選 択肢に入れることで, 想定より少ないス テップ数で適切なノードに到達した場合に 対処.
  45. Posterior Knowledge Selection • 既存研究では、入力文との類似度のようなものを計算し、それをもとに応答 生成に使う外部知識を選択する。 • 応答生成にはそのための知識を選択する必要があるとして、事後知識確率 (Posterior Knowledge

    Selection) を定義。 ◦ 入力文と返答文を使って事後知識確率を計算し、知識を選択する R. Lian et al. (Baidu), arXiv:1902.04911 (担当: 中西) ターゲット (返答文)も入力 入力、ターゲットの両方を使って 知識を選択している
  46. Posterior Knowledge Selection • 推論時は返答文はもちろん使えないため、事前知識確率を定義。 ◦ 学習中に事前確率が事後確率に近づくよう KL Div. Loss

    を追加。 • Persona-chat, Wizard-of-Wikipedia のタスクで実験し、Seq2Seq や MemNet (Ghazvininejad et al.) よりも全てで良い結果に。 R. Lian et al. (Baidu), arXiv:1902.04911 (担当: 中西)
  47. AliMe Chat 3段階のモデル構成 1. 質問 q を受け,KBから似た質問をBM25ベースのIRモデルでK個抽出 2. attention付きSeq2Seqの生成モデルをスコア関数として用いて, K個の回答候補をスコア付け

    3. 最高スコアが閾値 T よりも高ければその回答を採用し, 低ければ上で用いた生成モデルで生成した文章を返答に採用 Qiu et al. ACL 2017(担当: 大日方) 1. q から解答候補検索 2. 生成モデルで精緻なスコアを付与 3. 検索結果が採用されない場合 生成モデルで返答生成
  48. Mem2Seq • Task-Oriented なタスクに Knowledge Base + end-to-end • モデルは

    Memory Network + Pointer Network のアイディア ◦ Pointer で Dialogue か KB にある単語を出力として選択する ◦ Sentinel (index=0) を選択した場合は GRU による生成結果を出力 ◦ Memory Network で、 1 hop 目の結果を vocab からの生成に、3 hop 目の出力を Pointer の出力として使うことで学習する表現を分ける A. Madotto et al., ACL 2018, (担当: 中西)
  49. Mem2Seq • bAbI や In-Car Assistant などのデータセットで実験し、PointerNet, MemNN, Gated MemNN

    などの既存手法を上回る結果になった。 • 特に Task-Oriented で重要とされている Entity-F1 が高かった。 A. Madotto et al., ACL 2018, (担当: 中西)
  50. BoSsNet (Disentangling Language and Knowledge) • Task-Oriented + KB なタスクの学習において、言語モデルによる生成と

    Knowledge の活用の disentangle を試みた研究。 • モデルは Memory Network + Copy Network • Memory の保存について、文や triplet の表現とその各トークンの特徴を分 けて保存しておくことで、入力の理解と CopyNetwork に使う特徴を分離 D. Raghu et al., NAACL 2019, (担当: 中西) 各対話履歴や KB の Triplet の情報を保存 Encoder にも使う 各対話履歴や KB の Triplet の情報を各 トークンごとに保存 Decoder の Copy 用に 使う
  51. BoSsNet (Disentangling Language and Knowledge) • Copy Mechanism を取り入れているが、より disentanglement

    を強くする ために「KB や履歴にある単語を出力する場合は、CopyMechanism を使う」 ようにする Loss を追加している。 • ランダムなタイミングで Memory からの生成を使うようにする Disentangle Label Dropout (DLD) も入れることで、更に Memory の使用を強化。 ◦ Ablation Study にて、どの提案手法も効果があることを確認 D. Raghu et al., NAACL 2019, (担当: 中西)
  52. BoSsNet (Disentangling Language and Knowledge) • Mem2Seq をはじめとするベースラインモデルと bAbI などの複数データ

    セットで比較し、SOTA を更新。 • 特に bAbI の OOV Task で既存手法に比べて性能劣化がかなり小さくなった • また、既存のテストデータセットに Unseen Entity を足す形で Knowledge Adaptability (KA) データセットを作成し、Unseen Entity の割合を変えな がら各モデルで実験。 ◦ 他のモデルが Unseen Entity が増えると精度が落ちるのに対して、 BoSsNet はある程度精度を維持出来ていた D. Raghu et al., NAACL 2019, (担当: 中西)
  53. サーベイまとめ (感想) • モデルの評価が難しい ◦ 特に対話の場合は適切な指標がなく難しい ◦ Human Evaluation 頼りになっている

    ◦ LeaderBoard、評価指標などが充実すると分野として 伸びてきそう • 分野としてまだまだ発展途上 ◦ SOTA でも人間評価とはまだまだ大きな差がある ◦ モデルも傾向的に古い ▪ 翻訳では Transformer が主流だが、外部知識を用 いた対話応答では RNN が多い
  54. サーベイまとめ (感想) • 今回のサーベイは手法ベースではなく目的ベースなので 多様な手法の組み合わせになっている ◦ 既存手法の組み合わせ的なアプローチが多い ◦ Knowledge Graph,

    Knowledge Base, IR, RNN, Transformer, MemoryNetwork • トレンド的には流行ってきてる(気がする) ◦ Knowledge Graph や Commonsense といったワード は増えてきている ◦ 自然言語処理の未来のためにもやっていきましょう
  55. 論文列挙 • A Diversity-Promoting Objective Function for Neural Conversation Models

    (NAACL 2016) • A Persona-Based Neural Conversation Model (ACL 2016) • Building End-to-End Dialogue Systems Using Generative Hierarchical Neural Network Models (AAAI 2016) • Deep Reinforcement Learning for Dialogue Generation (EMNLP 2016) • Learning to Respond with Deep Neural Networks for Retrieval-Based Human-Computer Conversation System (SIGIR 2016) • Adversarial Learning for Neural Dialogue Generation (EMNLP 2017) • A Hierarchical Latent Variable Encoder-Decoder Model for Generating Dialogues (AAAI 2017) • End-to-End Task-Completion Neural Dialogue Systems (IJCNLP 2017) • Learning Discourse-level Diversity for Neural Dialog Models using Conditional Variational Autoencoders (ACL 2017) • Topic Aware Neural Response Generation (AAAI 2017) • Emotional Chatting Machine: Emotional Conversation Generation with