Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介:Learning to Express in Knowledge- Grounded Conversation

論文紹介:Learning to Express in Knowledge- Grounded Conversation

This deck tries to explain the paper "Learning to Express in Knowledge- Grounded Conversation".

Ryutaro Asahara

August 15, 2022
Tweet

More Decks by Ryutaro Asahara

Other Decks in Research

Transcript

  1. はじめに n Xueliang Zhao, Tingchen Fu, Chongyang Tao, Wei Wu,

    Dongyan Zhao, and Rui Yan. 2022. Learning to Express in Knowledge-Grounded Conversation. In Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 2258–2273, Seattle, United States. Association for Computational Linguistics. n 選んだ理由 l応答表現を多様化する?みたいな論文が読みたかった lタイムステップごとに生成方法を変えるのが面白そうだった 2
  2. 背景&動機 n 適切な知識を利用して、知識を踏まえた応答 を生成しようという試みは色々やられてる l Dinan et al., 2019 l

    Kim et al., 2020 l Zhao et al., 2020b n 同じ知識を参照していても、 話者や文脈で使われ方が異なる事がある l 既存の研究ではそこがあまり考慮されていない 対話におけるスタイルを考慮した知識応答を生成するべき 3
  3. データの定義 𝑈!: 文脈 𝐾!: 知識 𝑅!: 応答 𝐾! = {𝑘"

    , 𝑘# , … , 𝑘$! } 𝑙%: 𝐾! の長さ 𝑈! = {𝑢" , 𝑢# , … , 𝑢$" } 𝑙&: 𝑈! の長さ n データセットDについて n BARTエンコーダへの入力 l 単純に知識と文脈を連結したものを用いる n 知識表現と文脈表現 l エンコーダから得られた表現を知識と文脈で分割する 6
  4. Module Indicator n ここではどの種類のModuleを使用するかを離散潜在変数zによって選択する l BARTのデコーダの出力から事前分布を計算 n 式①の気持ち l𝑚!"# =

    0のとき、クロネッカーのデルタ関数により決定 l𝑚!"# = 1のとき、𝐶! によりパラメータが更新される l当然𝑚$ = 1 ① 𝑒"#$: 𝑧"#$ の埋め込み = 7
  5. Boundary Indicator n 現在の時間ステップにおけるトークンが1つ前の時間ステップにおけるトークン と同じセグメントに属しているかを表す離散的な値𝑚' を生成する n つまり、現在の表現の使用方法を以下の2択から選択する l 1つ前の時間ステップの続きを生成

    l 新しいセグメントとして表現を生成 n 𝑚! は以下よりサンプリングする n 以下の式でパラメータ化したベルヌーイ分布 𝜎 . : シグモイド関数 𝑓%"%&' . : マルチレイヤーパーセプトロン 8
  6. 事後分布に関して n - 𝑞(𝑧' |𝜓' )は以下により多項分布として定義される l𝜓! =Bi-LSTM(R) n 事後分布を以下のように定義

    n 潜在変数zのサンプリング l事後分布に対してGumbel-Softmax(.) (Jang et al., 2016)を適用することでサンプリング l分布からOne-hotベクトルを取得 9
  7. 3つのModuleについて n 𝑧' = 0のとき l 現在の隠れ状態と以前の隠れ状態の集合、及び文脈を入力して応答を生成 n 𝑧' =

    1のとき l 現在の隠れ状態と以前の隠れ状態の集合、及び知識を入力して応答を生成 n 𝑧' ≥ 2のとき l 現在の隠れ状態と以前の隠れ状態の集合、及び知識を入力して応答を生成 12
  8. Adapter Layerについて n Adapter Layer l 2つ以上のタスクに関してファインチューニングを可能にする l Adapter Layerを入れ替えるだけで、事前学習済みモデルの重

    みはそのままに別のタスクに上手く適応できる l タスクAに関してBART(Adapter Layerあり)を学習した後に Adapter LayerをタスクB用に入れ替えるだけでさらにファイン チューニングすることが出来る l 出来るというか、そうしたほうが性能が上がる(壊滅的忘却が 起こりにくい) n 今回のモデルとの関係 l 事前に他のスタイルで学習されたモデルさえあれば、そのス タイルを保持した知識応答ができますよ、というModule Adaptive Layer[1] 13
  9. 目的関数 14 𝑞#! (𝑀|𝑅) = ∏ $%& '" 𝑞#! (𝑚$

    |𝑅) n 変分下限 l これを最大化 𝑞## (𝑍|𝑀, 𝑅) = 0 $%& '" 𝑞## (𝑧$ |𝑀, 𝑅)
  10. 実験 n データセット l Wizard Wikipedia (Wizard) (Dinan et al.,

    2019) l CMU Document Grounded Conversations (CMU_DoG) (Zhou et al., 2018c) n ベースライン lBART (Lewis et al., 2020) l Zero-resource Knowledge-grounded Conversation (ZRKGC) (Li et al., 2020) l Emotional Chatting Machine (ECM) (Zhou et al., 2018a) l variant of DialoGPT (Zhang et al..., 2019b):感情の制御コードを用いたモデル l CTRL(Keskar et al.,2019):スタイルを制御するコードを用いてスタイル付き応答を生成する大 規模モデル 16
  11. 事前ファインチューニング n Redditのデータセットを用いて事前にスタイルの学習を行う n Adapter Layerを用いてポジティブな応答、ネガティブな応答の2つを学習させておく n これにより l 𝑧$

    = 2のときにポジティブなスタイルが選択 l 𝑧$ = 3のときにネガティブなスタイルが選択 n という知識を持たせつつ2つのスタイル選択が可能になる 17
  12. 結果の評価(Cont.) n 人間による評価 l [0, 1, 2]で評価 l Fluency l

    Context Coherence l Knowledge Relevance l Style Consistency 19
  13. 補足資料 n [1] Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna

    Morrone, Quentin De Laroussilhe, Andrea Gesmundo, Mona Attariyan, Sylvain Gelly. ” Parameter-Efficient Transfer Learning for NLP.” Proceedings of the 36th International Conference on Machine Learning, PMLR 97:2790-2799, 2019. 22