論文紹介:Learning to Express in Knowledge- Grounded Conversation

論⽂紹介:Learning to Express in Knowledge- Grounded Conversation 朝原隆太朗

はじめに n Xueliang Zhao, Tingchen Fu, Chongyang Tao, Wei Wu,
Dongyan Zhao, and Rui Yan. 2022. Learning to Express in Knowledge-Grounded Conversation. In Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 2258–2273, Seattle, United States. Association for Computational Linguistics. n 選んだ理由 l応答表現を多様化する？みたいな論文が読みたかった lタイムステップごとに生成方法を変えるのが面白そうだった 2

背景＆動機 n 適切な知識を利用して、知識を踏まえた応答を生成しようという試みは色々やられてる l Dinan et al., 2019 l
Kim et al., 2020 l Zhao et al., 2020b n 同じ知識を参照していても、話者や文脈で使われ方が異なる事がある l 既存の研究ではそこがあまり考慮されていない対話におけるスタイルを考慮した知識応答を生成するべき 3

やったこと n 同じ知識であっても多様な表現方法を用いて一貫性のある応答を生成したい n 事前学習済みのBARTを利用してモデルを提案 n あるデコーダからの出力に対して潜在変数zを導入することで隠れ表現ごとに
別々のModuleを用いるように選択する手法を提案 4

モデルの概略図 BART Context Module Plain-Knowledge Module Stylized-Knowledge Module Z 𝑚!
Boundary Indicator Module Indicator 5

データの定義 𝑈!: 文脈 𝐾!: 知識 𝑅!: 応答 𝐾! = {𝑘"
, 𝑘# , … , 𝑘$! } 𝑙%: 𝐾! の長さ 𝑈! = {𝑢" , 𝑢# , … , 𝑢$" } 𝑙&: 𝑈! の長さ n データセットDについて n BARTエンコーダへの入力 l 単純に知識と文脈を連結したものを用いる n 知識表現と文脈表現 l エンコーダから得られた表現を知識と文脈で分割する 6

Module Indicator n ここではどの種類のModuleを使用するかを離散潜在変数zによって選択する l BARTのデコーダの出力から事前分布を計算 n 式①の気持ち l𝑚!"# =
0のとき、クロネッカーのデルタ関数により決定 l𝑚!"# = 1のとき、𝐶! によりパラメータが更新される l当然𝑚$ = 1 ① 𝑒"#$: 𝑧"#$ の埋め込み = 7

Boundary Indicator n 現在の時間ステップにおけるトークンが1つ前の時間ステップにおけるトークンと同じセグメントに属しているかを表す離散的な値𝑚' を生成する n つまり、現在の表現の使用方法を以下の2択から選択する l 1つ前の時間ステップの続きを生成
l 新しいセグメントとして表現を生成 n 𝑚! は以下よりサンプリングする n 以下の式でパラメータ化したベルヌーイ分布 𝜎 . : シグモイド関数 𝑓%"%&' . : マルチレイヤーパーセプトロン 8

事後分布に関して n - 𝑞(𝑧' |𝜓' )は以下により多項分布として定義される l𝜓! =Bi-LSTM(R) n 事後分布を以下のように定義
n 潜在変数zのサンプリング l事後分布に対してGumbel-Softmax(.) (Jang et al., 2016)を適用することでサンプリング l分布からOne-hotベクトルを取得 9

３つのModuleについて n 𝑧' = 0のとき l 現在の隠れ状態と以前の隠れ状態の集合、及び文脈を入力して応答を生成 n 𝑧' =
1のとき l 現在の隠れ状態と以前の隠れ状態の集合、及び知識を入力して応答を生成 n 𝑧' ≥ 2のとき l 現在の隠れ状態と以前の隠れ状態の集合、及び知識を入力して応答を生成 12

Adapter Layerについて n Adapter Layer l 2つ以上のタスクに関してファインチューニングを可能にする l Adapter Layerを入れ替えるだけで、事前学習済みモデルの重
みはそのままに別のタスクに上手く適応できる l タスクAに関してBART(Adapter Layerあり)を学習した後に Adapter LayerをタスクB用に入れ替えるだけでさらにファインチューニングすることが出来る l 出来るというか、そうしたほうが性能が上がる(壊滅的忘却が起こりにくい) n 今回のモデルとの関係 l 事前に他のスタイルで学習されたモデルさえあれば、そのスタイルを保持した知識応答ができますよ、というModule Adaptive Layer[1] 13

目的関数 14 𝑞#! (𝑀|𝑅) = ∏ $%& '" 𝑞#! (𝑚$
|𝑅) n 変分下限 l これを最大化 𝑞## (𝑍|𝑀, 𝑅) = 0 $%& '" 𝑞## (𝑧$ |𝑀, 𝑅)

弱教師あり学習 n Stanford NLP toolkitを用いて、セグメントを分類して正解データを作成 l 𝑚! のセグメント分類と𝑧! のモジュール分類に対して損失を定義 +
𝑚! , ̃ 𝑧!:Stanford NLP toolkitで作成した疑似ラベル 15

実験 n データセット l Wizard Wikipedia (Wizard) (Dinan et al.,
2019) l CMU Document Grounded Conversations (CMU_DoG) (Zhou et al., 2018c) n ベースライン lBART (Lewis et al., 2020) l Zero-resource Knowledge-grounded Conversation (ZRKGC) (Li et al., 2020) l Emotional Chatting Machine (ECM) (Zhou et al., 2018a) l variant of DialoGPT (Zhang et al..., 2019b)：感情の制御コードを用いたモデル l CTRL（Keskar et al.,2019)：スタイルを制御するコードを用いてスタイル付き応答を生成する大規模モデル 16

事前ファインチューニング n Redditのデータセットを用いて事前にスタイルの学習を行う n Adapter Layerを用いてポジティブな応答、ネガティブな応答の2つを学習させておく n これにより l 𝑧$
= 2のときにポジティブなスタイルが選択 l 𝑧$ = 3のときにネガティブなスタイルが選択 n という知識を持たせつつ２つのスタイル選択が可能になる 17

結果の評価 n 定量的評価指標 lPPL lF1:unigram-F1、つまり正解に対する1文字ごとのF1値 lD-1, D-2:Distance-1, Distance-2 18

結果の評価(Cont.) n 人間による評価 l [0, 1, 2]で評価 l Fluency l
Context Coherence l Knowledge Relevance l Style Consistency 19

結果の評価(Cont.) n 生成された文章のスタイルの正解率 l Our ModelとCTRL以外のモデルにはスタイルに関する制御を行う機構がない 20

生成例 21

補足資料 n [1] Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna
Morrone, Quentin De Laroussilhe, Andrea Gesmundo, Mona Attariyan, Sylvain Gelly. ” Parameter-Efficient Transfer Learning for NLP.” Proceedings of the 36th International Conference on Machine Learning, PMLR 97:2790-2799, 2019. 22

論文紹介:Learning to Express in Knowledge- Grounded...

論文紹介:Learning to Express in Knowledge- Grounded Conversation

Ryutaro Asahara

More Decks by Ryutaro Asahara

Other Decks in Research

Featured

Transcript

論⽂紹介:Learning to Express in Knowledge- Grounded Conversation 朝原隆太朗

はじめに n Xueliang Zhao, Tingchen Fu, Chongyang Tao, Wei Wu,

背景＆動機 n 適切な知識を利用して、知識を踏まえた応答を生成しようという試みは色々やられてる l Dinan et al., 2019 l

やったこと n 同じ知識であっても多様な表現方法を用いて一貫性のある応答を生成したい n 事前学習済みのBARTを利用してモデルを提案 n あるデコーダからの出力に対して潜在変数zを導入することで隠れ表現ごとに

モデルの概略図 BART Context Module Plain-Knowledge Module Stylized-Knowledge Module Z 𝑚!

データの定義 𝑈!: 文脈 𝐾!: 知識 𝑅!: 応答 𝐾! = {𝑘"

Module Indicator n ここではどの種類のModuleを使用するかを離散潜在変数zによって選択する l BARTのデコーダの出力から事前分布を計算 n 式①の気持ち l𝑚!"# =

事後分布に関して n - 𝑞(𝑧' |𝜓' )は以下により多項分布として定義される l𝜓! =Bi-LSTM(R) n 事後分布を以下のように定義

３つのModuleについて n 𝑧' = 0のとき l 現在の隠れ状態と以前の隠れ状態の集合、及び文脈を入力して応答を生成 n 𝑧' =

Adapter Layerについて n Adapter Layer l 2つ以上のタスクに関してファインチューニングを可能にする l Adapter Layerを入れ替えるだけで、事前学習済みモデルの重

目的関数 14 𝑞#! (𝑀|𝑅) = ∏ $%& '" 𝑞#! (𝑚$

弱教師あり学習 n Stanford NLP toolkitを用いて、セグメントを分類して正解データを作成 l 𝑚! のセグメント分類と𝑧! のモジュール分類に対して損失を定義 +

実験 n データセット l Wizard Wikipedia (Wizard) (Dinan et al.,

事前ファインチューニング n Redditのデータセットを用いて事前にスタイルの学習を行う n Adapter Layerを用いてポジティブな応答、ネガティブな応答の2つを学習させておく n これにより l 𝑧$

結果の評価 n 定量的評価指標 lPPL lF1:unigram-F1、つまり正解に対する1文字ごとのF1値 lD-1, D-2:Distance-1, Distance-2 18

結果の評価(Cont.) n 人間による評価 l [0, 1, 2]で評価 l Fluency l

結果の評価(Cont.) n 生成された文章のスタイルの正解率 l Our ModelとCTRL以外のモデルにはスタイルに関する制御を行う機構がない 20

生成例 21

補足資料 n [1] Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna