Slide 1

Slide 1 text

Is a Knowledge-based Response Engaging?: An Analysis on Knowledge-Grounded Dialogue with Information Source Annotation Takashi Kodama, Hirokazu Kiyomaru, Yin Jou Huang, Taro Okahisa, Sadao Kurohashi NAIST/RIKEN IRD D1 吉田快

Slide 2

Slide 2 text

論文の概要 ● ACL2023 Student Research Workshop Best Paper 研究背景 ● 既存の知識に基づいた応答生成はいかに知識を反映した発話をするかに注目 ● 一方で人間の場合は、知識に+αで自分の知識や経験を混ぜることで発話をより魅力的にする ● 実際にどのような発話が好まれるのかを分析 ● 知識ベースの対話コーパスに外部知識(データベース由来)または話者自身の知識、経験、意見(話者由来)アノ テーションし、発話を評価 結果 ● 発話に話者由来の情報が含まれることで、対話の積極性が向上 ● 既存の知識ベースの応答モデルは、自身の経験を含めた応答を生成しにくい 2

Slide 3

Slide 3 text

背景 ● 対話型推薦システム(CRS)など多くの研究で外部知識を導入 [Ghazvininejadetal.,2018;Zhouetal.,2018;Mogheetal.,2018; Dinanetal.,2019;Zhaoetal.,2020] ○ 主な焦点は、いかに適切な外部知識を選択し、それを応答に正確に反映させるか ● しかし、話し手は外部知識だけでなく、自分自身の知識、経験、意見 を効果的に取り入れることで、対話をより魅力的 なものにしている ● 外部知識を反映させることに特化したモデルが、どの自身の情報を交えた発話ができるかは、まだ定量的に検討されてい ない 3

Slide 4

Slide 4 text

手法 ● 目的/ システム・人の発話の情報源の分布を調べる ● 既存の知識ベースの対話コーパス(JRMD)の各発話にアノテーションして情報源を分類 4

Slide 5

Slide 5 text

アノテーション ● JMRDの各発話に対してアノテーション ● 発話から名詞、動詞、形容詞、修飾語を抽出しそれらを次の3つに分類 1. データベース由来|その発言に使われる外部知識に基づいている。 2. 話し手由来|その実体は、その推薦映画について、発信者がもともと持っている知識、経験、意見に基づいてい る。 3. その他|上記の2つの型に当てはまらないもの(挨拶など)。 ● 一人がアノテーションし、別のアノテーターがダブルチェック ● 5,075対話、56,671発話にアノテーション 5 https://github.com/ku-nlp/JMRD The action scenes(database) spectacular(speaker) ! Used knowledge/ Genre, Action

Slide 6

Slide 6 text

対話レベルの分析 ⚫ JMRD各対話に5段階で対話のエンゲージメントの評価がされている ⚫ 各対話のエンゲージメントと情報源ラベルの比率関係を分析(表) ⚫ 話者由来の情報が大きいと対話のエンゲージが高い傾向 6 エンゲージメントと情報源ラベルの比率

Slide 7

Slide 7 text

発話レベルの分析 結果 ● ランダムに発話+その前の4ターンの発話を抽出 ● アノテータがその発話者と会話がしたいか?という質問を5段階評価 ○ 発話者由来 / 3.31 ○ 発話者由来でない / 3.07 ○ Student t-test (p=0.05)で有意差 ● 評価値と情報源の間にも明確に関係が存在 追加の分析 ● 外部知識の中でも、レビューは人の経験や知識が混ぜられたデータ ○ レビューは個人の感想 (スピーカー由来の情報とほぼ同じ特徴)とみなせる ○ レビューのみの平均スコアと発話者由来の間に有意差は無し ○ 話者の経験則から得られる情報が、映画に対するエンゲージメントの重要な要因 7

Slide 8

Slide 8 text

システムの発話分析 ● 目的 / 生成モデルの生成文の情報源の分布を分析 ● 生成モデル (BART) をJMRDで学習 ○ 対話履歴と外部知識を入力として、応答を生成するモデル ○ BLEU-1/2/3/4 - 81.1/73.5/71.0/69.9 十分に精度が高いことを確認 ● 情報源の分布を推定するために情報源分類器を学習 ○ 応答と外部知識を入力として、情報源ラベルを分類 ○ 分類モデルはRoBERTaをアノテーションしたデータで学習 ○ F1で90.5% ○ (感想)外部知識と入力単語が一致してれば分類できそうなので妥当な気がする 8 情報源分類モデルの精度

Slide 9

Slide 9 text

システムと人間の発話の情報源の分布比較 ● Humanのgold(アノテータが実施)とpred(分類器が予測)はどちらも同じような情報源の分布 ○ 分類器はよい精度を持っていると言えそう ● HumanとSystem間では、 ○ データベース由来のラベルの割合が有意に増加(66.75%→85.48%) ○ 話者由来の情報の割合が有意に減少した(27.49%→10.66%) ○ 訓練された応答生成モデルは、人間のように話者由来の情報を用いることができない 9 人間とシステムの発話間での情報源ラベルの分布 < > >

Slide 10

Slide 10 text

情報ソース別の分析 ● 使用された知識タイプ別に、話者由来の情報の平均比率を調査 ● レビュー(31.42%→6.32%)とプロット(13.68%→2.32%)で有意な 減少 ○ レビューとプロットが比較的長く、情報量が多い ○ システムが話者由来の追加情報を取り入れる必要がないと判断 したのでは 結論 ● 話者由来の情報がエンゲージメントを向上させるという観察結果 ● 現在のモデルは、話者由来の情報を効果的に取り入れることができない ○ エンゲージメントが低くなっている可能性が高い。 ● 既存のPerplexityを下げる学習と異なる新しい学習法が必要な可能性 10 使用された知識項目ごとの話者由来ラベルの平均値

Slide 11

Slide 11 text

まとめ ● 知識ベースの対話における人間的、システム的反応における話者由来の情報の分布を分析 ● 分析の結果、外部知識だけでなく、話者由来の情報を用いることで、反応がより魅力的になることが示された ● また、人間よりも訓練された応答生成モデルの方が、人間よりも少ない話者由来情報を生成することが確認された ● 各対話で多様な話者由来情報が出現するため、モデルの複雑さを最小化するだけでは、話者由来情報をうまく利用す ることは難しい 11

Slide 12

Slide 12 text

感想 ● ペルソナ対話の時の感覚と一致するので、納得感 ● 雑談対話だとどうだろうか? ○ 今回のタスクは推薦が対象 ○ 個人的な意見があることで、推薦対象をより洞察できるから有益→エンゲージメントが高く ○ 一方で雑談の場合は、自分語りおじと感じられてしまうのでは? ● 今回はBARTでの生成モデルの実装だったが、(最近のinstructモデルの様に)長い文にペナルティがかかるように学習されてい ただけなのでは? ○ 話者由来の情報は、外部知識由来の情報より長そう ■ そのため、長い情報としてはじかれて表出しなかっただけ説 12

Slide 13

Slide 13 text

参考資料 13

Slide 14

Slide 14 text

情報を取り入れられなかった具体例 ● エンゲージメントのスコアと、人間とシステムの回答の例 ● システムは、外部知識を適切に回答に反映させることができた ● 一方で、発話者の仕事ぶりに関する情報のような、発話者由来の追加情報を取り入れることはできなかった。 14

Slide 15

Slide 15 text

JMRDの外部知識データ例

Slide 16

Slide 16 text

JMRDの対話例