SIGDIAL論文読み会: PGTask: Introducing the Task of Profile Generation from Dialogues

Slide 1

Slide 1 text

PGTask: Introducing the Task of Proﬁle Generation from Dialogues NAIST IRD/RIKEN GRP D1 吉田快 (X: @YoshidaKai2)

Slide 2

Slide 2 text

自己紹介所属 ● NAIST 吉野研/RIKEN GRP ● D1 吉田快 (X: @YoshidaKai2) 興味 ● 主に対話、話者情報を活用した発話生成宣伝 ● NLP新米の会の運営やってます ● 気になる人は DM or リプお願いします

Slide 3

Slide 3 text

論文のまとめ目的 ● 発話文からのプロフィール生成によるプロフィール文+発話のデータ作成提案 ● NLIモデルによるプロフィール文と発話文の紐づけによる自動的な学習データ (PGDataset)構築方法の提案 ● PGDatasetによるプロフィール生成モデルの学習

Slide 4

Slide 4 text

長い

Slide 5

Slide 5 text

タスクの背景 ● 近年LLMにプロフィールに沿ったキャラクターを演じさせることが行われている ● Persona Chat [Zhang 2018]のようなプロフィール文+発話データが不足 →発話文から自動生成できると強そう　　プロフィール ● ラーメンが好き ● ニンニクを愛してる何か食べに行きませんか？二郎系とかどうですか Persona Chatの対話

Slide 6

Slide 6 text

タスクの背景 ● Persona Chatのデータは1発話+プロフィール文数文のセット ○ 発話に反映されてないペルソナも存在 ○ どれが使われているペルソナか参照を取る必要がある ● 人手で参照を紐づけするのはコストフル ○ 含意分類タスクで自動化できるのでは？

Slide 7

Slide 7 text

Entailment Classiﬁcation (含意分類)タスク ● 2文間の含意関係の有無の2値分類 ● WelleckらのDNLIデータから、含意分類モデルを学習 (ここは別に新しくない) ○ 実装はRoberta (分類のために最終層に softmax)を用いた3値分類。目新しさはないので割愛 ○ DNLIのみとDNLI+MNLIで比較 →MNLI+DNLIの方がAccuracyが高い二郎に行きましたニンニク食べました太郎と出かけましたニンニク食べました含意含意中立含意分類の例

Slide 8

Slide 8 text

NLIモデルでのアノテーション ● 発話utに対して含意になるペルソナpiを全て選択 ● 1つの発話に複数ペルソナが紐づけられることもある

Slide 9

Slide 9 text

Persona Generation (PG) Dataset ● 各節とプロフィール文を含意分類により参照付け ● 1つの発話に複数のプロフィール文が割り当てられることも ● 発話と参照元のペルソナを紐づけしたデータhttps://github.com/ruinunca/PGTask

Slide 10

Slide 10 text

PGDatasetの質 : 自動評価 ● 分類の際の最終層のsoftmaxの値を集計して可視化 ● softmaxが大きいほど、モデルの確信度が高い ● 図から多くのサンプルでモデルがちゃんと識別できているっぽいことが確認できた

Slide 11

Slide 11 text

PGDatasetの質 : 人手評価 ① ② ③ ● 3名のアノテータが「発話文からプロフィール文が抽出できるか」検証 ● 3つの区間から100サンプルずつ検証 ● softmaxの値が低い区間ほどアノテータの精度も低い相関 ● モデルが人手と一致することを確認 ● PGDatasetにはモデルが99%以上の確率を出したものを使用

Slide 12

Slide 12 text

Training Procedure ● GPT系モデルをPGDatasetで Finetuning ● 発話文からプロフィール文を予測するように学習発話 u={wu 1 ,...,wu m } プロフィール文 p={wp 1 ,...,wp k }

Slide 13

Slide 13 text

Evaluation ● W/O(Without)　or W(With) ● FinetuningありのGPT-2が一番よい

Slide 14

Slide 14 text

生成例良い例 (reading mysteriesに関連するものを生成 ) 悪い例 (drop high schoolが認識されていない )

Slide 15

Slide 15 text

所感 : 今欲しいものではない ● 有りそうでなかった話 ● Persona Chatの研究は既に次の段階 ○ (END) モデルにペルソナが埋め込まれた発話をさせる ○ (NEXT) 限られたペルソナからそれっぽい発話を無限にさせる (ペルソナを無限に与えるのは煩わしいので ) ペルソナ(プロフィール) ● ラーメンが好き ● ニンニクを愛してる何か食べに行きませんか？ニンニクマシマシラーメンとかどうですか？何か食べに行きませんか？二郎行こう！家系行こう！天スタ行こう！これまで: ペルソナが直接コピーされた発話これから: そのペルソナを匂わせる発話

Slide 16

Slide 16 text

短い

Slide 17

Slide 17 text

論文のまとめ目的 ● 発話文を用いたプロフィール文生成提案 ● PersonaChatのプロフィール文と発話文をNLIによって自動的に紐づけ →生成モデルの学習データ(PGDataset)構築 ● PGDatasetによるプロフィール生成モデルの学習 →Twitterのような発話文のみデータにプロフィール文をペアリング可能にペルソナ(プロフィール) ● ラーメンが好き ● ニンニクを愛してるニンニクアブラヤサイマシマシしか勝たん！

Slide 18

Slide 18 text

プロフィール生成モデルと学習データの自動構築 ● LLMにロールプレイをさせるためのデータ不足 ● 特にPersona Chat [Zhang 2018]のようなプロフィール文+発話データの不足 ○ 人手で発話文からプロフィールを作成するのは高コスト ○ 発話データからプロフィール文を生成できるようにすればいいのでは？ ● 生成モデル学習のためのデータの自動構築 ○ 発話+発話に使われているプロフィール文のペアが必用 ■ Persona Chatは発話に使われていないプロフィール文もペアになっている ○ 含意分類を用いて使われているプロフィールのみを選択 ○ 含意分類器はRobertaをDNLI+MNLIで学習 (Welleckと同様)。ACC91.75% ○ Persona Chatを用いて、発話文と使われているプロフィール文を紐づけ (PGDataset) ○ PGDatasetでプロフィール生成モデル (GPT-2) を学習

Slide 19

Slide 19 text

データの質の評価 ● 自動構築したデータの質が高いか 2側面で評価 ● 分類の際の最終層のsoftmaxの値を集計して分析自動評価 ● softmaxが大きいほど、モデルの確信度が高い ○ モデルは確信度高めに分類できていることを確認人手評価 ● 3区間それぞれ100サンプルずつ人手で分類を解いてモデルの精度と比較 ○ softmaxが低い①では人手の精度も低く、③では人手の精度も高い相関を確認 ○ 自動紐づけが人手と一致していると言えそう ○ データセットにはモデルが 99%以上と予測したものだけを使用 ① ② ③

Slide 20

Slide 20 text

生成モデルの評価 ● W/O(Without)　or W(With) ● FinetuningありのGPT-2が一番よい

Slide 21

Slide 21 text

Slide 22

Slide 22 text

付録

Slide 23

Slide 23 text

DNLIの内訳

Slide 24

Slide 24 text

MNLIの内訳各ラベルの内訳は不明

Slide 25

Slide 25 text

質疑応答 Q ● 発話文に含まれているものの一部をプロフィール文として用いるというものだと理解しました.ただその場合は、発話文をそのままプロフィール文として用いるときとの差分があまりないと思ったのですが、その辺りはいかがでしょうか A ● それな。経験上、Persona Chatに限って言えばルールベースである程度の精度が出ると思います。一方でTwitterのような対話データになると、発話のフォーマットが定まっていないので生成ベースの方が向いている気がします。

Slide 26

Slide 26 text

質疑応答 Q ● 学習済みモデルは間違っているものも自信を持ちがちだと思いますが、NLIによる自動評価はこの論文ではどれくらい信用できるのでしょうか？ A Accuracyベースで91.75%の精度が出ているので、ある程度信用していいと思います (RecallとPrecisionが不明なのが微妙だが)。また、結果ベースですが人手との相関もちゃんと出ているので、ある程度は信用していいとおもいます。

Slide 27

Slide 27 text

質疑応答 Q ● 基本的なところで恐縮ですが、自動構築したデータセットの品質評価に確度を用いるのは適切なのでしょうか A すいません、僕も知らないです。誰か教えてください。一応今回のロジックとしては、「モデルが確度高く予測できている」 →「データの質が高い」、「モデルと人手に相関があり、人手ではいいと示されている」 →「モデルで予測したデータもいいのでは？」だと思います。 (多分ですが、確度だけだとダメで、人手評価との相関があって始めて確度に信頼性が生まれるのかなと思います)

Slide 28

Slide 28 text

質疑応答 Q ● 自動構築したデータセットって公開されているのでしょうか． GPT-2で生成したデータセットが公開できるのか知りたかったです． A 自動構築したデータセット(PGDataset)は公開されています。ただ、PGDatasetは PersonaChatを組み換え操作して作ったデータなので、GPT-2で生成したデータではないです。GPT-2で生成したデータセットを公開していいかは知らないです。

Slide 29

Slide 29 text

質疑応答 Q ● （時間の関係でskipされたと思いますが、）「今欲しいものではない」というスライドについてもう少し詳細にご意見をお伺いしたいです！ A 今までのペルソナ対話には与えたペルソナ文が直接埋め込まれた発話がされる問題 (所感のページ左発話)があると考えています。これにより、PersonaChatをベースに構築した PGDatasetでは、発話文中のキーワードを使ったプロフィール文しか生成できないのでは？という懸念があります。今後のペルソナ対話では、ペルソナ文に含まれていないキーワードも含めた (匂わせた)発話をしてほしい気持ちがあり、今回のモデルではそれが達成できない恐れがあるため「今欲しいものではない」と表現しました。