Slide 1

Slide 1 text

PGTask: Introducing the Task of Profile Generation from Dialogues NAIST IRD/RIKEN GRP D1 吉田 快 (X: @YoshidaKai2)

Slide 2

Slide 2 text

自己紹介 所属 ● NAIST 吉野研/RIKEN GRP ● D1 吉田 快 (X: @YoshidaKai2) 興味 ● 主に対話、話者情報を活用した発話生成 宣伝 ● NLP新米の会の運営やってます ● 気になる人は DM or リプお願いします

Slide 3

Slide 3 text

論文のまとめ 目的 ● 発話文からのプロフィール生成によるプロフィール文+発話のデータ作成 提案 ● NLIモデルによるプロフィール文と発話文の紐づけによる自動的な学習データ (PGDataset)構築方法の提案 ● PGDatasetによるプロフィール生成モデルの学習

Slide 4

Slide 4 text

長い

Slide 5

Slide 5 text

タスクの背景 ● 近年LLMにプロフィールに沿ったキャラクターを演じさせることが行われている ● Persona Chat [Zhang 2018]のようなプロフィール文+発話データが不足 →発話文から自動生成できると強そう   プロフィール ● ラーメンが好き ● ニンニクを愛してる 何か食べに行きませんか? 二郎系とかどうですか Persona Chatの対話

Slide 6

Slide 6 text

タスクの背景 ● Persona Chatのデータは1発話+プロフィール文数文のセット ○ 発話に反映されてないペルソナも存在 ○ どれが使われているペルソナか参照を取る必要がある ● 人手で参照を紐づけするのはコストフル ○ 含意分類タスクで自動化できるのでは?

Slide 7

Slide 7 text

Entailment Classification (含意分類)タスク ● 2文間の含意関係の有無の2値分類 ● WelleckらのDNLIデータから、含意分類モデルを学習 (ここは別に新しくない) ○ 実装はRoberta (分類のために最終層に softmax)を用いた3値分類。目新しさはないので割愛 ○ DNLIのみとDNLI+MNLIで比較 →MNLI+DNLIの方がAccuracyが高い 二郎に行きました ニンニク食べました 太郎と出かけました ニンニク食べました 含意 含意 中立 含意分類の例

Slide 8

Slide 8 text

NLIモデルでのアノテーション ● 発話utに対して含意になるペルソナpiを全て選択 ● 1つの発話に複数ペルソナが紐づけられることもある

Slide 9

Slide 9 text

Persona Generation (PG) Dataset ● 各節とプロフィール文を含意分類により参 照付け ● 1つの発話に複数のプロフィール文が割り 当てられることも ● 発話と参照元のペルソナを紐づけしたデー タhttps://github.com/ruinunca/PGTask

Slide 10

Slide 10 text

PGDatasetの質 : 自動評価 ● 分類の際の最終層のsoftmaxの値を 集計して可視化 ● softmaxが大きいほど、モデルの確信 度が高い ● 図から多くのサンプルでモデルがちゃ んと識別できているっぽいことが確認で きた

Slide 11

Slide 11 text

PGDatasetの質 : 人手評価 ① ② ③ ● 3名のアノテータが「発話文からプロ フィール文が抽出できるか」検証 ● 3つの区間から100サンプルずつ検証 ● softmaxの値が低い区間ほどアノテー タの精度も低い相関 ● モデルが人手と一致することを確認 ● PGDatasetにはモデルが99%以上の 確率を出したものを使用

Slide 12

Slide 12 text

Training Procedure ● GPT系モデルをPGDatasetで Finetuning ● 発話文からプロフィール文を予測 するように学習 発話 u={wu 1 ,...,wu m } プロフィール文 p={wp 1 ,...,wp k }

Slide 13

Slide 13 text

Evaluation ● W/O(Without) or W(With) ● FinetuningありのGPT-2が一番よい

Slide 14

Slide 14 text

生成例 良い例 (reading mysteriesに関連するものを生成 ) 悪い例 (drop high schoolが認識されていない )

Slide 15

Slide 15 text

所感 : 今欲しいものではない ● 有りそうでなかった話 ● Persona Chatの研究は既に次の段階 ○ (END) モデルにペルソナが埋め込まれた発話をさせる ○ (NEXT) 限られたペルソナからそれっぽい発話を無限にさせる (ペルソナを無限に与えるのは煩わしいので ) ペルソナ(プロフィール) ● ラーメンが好き ● ニンニクを愛してる 何か食べに行きませんか? ニンニクマシマシラーメン とかどうですか? 何か食べに行きませんか? 二郎行こう! 家系行こう! 天スタ行こう! これまで: ペルソナが直接 コピーされた発話 これから: そのペルソナを匂わ せる発話

Slide 16

Slide 16 text

短い

Slide 17

Slide 17 text

論文のまとめ 目的 ● 発話文を用いたプロフィール文生成 提案 ● PersonaChatのプロフィール文と発話文をNLIによって自動的に紐づけ →生成モデルの学習データ(PGDataset)構築 ● PGDatasetによるプロフィール生成モデルの学習 →Twitterのような発話文のみデータにプロフィール文をペアリング可能に ペルソナ(プロフィール) ● ラーメンが好き ● ニンニクを愛してる ニンニクアブラヤサイマシマシしか 勝たん!

Slide 18

Slide 18 text

プロフィール生成モデルと学習データの自動構築 ● LLMにロールプレイをさせるためのデータ不足 ● 特にPersona Chat [Zhang 2018]のようなプロフィール文+発話データの不足 ○ 人手で発話文からプロフィールを作成するのは高コスト ○ 発話データからプロフィール文を生成できるようにすればいいのでは? ● 生成モデル学習のためのデータの自動構築 ○ 発話+発話に使われているプロフィール文 のペアが必用 ■ Persona Chatは発話に使われていないプロフィール文もペアに なっている ○ 含意分類を用いて使われているプロフィールのみを選択 ○ 含意分類器はRobertaをDNLI+MNLIで学習 (Welleckと同様)。ACC91.75% ○ Persona Chatを用いて、発話文と使われている プロフィール文を紐づけ (PGDataset) ○ PGDatasetでプロフィール生成モデル (GPT-2) を学習

Slide 19

Slide 19 text

データの質の評価 ● 自動構築したデータの質が高いか 2側面で評価 ● 分類の際の最終層のsoftmaxの値を集計して分析 自動評価 ● softmaxが大きいほど、モデルの確信度が高い ○ モデルは確信度高めに分類できていることを確認 人手評価 ● 3区間それぞれ100サンプルずつ人手で分類を解いてモデルの精度と比較 ○ softmaxが低い①では人手の精度も低く、③では人手の精度も高い相関を確認 ○ 自動紐づけが人手と一致していると言えそう ○ データセットにはモデルが 99%以上と予測したものだけを使用 ① ② ③

Slide 20

Slide 20 text

生成モデルの評価 ● W/O(Without) or W(With) ● FinetuningありのGPT-2が一番よい

Slide 21

Slide 21 text

所感 : 今欲しいものではない ● 有りそうでなかった話 ● Persona Chatの研究は既に次の段階 ○ (END) モデルにペルソナが埋め込まれた発話をさせる ○ (NEXT) 限られたペルソナからそれっぽい発話を無限にさせる (ペルソナを無限に与えるのは煩わしいので ) ペルソナ(プロフィール) ● ラーメンが好き ● ニンニクを愛してる 何か食べに行きませんか? ニンニクマシマシラーメン とかどうですか? 何か食べに行きませんか? 二郎行こう! 家系行こう! 天スタ行こう! これまで: ペルソナが直接 コピーされた発話 これから: そのペルソナを匂わ せる発話

Slide 22

Slide 22 text

付録

Slide 23

Slide 23 text

DNLIの内訳

Slide 24

Slide 24 text

MNLIの内訳 各ラベルの内訳は不明

Slide 25

Slide 25 text

質疑応答 Q ● 発話文に含まれているものの一部をプロフィール文として用いるというものだと理解し ました.ただその場合は、発話文をそのままプロフィール文として用いるときとの差分 があまりないと思ったのですが、その辺りはいかがでしょうか A ● それな。経験上、Persona Chatに限って言えばルールベースである程度の精度が出 ると思います。一方でTwitterのような対話データになると、発話のフォーマットが定 まっていないので生成ベースの方が向いている気がします。

Slide 26

Slide 26 text

質疑応答 Q ● 学習済みモデルは間違っているものも自信を持ちがちだと思いますが、NLIによる 自動評価はこの論文ではどれくらい信用できるのでしょうか? A Accuracyベースで91.75%の精度が出ているので、ある程度信用していいと思います (RecallとPrecisionが不明なのが微妙だが)。また、結果ベースですが人手との相関も ちゃんと出ているので、ある程度は信用していいとおもいます。

Slide 27

Slide 27 text

質疑応答 Q ● 基本的なところで恐縮ですが、自動構築したデータセットの品質評価に確度を用いるのは 適切なのでしょうか A すいません、僕も知らないです。誰か教えてください。 一応今回のロジックとしては、「モデルが確度高く予測できている」 →「データの質が高い」、「モ デルと人手に相関があり、人手ではいいと示されている」 →「モデルで予測したデータもいいので は?」だと思います。 (多分ですが、確度だけだとダメで、人手評価との相関があって始めて確度に信頼性が生まれる のかなと思います)

Slide 28

Slide 28 text

質疑応答 Q ● 自動構築したデータセットって公開されているのでしょうか. GPT-2で生成したデータセットが公開できるのか知りたかったです. A 自動構築したデータセット(PGDataset)は公開されています。ただ、PGDatasetは PersonaChatを組み換え操作して作ったデータなので、GPT-2で生成したデータではな いです。GPT-2で生成したデータセットを公開していいかは知らないです。

Slide 29

Slide 29 text

質疑応答 Q ● (時間の関係でskipされたと思いますが、)「今欲しいものではない」というスライドについて もう少し詳細にご意見をお伺いしたいです! A 今までのペルソナ対話には与えたペルソナ文が直接埋め込まれた発話がされる問題 (所感の ページ左発話)があると考えています。これにより、PersonaChatをベースに構築した PGDatasetでは、発話文中のキーワードを使ったプロフィール文しか生成できないのでは?とい う懸念があります。今後のペルソナ対話では、ペルソナ文に含まれていないキーワードも含めた (匂わせた)発話をしてほしい気持ちがあり、今回のモデルではそれが達成できない恐れがある ため「今欲しいものではない」と表現しました。