Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
PGTask: Introducing the Task of Profile Generation from Dialogues NAIST IRD/RIKEN GRP D1 吉田 快 (X: @YoshidaKai2)
Slide 2
Slide 2 text
自己紹介 所属 ● NAIST 吉野研/RIKEN GRP ● D1 吉田 快 (X: @YoshidaKai2) 興味 ● 主に対話、話者情報を活用した発話生成 宣伝 ● NLP新米の会の運営やってます ● 気になる人は DM or リプお願いします
Slide 3
Slide 3 text
論文のまとめ 目的 ● 発話文からのプロフィール生成によるプロフィール文+発話のデータ作成 提案 ● NLIモデルによるプロフィール文と発話文の紐づけによる自動的な学習データ (PGDataset)構築方法の提案 ● PGDatasetによるプロフィール生成モデルの学習
Slide 4
Slide 4 text
長い
Slide 5
Slide 5 text
タスクの背景 ● 近年LLMにプロフィールに沿ったキャラクターを演じさせることが行われている ● Persona Chat [Zhang 2018]のようなプロフィール文+発話データが不足 →発話文から自動生成できると強そう プロフィール ● ラーメンが好き ● ニンニクを愛してる 何か食べに行きませんか? 二郎系とかどうですか Persona Chatの対話
Slide 6
Slide 6 text
タスクの背景 ● Persona Chatのデータは1発話+プロフィール文数文のセット ○ 発話に反映されてないペルソナも存在 ○ どれが使われているペルソナか参照を取る必要がある ● 人手で参照を紐づけするのはコストフル ○ 含意分類タスクで自動化できるのでは?
Slide 7
Slide 7 text
Entailment Classification (含意分類)タスク ● 2文間の含意関係の有無の2値分類 ● WelleckらのDNLIデータから、含意分類モデルを学習 (ここは別に新しくない) ○ 実装はRoberta (分類のために最終層に softmax)を用いた3値分類。目新しさはないので割愛 ○ DNLIのみとDNLI+MNLIで比較 →MNLI+DNLIの方がAccuracyが高い 二郎に行きました ニンニク食べました 太郎と出かけました ニンニク食べました 含意 含意 中立 含意分類の例
Slide 8
Slide 8 text
NLIモデルでのアノテーション ● 発話utに対して含意になるペルソナpiを全て選択 ● 1つの発話に複数ペルソナが紐づけられることもある
Slide 9
Slide 9 text
Persona Generation (PG) Dataset ● 各節とプロフィール文を含意分類により参 照付け ● 1つの発話に複数のプロフィール文が割り 当てられることも ● 発話と参照元のペルソナを紐づけしたデー タhttps://github.com/ruinunca/PGTask
Slide 10
Slide 10 text
PGDatasetの質 : 自動評価 ● 分類の際の最終層のsoftmaxの値を 集計して可視化 ● softmaxが大きいほど、モデルの確信 度が高い ● 図から多くのサンプルでモデルがちゃ んと識別できているっぽいことが確認で きた
Slide 11
Slide 11 text
PGDatasetの質 : 人手評価 ① ② ③ ● 3名のアノテータが「発話文からプロ フィール文が抽出できるか」検証 ● 3つの区間から100サンプルずつ検証 ● softmaxの値が低い区間ほどアノテー タの精度も低い相関 ● モデルが人手と一致することを確認 ● PGDatasetにはモデルが99%以上の 確率を出したものを使用
Slide 12
Slide 12 text
Training Procedure ● GPT系モデルをPGDatasetで Finetuning ● 発話文からプロフィール文を予測 するように学習 発話 u={wu 1 ,...,wu m } プロフィール文 p={wp 1 ,...,wp k }
Slide 13
Slide 13 text
Evaluation ● W/O(Without) or W(With) ● FinetuningありのGPT-2が一番よい
Slide 14
Slide 14 text
生成例 良い例 (reading mysteriesに関連するものを生成 ) 悪い例 (drop high schoolが認識されていない )
Slide 15
Slide 15 text
所感 : 今欲しいものではない ● 有りそうでなかった話 ● Persona Chatの研究は既に次の段階 ○ (END) モデルにペルソナが埋め込まれた発話をさせる ○ (NEXT) 限られたペルソナからそれっぽい発話を無限にさせる (ペルソナを無限に与えるのは煩わしいので ) ペルソナ(プロフィール) ● ラーメンが好き ● ニンニクを愛してる 何か食べに行きませんか? ニンニクマシマシラーメン とかどうですか? 何か食べに行きませんか? 二郎行こう! 家系行こう! 天スタ行こう! これまで: ペルソナが直接 コピーされた発話 これから: そのペルソナを匂わ せる発話
Slide 16
Slide 16 text
短い
Slide 17
Slide 17 text
論文のまとめ 目的 ● 発話文を用いたプロフィール文生成 提案 ● PersonaChatのプロフィール文と発話文をNLIによって自動的に紐づけ →生成モデルの学習データ(PGDataset)構築 ● PGDatasetによるプロフィール生成モデルの学習 →Twitterのような発話文のみデータにプロフィール文をペアリング可能に ペルソナ(プロフィール) ● ラーメンが好き ● ニンニクを愛してる ニンニクアブラヤサイマシマシしか 勝たん!
Slide 18
Slide 18 text
プロフィール生成モデルと学習データの自動構築 ● LLMにロールプレイをさせるためのデータ不足 ● 特にPersona Chat [Zhang 2018]のようなプロフィール文+発話データの不足 ○ 人手で発話文からプロフィールを作成するのは高コスト ○ 発話データからプロフィール文を生成できるようにすればいいのでは? ● 生成モデル学習のためのデータの自動構築 ○ 発話+発話に使われているプロフィール文 のペアが必用 ■ Persona Chatは発話に使われていないプロフィール文もペアに なっている ○ 含意分類を用いて使われているプロフィールのみを選択 ○ 含意分類器はRobertaをDNLI+MNLIで学習 (Welleckと同様)。ACC91.75% ○ Persona Chatを用いて、発話文と使われている プロフィール文を紐づけ (PGDataset) ○ PGDatasetでプロフィール生成モデル (GPT-2) を学習
Slide 19
Slide 19 text
データの質の評価 ● 自動構築したデータの質が高いか 2側面で評価 ● 分類の際の最終層のsoftmaxの値を集計して分析 自動評価 ● softmaxが大きいほど、モデルの確信度が高い ○ モデルは確信度高めに分類できていることを確認 人手評価 ● 3区間それぞれ100サンプルずつ人手で分類を解いてモデルの精度と比較 ○ softmaxが低い①では人手の精度も低く、③では人手の精度も高い相関を確認 ○ 自動紐づけが人手と一致していると言えそう ○ データセットにはモデルが 99%以上と予測したものだけを使用 ① ② ③
Slide 20
Slide 20 text
生成モデルの評価 ● W/O(Without) or W(With) ● FinetuningありのGPT-2が一番よい
Slide 21
Slide 21 text
所感 : 今欲しいものではない ● 有りそうでなかった話 ● Persona Chatの研究は既に次の段階 ○ (END) モデルにペルソナが埋め込まれた発話をさせる ○ (NEXT) 限られたペルソナからそれっぽい発話を無限にさせる (ペルソナを無限に与えるのは煩わしいので ) ペルソナ(プロフィール) ● ラーメンが好き ● ニンニクを愛してる 何か食べに行きませんか? ニンニクマシマシラーメン とかどうですか? 何か食べに行きませんか? 二郎行こう! 家系行こう! 天スタ行こう! これまで: ペルソナが直接 コピーされた発話 これから: そのペルソナを匂わ せる発話
Slide 22
Slide 22 text
付録
Slide 23
Slide 23 text
DNLIの内訳
Slide 24
Slide 24 text
MNLIの内訳 各ラベルの内訳は不明
Slide 25
Slide 25 text
質疑応答 Q ● 発話文に含まれているものの一部をプロフィール文として用いるというものだと理解し ました.ただその場合は、発話文をそのままプロフィール文として用いるときとの差分 があまりないと思ったのですが、その辺りはいかがでしょうか A ● それな。経験上、Persona Chatに限って言えばルールベースである程度の精度が出 ると思います。一方でTwitterのような対話データになると、発話のフォーマットが定 まっていないので生成ベースの方が向いている気がします。
Slide 26
Slide 26 text
質疑応答 Q ● 学習済みモデルは間違っているものも自信を持ちがちだと思いますが、NLIによる 自動評価はこの論文ではどれくらい信用できるのでしょうか? A Accuracyベースで91.75%の精度が出ているので、ある程度信用していいと思います (RecallとPrecisionが不明なのが微妙だが)。また、結果ベースですが人手との相関も ちゃんと出ているので、ある程度は信用していいとおもいます。
Slide 27
Slide 27 text
質疑応答 Q ● 基本的なところで恐縮ですが、自動構築したデータセットの品質評価に確度を用いるのは 適切なのでしょうか A すいません、僕も知らないです。誰か教えてください。 一応今回のロジックとしては、「モデルが確度高く予測できている」 →「データの質が高い」、「モ デルと人手に相関があり、人手ではいいと示されている」 →「モデルで予測したデータもいいので は?」だと思います。 (多分ですが、確度だけだとダメで、人手評価との相関があって始めて確度に信頼性が生まれる のかなと思います)
Slide 28
Slide 28 text
質疑応答 Q ● 自動構築したデータセットって公開されているのでしょうか. GPT-2で生成したデータセットが公開できるのか知りたかったです. A 自動構築したデータセット(PGDataset)は公開されています。ただ、PGDatasetは PersonaChatを組み換え操作して作ったデータなので、GPT-2で生成したデータではな いです。GPT-2で生成したデータセットを公開していいかは知らないです。
Slide 29
Slide 29 text
質疑応答 Q ● (時間の関係でskipされたと思いますが、)「今欲しいものではない」というスライドについて もう少し詳細にご意見をお伺いしたいです! A 今までのペルソナ対話には与えたペルソナ文が直接埋め込まれた発話がされる問題 (所感の ページ左発話)があると考えています。これにより、PersonaChatをベースに構築した PGDatasetでは、発話文中のキーワードを使ったプロフィール文しか生成できないのでは?とい う懸念があります。今後のペルソナ対話では、ペルソナ文に含まれていないキーワードも含めた (匂わせた)発話をしてほしい気持ちがあり、今回のモデルではそれが達成できない恐れがある ため「今欲しいものではない」と表現しました。