Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SIGDIAL論文読み会: PGTask: Introducing the Task of Profile Generation from Dialogues

kai-yo
October 27, 2023

SIGDIAL論文読み会: PGTask: Introducing the Task of Profile Generation from Dialogues

kai-yo

October 27, 2023
Tweet

More Decks by kai-yo

Other Decks in Science

Transcript

  1. PGTask: Introducing the Task of
    Profile Generation from Dialogues
    NAIST IRD/RIKEN GRP
    D1 吉田 快 (X: @YoshidaKai2)

    View full-size slide

  2. 自己紹介
    所属
    ● NAIST 吉野研/RIKEN GRP
    ● D1 吉田 快 (X: @YoshidaKai2)
    興味
    ● 主に対話、話者情報を活用した発話生成
    宣伝
    ● NLP新米の会の運営やってます
    ● 気になる人は DM or リプお願いします

    View full-size slide

  3. 論文のまとめ
    目的
    ● 発話文からのプロフィール生成によるプロフィール文+発話のデータ作成
    提案
    ● NLIモデルによるプロフィール文と発話文の紐づけによる自動的な学習データ
    (PGDataset)構築方法の提案
    ● PGDatasetによるプロフィール生成モデルの学習

    View full-size slide

  4. タスクの背景
    ● 近年LLMにプロフィールに沿ったキャラクターを演じさせることが行われている
    ● Persona Chat [Zhang 2018]のようなプロフィール文+発話データが不足
    →発話文から自動生成できると強そう
      プロフィール
    ● ラーメンが好き
    ● ニンニクを愛してる
    何か食べに行きませんか?
    二郎系とかどうですか
    Persona Chatの対話

    View full-size slide

  5. タスクの背景
    ● Persona Chatのデータは1発話+プロフィール文数文のセット
    ○ 発話に反映されてないペルソナも存在
    ○ どれが使われているペルソナか参照を取る必要がある
    ● 人手で参照を紐づけするのはコストフル
    ○ 含意分類タスクで自動化できるのでは?

    View full-size slide

  6. Entailment Classification (含意分類)タスク
    ● 2文間の含意関係の有無の2値分類
    ● WelleckらのDNLIデータから、含意分類モデルを学習 (ここは別に新しくない)
    ○ 実装はRoberta (分類のために最終層に softmax)を用いた3値分類。目新しさはないので割愛
    ○ DNLIのみとDNLI+MNLIで比較
    →MNLI+DNLIの方がAccuracyが高い
    二郎に行きました
    ニンニク食べました
    太郎と出かけました
    ニンニク食べました
    含意
    含意 中立
    含意分類の例

    View full-size slide

  7. NLIモデルでのアノテーション
    ● 発話utに対して含意になるペルソナpiを全て選択
    ● 1つの発話に複数ペルソナが紐づけられることもある

    View full-size slide

  8. Persona Generation (PG) Dataset
    ● 各節とプロフィール文を含意分類により参
    照付け
    ● 1つの発話に複数のプロフィール文が割り
    当てられることも
    ● 発話と参照元のペルソナを紐づけしたデー
    タhttps://github.com/ruinunca/PGTask

    View full-size slide

  9. PGDatasetの質 : 自動評価
    ● 分類の際の最終層のsoftmaxの値を
    集計して可視化
    ● softmaxが大きいほど、モデルの確信
    度が高い
    ● 図から多くのサンプルでモデルがちゃ
    んと識別できているっぽいことが確認で
    きた

    View full-size slide

  10. PGDatasetの質 : 人手評価
    ① ② ③
    ● 3名のアノテータが「発話文からプロ
    フィール文が抽出できるか」検証
    ● 3つの区間から100サンプルずつ検証
    ● softmaxの値が低い区間ほどアノテー
    タの精度も低い相関
    ● モデルが人手と一致することを確認
    ● PGDatasetにはモデルが99%以上の
    確率を出したものを使用

    View full-size slide

  11. Training Procedure
    ● GPT系モデルをPGDatasetで
    Finetuning
    ● 発話文からプロフィール文を予測
    するように学習
    発話 u={wu
    1
    ,...,wu
    m
    }
    プロフィール文 p={wp
    1
    ,...,wp
    k
    }

    View full-size slide

  12. Evaluation
    ● W/O(Without) or W(With)
    ● FinetuningありのGPT-2が一番よい

    View full-size slide

  13. 生成例
    良い例 (reading mysteriesに関連するものを生成 ) 悪い例 (drop high schoolが認識されていない )

    View full-size slide

  14. 所感 : 今欲しいものではない
    ● 有りそうでなかった話
    ● Persona Chatの研究は既に次の段階
    ○ (END) モデルにペルソナが埋め込まれた発話をさせる
    ○ (NEXT) 限られたペルソナからそれっぽい発話を無限にさせる
    (ペルソナを無限に与えるのは煩わしいので )
    ペルソナ(プロフィール)
    ● ラーメンが好き
    ● ニンニクを愛してる
    何か食べに行きませんか?
    ニンニクマシマシラーメン
    とかどうですか?
    何か食べに行きませんか?
    二郎行こう!
    家系行こう!
    天スタ行こう!
    これまで:
    ペルソナが直接
    コピーされた発話
    これから:
    そのペルソナを匂わ
    せる発話

    View full-size slide

  15. 論文のまとめ
    目的
    ● 発話文を用いたプロフィール文生成
    提案
    ● PersonaChatのプロフィール文と発話文をNLIによって自動的に紐づけ
    →生成モデルの学習データ(PGDataset)構築
    ● PGDatasetによるプロフィール生成モデルの学習
    →Twitterのような発話文のみデータにプロフィール文をペアリング可能に
    ペルソナ(プロフィール)
    ● ラーメンが好き
    ● ニンニクを愛してる
    ニンニクアブラヤサイマシマシしか
    勝たん!

    View full-size slide

  16. プロフィール生成モデルと学習データの自動構築
    ● LLMにロールプレイをさせるためのデータ不足
    ● 特にPersona Chat [Zhang 2018]のようなプロフィール文+発話データの不足
    ○ 人手で発話文からプロフィールを作成するのは高コスト
    ○ 発話データからプロフィール文を生成できるようにすればいいのでは?
    ● 生成モデル学習のためのデータの自動構築
    ○ 発話+発話に使われているプロフィール文 のペアが必用
    ■ Persona Chatは発話に使われていないプロフィール文もペアに なっている
    ○ 含意分類を用いて使われているプロフィールのみを選択
    ○ 含意分類器はRobertaをDNLI+MNLIで学習 (Welleckと同様)。ACC91.75%
    ○ Persona Chatを用いて、発話文と使われている
    プロフィール文を紐づけ (PGDataset)
    ○ PGDatasetでプロフィール生成モデル (GPT-2)
    を学習

    View full-size slide

  17. データの質の評価
    ● 自動構築したデータの質が高いか
    2側面で評価
    ● 分類の際の最終層のsoftmaxの値を集計して分析
    自動評価
    ● softmaxが大きいほど、モデルの確信度が高い
    ○ モデルは確信度高めに分類できていることを確認
    人手評価
    ● 3区間それぞれ100サンプルずつ人手で分類を解いてモデルの精度と比較
    ○ softmaxが低い①では人手の精度も低く、③では人手の精度も高い相関を確認
    ○ 自動紐づけが人手と一致していると言えそう
    ○ データセットにはモデルが 99%以上と予測したものだけを使用
    ① ② ③

    View full-size slide

  18. 生成モデルの評価
    ● W/O(Without) or W(With)
    ● FinetuningありのGPT-2が一番よい

    View full-size slide

  19. 所感 : 今欲しいものではない
    ● 有りそうでなかった話
    ● Persona Chatの研究は既に次の段階
    ○ (END) モデルにペルソナが埋め込まれた発話をさせる
    ○ (NEXT) 限られたペルソナからそれっぽい発話を無限にさせる
    (ペルソナを無限に与えるのは煩わしいので )
    ペルソナ(プロフィール)
    ● ラーメンが好き
    ● ニンニクを愛してる
    何か食べに行きませんか?
    ニンニクマシマシラーメン
    とかどうですか?
    何か食べに行きませんか?
    二郎行こう!
    家系行こう!
    天スタ行こう!
    これまで:
    ペルソナが直接
    コピーされた発話
    これから:
    そのペルソナを匂わ
    せる発話

    View full-size slide

  20. DNLIの内訳

    View full-size slide

  21. MNLIの内訳
    各ラベルの内訳は不明

    View full-size slide

  22. 質疑応答
    Q
    ● 発話文に含まれているものの一部をプロフィール文として用いるというものだと理解し
    ました.ただその場合は、発話文をそのままプロフィール文として用いるときとの差分
    があまりないと思ったのですが、その辺りはいかがでしょうか
    A
    ● それな。経験上、Persona Chatに限って言えばルールベースである程度の精度が出
    ると思います。一方でTwitterのような対話データになると、発話のフォーマットが定
    まっていないので生成ベースの方が向いている気がします。

    View full-size slide

  23. 質疑応答
    Q
    ● 学習済みモデルは間違っているものも自信を持ちがちだと思いますが、NLIによる
    自動評価はこの論文ではどれくらい信用できるのでしょうか?
    A
    Accuracyベースで91.75%の精度が出ているので、ある程度信用していいと思います
    (RecallとPrecisionが不明なのが微妙だが)。また、結果ベースですが人手との相関も
    ちゃんと出ているので、ある程度は信用していいとおもいます。

    View full-size slide

  24. 質疑応答
    Q
    ● 基本的なところで恐縮ですが、自動構築したデータセットの品質評価に確度を用いるのは
    適切なのでしょうか
    A
    すいません、僕も知らないです。誰か教えてください。
    一応今回のロジックとしては、「モデルが確度高く予測できている」
    →「データの質が高い」、「モ
    デルと人手に相関があり、人手ではいいと示されている」
    →「モデルで予測したデータもいいので
    は?」だと思います。
    (多分ですが、確度だけだとダメで、人手評価との相関があって始めて確度に信頼性が生まれる
    のかなと思います)

    View full-size slide

  25. 質疑応答
    Q
    ● 自動構築したデータセットって公開されているのでしょうか.
    GPT-2で生成したデータセットが公開できるのか知りたかったです.
    A
    自動構築したデータセット(PGDataset)は公開されています。ただ、PGDatasetは
    PersonaChatを組み換え操作して作ったデータなので、GPT-2で生成したデータではな
    いです。GPT-2で生成したデータセットを公開していいかは知らないです。

    View full-size slide

  26. 質疑応答
    Q
    ● (時間の関係でskipされたと思いますが、)「今欲しいものではない」というスライドについて
    もう少し詳細にご意見をお伺いしたいです!
    A
    今までのペルソナ対話には与えたペルソナ文が直接埋め込まれた発話がされる問題
    (所感の
    ページ左発話)があると考えています。これにより、PersonaChatをベースに構築した
    PGDatasetでは、発話文中のキーワードを使ったプロフィール文しか生成できないのでは?とい
    う懸念があります。今後のペルソナ対話では、ペルソナ文に含まれていないキーワードも含めた
    (匂わせた)発話をしてほしい気持ちがあり、今回のモデルではそれが達成できない恐れがある
    ため「今欲しいものではない」と表現しました。

    View full-size slide