Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SIGDIAL論文読み会: PGTask: Introducing the Task of P...
Search
kai-yo
October 27, 2023
Science
0
200
SIGDIAL論文読み会: PGTask: Introducing the Task of Profile Generation from Dialogues
kai-yo
October 27, 2023
Tweet
Share
More Decks by kai-yo
See All by kai-yo
論文紹介 : Is a Knowledge-based Response Engaging
kaiyo3
1
110
Other Decks in Science
See All in Science
【論文紹介】Is CLIP ideal? No. Can we fix it?Yes! 第65回 コンピュータビジョン勉強会@関東
shun6211
5
2.1k
論文紹介 音源分離:SCNET SPARSE COMPRESSION NETWORK FOR MUSIC SOURCE SEPARATION
kenmatsu4
0
450
デジタルアーカイブの教育利用促進を目指したメタデータLOD基盤に関する研究 / Research on a Metadata LOD Platform for Promoting Educational Uses of Digital Archives
masao
0
130
データベース10: 拡張実体関連モデル
trycycle
PRO
0
1k
NDCG is NOT All I Need
statditto
2
2.6k
コンピュータビジョンによるロボットの視覚と判断:宇宙空間での適応と課題
hf149
1
470
データマイニング - グラフ埋め込み入門
trycycle
PRO
1
130
知能とはなにかーヒトとAIのあいだー
tagtag
0
120
防災デジタル分野での官民共創の取り組み (1)防災DX官民共創をどう進めるか
ditccsugii
0
430
People who frequently use ChatGPT for writing tasks are accurate and robust detectors of AI-generated text
rudorudo11
0
170
My Little Monster
juzishuu
0
320
ランサムウェア対策にも考慮したVMware、Hyper-V、Azure、AWS間のリアルタイムレプリケーション「Zerto」を徹底解説
climbteam
0
180
Featured
See All Featured
Measuring Dark Social's Impact On Conversion and Attribution
stephenakadiri
0
87
Chasing Engaging Ingredients in Design
codingconduct
0
74
How to Think Like a Performance Engineer
csswizardry
28
2.4k
How to build a perfect <img>
jonoalderson
0
4.6k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.6k
How to audit for AI Accessibility on your Front & Back End
davetheseo
0
120
AI Search: Implications for SEO and How to Move Forward - #ShenzhenSEOConference
aleyda
1
1k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
249
1.3M
Believing is Seeing
oripsolob
0
9
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1k
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
0
66
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.2k
Transcript
PGTask: Introducing the Task of Profile Generation from Dialogues NAIST
IRD/RIKEN GRP D1 吉田 快 (X: @YoshidaKai2)
自己紹介 所属 • NAIST 吉野研/RIKEN GRP • D1 吉田 快
(X: @YoshidaKai2) 興味 • 主に対話、話者情報を活用した発話生成 宣伝 • NLP新米の会の運営やってます • 気になる人は DM or リプお願いします
論文のまとめ 目的 • 発話文からのプロフィール生成によるプロフィール文+発話のデータ作成 提案 • NLIモデルによるプロフィール文と発話文の紐づけによる自動的な学習データ (PGDataset)構築方法の提案 • PGDatasetによるプロフィール生成モデルの学習
長い
タスクの背景 • 近年LLMにプロフィールに沿ったキャラクターを演じさせることが行われている • Persona Chat [Zhang 2018]のようなプロフィール文+発話データが不足 →発話文から自動生成できると強そう プロフィール
• ラーメンが好き • ニンニクを愛してる 何か食べに行きませんか? 二郎系とかどうですか Persona Chatの対話
タスクの背景 • Persona Chatのデータは1発話+プロフィール文数文のセット ◦ 発話に反映されてないペルソナも存在 ◦ どれが使われているペルソナか参照を取る必要がある • 人手で参照を紐づけするのはコストフル
◦ 含意分類タスクで自動化できるのでは?
Entailment Classification (含意分類)タスク • 2文間の含意関係の有無の2値分類 • WelleckらのDNLIデータから、含意分類モデルを学習 (ここは別に新しくない) ◦ 実装はRoberta
(分類のために最終層に softmax)を用いた3値分類。目新しさはないので割愛 ◦ DNLIのみとDNLI+MNLIで比較 →MNLI+DNLIの方がAccuracyが高い 二郎に行きました ニンニク食べました 太郎と出かけました ニンニク食べました 含意 含意 中立 含意分類の例
NLIモデルでのアノテーション • 発話utに対して含意になるペルソナpiを全て選択 • 1つの発話に複数ペルソナが紐づけられることもある
Persona Generation (PG) Dataset • 各節とプロフィール文を含意分類により参 照付け • 1つの発話に複数のプロフィール文が割り 当てられることも
• 発話と参照元のペルソナを紐づけしたデー タhttps://github.com/ruinunca/PGTask
PGDatasetの質 : 自動評価 • 分類の際の最終層のsoftmaxの値を 集計して可視化 • softmaxが大きいほど、モデルの確信 度が高い •
図から多くのサンプルでモデルがちゃ んと識別できているっぽいことが確認で きた
PGDatasetの質 : 人手評価 ① ② ③ • 3名のアノテータが「発話文からプロ フィール文が抽出できるか」検証 •
3つの区間から100サンプルずつ検証 • softmaxの値が低い区間ほどアノテー タの精度も低い相関 • モデルが人手と一致することを確認 • PGDatasetにはモデルが99%以上の 確率を出したものを使用
Training Procedure • GPT系モデルをPGDatasetで Finetuning • 発話文からプロフィール文を予測 するように学習 発話 u={wu
1 ,...,wu m } プロフィール文 p={wp 1 ,...,wp k }
Evaluation • W/O(Without) or W(With) • FinetuningありのGPT-2が一番よい
生成例 良い例 (reading mysteriesに関連するものを生成 ) 悪い例 (drop high schoolが認識されていない )
所感 : 今欲しいものではない • 有りそうでなかった話 • Persona Chatの研究は既に次の段階 ◦ (END)
モデルにペルソナが埋め込まれた発話をさせる ◦ (NEXT) 限られたペルソナからそれっぽい発話を無限にさせる (ペルソナを無限に与えるのは煩わしいので ) ペルソナ(プロフィール) • ラーメンが好き • ニンニクを愛してる 何か食べに行きませんか? ニンニクマシマシラーメン とかどうですか? 何か食べに行きませんか? 二郎行こう! 家系行こう! 天スタ行こう! これまで: ペルソナが直接 コピーされた発話 これから: そのペルソナを匂わ せる発話
短い
論文のまとめ 目的 • 発話文を用いたプロフィール文生成 提案 • PersonaChatのプロフィール文と発話文をNLIによって自動的に紐づけ →生成モデルの学習データ(PGDataset)構築 • PGDatasetによるプロフィール生成モデルの学習
→Twitterのような発話文のみデータにプロフィール文をペアリング可能に ペルソナ(プロフィール) • ラーメンが好き • ニンニクを愛してる ニンニクアブラヤサイマシマシしか 勝たん!
プロフィール生成モデルと学習データの自動構築 • LLMにロールプレイをさせるためのデータ不足 • 特にPersona Chat [Zhang 2018]のようなプロフィール文+発話データの不足 ◦ 人手で発話文からプロフィールを作成するのは高コスト
◦ 発話データからプロフィール文を生成できるようにすればいいのでは? • 生成モデル学習のためのデータの自動構築 ◦ 発話+発話に使われているプロフィール文 のペアが必用 ▪ Persona Chatは発話に使われていないプロフィール文もペアに なっている ◦ 含意分類を用いて使われているプロフィールのみを選択 ◦ 含意分類器はRobertaをDNLI+MNLIで学習 (Welleckと同様)。ACC91.75% ◦ Persona Chatを用いて、発話文と使われている プロフィール文を紐づけ (PGDataset) ◦ PGDatasetでプロフィール生成モデル (GPT-2) を学習
データの質の評価 • 自動構築したデータの質が高いか 2側面で評価 • 分類の際の最終層のsoftmaxの値を集計して分析 自動評価 • softmaxが大きいほど、モデルの確信度が高い ◦
モデルは確信度高めに分類できていることを確認 人手評価 • 3区間それぞれ100サンプルずつ人手で分類を解いてモデルの精度と比較 ◦ softmaxが低い①では人手の精度も低く、③では人手の精度も高い相関を確認 ◦ 自動紐づけが人手と一致していると言えそう ◦ データセットにはモデルが 99%以上と予測したものだけを使用 ① ② ③
生成モデルの評価 • W/O(Without) or W(With) • FinetuningありのGPT-2が一番よい
所感 : 今欲しいものではない • 有りそうでなかった話 • Persona Chatの研究は既に次の段階 ◦ (END)
モデルにペルソナが埋め込まれた発話をさせる ◦ (NEXT) 限られたペルソナからそれっぽい発話を無限にさせる (ペルソナを無限に与えるのは煩わしいので ) ペルソナ(プロフィール) • ラーメンが好き • ニンニクを愛してる 何か食べに行きませんか? ニンニクマシマシラーメン とかどうですか? 何か食べに行きませんか? 二郎行こう! 家系行こう! 天スタ行こう! これまで: ペルソナが直接 コピーされた発話 これから: そのペルソナを匂わ せる発話
付録
DNLIの内訳
MNLIの内訳 各ラベルの内訳は不明
質疑応答 Q • 発話文に含まれているものの一部をプロフィール文として用いるというものだと理解し ました.ただその場合は、発話文をそのままプロフィール文として用いるときとの差分 があまりないと思ったのですが、その辺りはいかがでしょうか A • それな。経験上、Persona Chatに限って言えばルールベースである程度の精度が出
ると思います。一方でTwitterのような対話データになると、発話のフォーマットが定 まっていないので生成ベースの方が向いている気がします。
質疑応答 Q • 学習済みモデルは間違っているものも自信を持ちがちだと思いますが、NLIによる 自動評価はこの論文ではどれくらい信用できるのでしょうか? A Accuracyベースで91.75%の精度が出ているので、ある程度信用していいと思います (RecallとPrecisionが不明なのが微妙だが)。また、結果ベースですが人手との相関も ちゃんと出ているので、ある程度は信用していいとおもいます。
質疑応答 Q • 基本的なところで恐縮ですが、自動構築したデータセットの品質評価に確度を用いるのは 適切なのでしょうか A すいません、僕も知らないです。誰か教えてください。 一応今回のロジックとしては、「モデルが確度高く予測できている」 →「データの質が高い」、「モ デルと人手に相関があり、人手ではいいと示されている」
→「モデルで予測したデータもいいので は?」だと思います。 (多分ですが、確度だけだとダメで、人手評価との相関があって始めて確度に信頼性が生まれる のかなと思います)
質疑応答 Q • 自動構築したデータセットって公開されているのでしょうか. GPT-2で生成したデータセットが公開できるのか知りたかったです. A 自動構築したデータセット(PGDataset)は公開されています。ただ、PGDatasetは PersonaChatを組み換え操作して作ったデータなので、GPT-2で生成したデータではな いです。GPT-2で生成したデータセットを公開していいかは知らないです。
質疑応答 Q • (時間の関係でskipされたと思いますが、)「今欲しいものではない」というスライドについて もう少し詳細にご意見をお伺いしたいです! A 今までのペルソナ対話には与えたペルソナ文が直接埋め込まれた発話がされる問題 (所感の ページ左発話)があると考えています。これにより、PersonaChatをベースに構築した PGDatasetでは、発話文中のキーワードを使ったプロフィール文しか生成できないのでは?とい
う懸念があります。今後のペルソナ対話では、ペルソナ文に含まれていないキーワードも含めた (匂わせた)発話をしてほしい気持ちがあり、今回のモデルではそれが達成できない恐れがある ため「今欲しいものではない」と表現しました。