Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SIGDIAL論文読み会: PGTask: Introducing the Task of P...
Search
kai-yo
October 27, 2023
Science
0
150
SIGDIAL論文読み会: PGTask: Introducing the Task of Profile Generation from Dialogues
kai-yo
October 27, 2023
Tweet
Share
More Decks by kai-yo
See All by kai-yo
論文紹介 : Is a Knowledge-based Response Engaging
kaiyo3
1
92
Other Decks in Science
See All in Science
20240420 Global Azure 2024 | Azure Migrate でデータセンターのサーバーを評価&移行してみる
olivia_0707
2
900
The thin line between reconstruction, classification, and hallucination in brain decoding
ykamit
1
950
Snowflake上でRを使う: RStudioセットアップとShinyアプリケーションのデプロイ
ktatsuya
0
420
はじめてのバックドア基準:あるいは、重回帰分析の偏回帰係数を因果効果の推定値として解釈してよいのか問題
takehikoihayashi
2
740
AI科学の何が“哲学”の問題になるのか ~問いマッピングの試み~
rmaruy
1
2.3k
JSol'Ex : traitement d'images solaires en Java
melix
0
110
創薬における機械学習技術について
kanojikajino
13
4.4k
MoveItを使った産業用ロボット向け動作作成方法の紹介 / Introduction to creating motion for industrial robots using MoveIt
ry0_ka
0
160
位相的データ解析とその応用例
brainpadpr
1
620
作業領域内の障害物を回避可能なバイナリマニピュレータの設計 / Design of binary manipulator avoiding obstacles in workspace
konakalab
0
160
Iniciativas independentes de divulgação científica: o caso do Movimento #CiteMulheresNegras
taisso
0
240
Pericarditis Comic
camkdraws
0
1.2k
Featured
See All Featured
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
44
2.2k
What's new in Ruby 2.0
geeforr
343
31k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.3k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
8
900
Designing Dashboards & Data Visualisations in Web Apps
destraynor
229
52k
Facilitating Awesome Meetings
lara
50
6.1k
5 minutes of I Can Smell Your CMS
philhawksworth
202
19k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
Optimising Largest Contentful Paint
csswizardry
33
2.9k
How To Stay Up To Date on Web Technology
chriscoyier
788
250k
How to Ace a Technical Interview
jacobian
276
23k
Producing Creativity
orderedlist
PRO
341
39k
Transcript
PGTask: Introducing the Task of Profile Generation from Dialogues NAIST
IRD/RIKEN GRP D1 吉田 快 (X: @YoshidaKai2)
自己紹介 所属 • NAIST 吉野研/RIKEN GRP • D1 吉田 快
(X: @YoshidaKai2) 興味 • 主に対話、話者情報を活用した発話生成 宣伝 • NLP新米の会の運営やってます • 気になる人は DM or リプお願いします
論文のまとめ 目的 • 発話文からのプロフィール生成によるプロフィール文+発話のデータ作成 提案 • NLIモデルによるプロフィール文と発話文の紐づけによる自動的な学習データ (PGDataset)構築方法の提案 • PGDatasetによるプロフィール生成モデルの学習
長い
タスクの背景 • 近年LLMにプロフィールに沿ったキャラクターを演じさせることが行われている • Persona Chat [Zhang 2018]のようなプロフィール文+発話データが不足 →発話文から自動生成できると強そう プロフィール
• ラーメンが好き • ニンニクを愛してる 何か食べに行きませんか? 二郎系とかどうですか Persona Chatの対話
タスクの背景 • Persona Chatのデータは1発話+プロフィール文数文のセット ◦ 発話に反映されてないペルソナも存在 ◦ どれが使われているペルソナか参照を取る必要がある • 人手で参照を紐づけするのはコストフル
◦ 含意分類タスクで自動化できるのでは?
Entailment Classification (含意分類)タスク • 2文間の含意関係の有無の2値分類 • WelleckらのDNLIデータから、含意分類モデルを学習 (ここは別に新しくない) ◦ 実装はRoberta
(分類のために最終層に softmax)を用いた3値分類。目新しさはないので割愛 ◦ DNLIのみとDNLI+MNLIで比較 →MNLI+DNLIの方がAccuracyが高い 二郎に行きました ニンニク食べました 太郎と出かけました ニンニク食べました 含意 含意 中立 含意分類の例
NLIモデルでのアノテーション • 発話utに対して含意になるペルソナpiを全て選択 • 1つの発話に複数ペルソナが紐づけられることもある
Persona Generation (PG) Dataset • 各節とプロフィール文を含意分類により参 照付け • 1つの発話に複数のプロフィール文が割り 当てられることも
• 発話と参照元のペルソナを紐づけしたデー タhttps://github.com/ruinunca/PGTask
PGDatasetの質 : 自動評価 • 分類の際の最終層のsoftmaxの値を 集計して可視化 • softmaxが大きいほど、モデルの確信 度が高い •
図から多くのサンプルでモデルがちゃ んと識別できているっぽいことが確認で きた
PGDatasetの質 : 人手評価 ① ② ③ • 3名のアノテータが「発話文からプロ フィール文が抽出できるか」検証 •
3つの区間から100サンプルずつ検証 • softmaxの値が低い区間ほどアノテー タの精度も低い相関 • モデルが人手と一致することを確認 • PGDatasetにはモデルが99%以上の 確率を出したものを使用
Training Procedure • GPT系モデルをPGDatasetで Finetuning • 発話文からプロフィール文を予測 するように学習 発話 u={wu
1 ,...,wu m } プロフィール文 p={wp 1 ,...,wp k }
Evaluation • W/O(Without) or W(With) • FinetuningありのGPT-2が一番よい
生成例 良い例 (reading mysteriesに関連するものを生成 ) 悪い例 (drop high schoolが認識されていない )
所感 : 今欲しいものではない • 有りそうでなかった話 • Persona Chatの研究は既に次の段階 ◦ (END)
モデルにペルソナが埋め込まれた発話をさせる ◦ (NEXT) 限られたペルソナからそれっぽい発話を無限にさせる (ペルソナを無限に与えるのは煩わしいので ) ペルソナ(プロフィール) • ラーメンが好き • ニンニクを愛してる 何か食べに行きませんか? ニンニクマシマシラーメン とかどうですか? 何か食べに行きませんか? 二郎行こう! 家系行こう! 天スタ行こう! これまで: ペルソナが直接 コピーされた発話 これから: そのペルソナを匂わ せる発話
短い
論文のまとめ 目的 • 発話文を用いたプロフィール文生成 提案 • PersonaChatのプロフィール文と発話文をNLIによって自動的に紐づけ →生成モデルの学習データ(PGDataset)構築 • PGDatasetによるプロフィール生成モデルの学習
→Twitterのような発話文のみデータにプロフィール文をペアリング可能に ペルソナ(プロフィール) • ラーメンが好き • ニンニクを愛してる ニンニクアブラヤサイマシマシしか 勝たん!
プロフィール生成モデルと学習データの自動構築 • LLMにロールプレイをさせるためのデータ不足 • 特にPersona Chat [Zhang 2018]のようなプロフィール文+発話データの不足 ◦ 人手で発話文からプロフィールを作成するのは高コスト
◦ 発話データからプロフィール文を生成できるようにすればいいのでは? • 生成モデル学習のためのデータの自動構築 ◦ 発話+発話に使われているプロフィール文 のペアが必用 ▪ Persona Chatは発話に使われていないプロフィール文もペアに なっている ◦ 含意分類を用いて使われているプロフィールのみを選択 ◦ 含意分類器はRobertaをDNLI+MNLIで学習 (Welleckと同様)。ACC91.75% ◦ Persona Chatを用いて、発話文と使われている プロフィール文を紐づけ (PGDataset) ◦ PGDatasetでプロフィール生成モデル (GPT-2) を学習
データの質の評価 • 自動構築したデータの質が高いか 2側面で評価 • 分類の際の最終層のsoftmaxの値を集計して分析 自動評価 • softmaxが大きいほど、モデルの確信度が高い ◦
モデルは確信度高めに分類できていることを確認 人手評価 • 3区間それぞれ100サンプルずつ人手で分類を解いてモデルの精度と比較 ◦ softmaxが低い①では人手の精度も低く、③では人手の精度も高い相関を確認 ◦ 自動紐づけが人手と一致していると言えそう ◦ データセットにはモデルが 99%以上と予測したものだけを使用 ① ② ③
生成モデルの評価 • W/O(Without) or W(With) • FinetuningありのGPT-2が一番よい
所感 : 今欲しいものではない • 有りそうでなかった話 • Persona Chatの研究は既に次の段階 ◦ (END)
モデルにペルソナが埋め込まれた発話をさせる ◦ (NEXT) 限られたペルソナからそれっぽい発話を無限にさせる (ペルソナを無限に与えるのは煩わしいので ) ペルソナ(プロフィール) • ラーメンが好き • ニンニクを愛してる 何か食べに行きませんか? ニンニクマシマシラーメン とかどうですか? 何か食べに行きませんか? 二郎行こう! 家系行こう! 天スタ行こう! これまで: ペルソナが直接 コピーされた発話 これから: そのペルソナを匂わ せる発話
付録
DNLIの内訳
MNLIの内訳 各ラベルの内訳は不明
質疑応答 Q • 発話文に含まれているものの一部をプロフィール文として用いるというものだと理解し ました.ただその場合は、発話文をそのままプロフィール文として用いるときとの差分 があまりないと思ったのですが、その辺りはいかがでしょうか A • それな。経験上、Persona Chatに限って言えばルールベースである程度の精度が出
ると思います。一方でTwitterのような対話データになると、発話のフォーマットが定 まっていないので生成ベースの方が向いている気がします。
質疑応答 Q • 学習済みモデルは間違っているものも自信を持ちがちだと思いますが、NLIによる 自動評価はこの論文ではどれくらい信用できるのでしょうか? A Accuracyベースで91.75%の精度が出ているので、ある程度信用していいと思います (RecallとPrecisionが不明なのが微妙だが)。また、結果ベースですが人手との相関も ちゃんと出ているので、ある程度は信用していいとおもいます。
質疑応答 Q • 基本的なところで恐縮ですが、自動構築したデータセットの品質評価に確度を用いるのは 適切なのでしょうか A すいません、僕も知らないです。誰か教えてください。 一応今回のロジックとしては、「モデルが確度高く予測できている」 →「データの質が高い」、「モ デルと人手に相関があり、人手ではいいと示されている」
→「モデルで予測したデータもいいので は?」だと思います。 (多分ですが、確度だけだとダメで、人手評価との相関があって始めて確度に信頼性が生まれる のかなと思います)
質疑応答 Q • 自動構築したデータセットって公開されているのでしょうか. GPT-2で生成したデータセットが公開できるのか知りたかったです. A 自動構築したデータセット(PGDataset)は公開されています。ただ、PGDatasetは PersonaChatを組み換え操作して作ったデータなので、GPT-2で生成したデータではな いです。GPT-2で生成したデータセットを公開していいかは知らないです。
質疑応答 Q • (時間の関係でskipされたと思いますが、)「今欲しいものではない」というスライドについて もう少し詳細にご意見をお伺いしたいです! A 今までのペルソナ対話には与えたペルソナ文が直接埋め込まれた発話がされる問題 (所感の ページ左発話)があると考えています。これにより、PersonaChatをベースに構築した PGDatasetでは、発話文中のキーワードを使ったプロフィール文しか生成できないのでは?とい
う懸念があります。今後のペルソナ対話では、ペルソナ文に含まれていないキーワードも含めた (匂わせた)発話をしてほしい気持ちがあり、今回のモデルではそれが達成できない恐れがある ため「今欲しいものではない」と表現しました。