Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SIGDIAL論文読み会: PGTask: Introducing the Task of P...
Search
kai-yo
October 27, 2023
Science
0
190
SIGDIAL論文読み会: PGTask: Introducing the Task of Profile Generation from Dialogues
kai-yo
October 27, 2023
Tweet
Share
More Decks by kai-yo
See All by kai-yo
論文紹介 : Is a Knowledge-based Response Engaging
kaiyo3
1
110
Other Decks in Science
See All in Science
点群ライブラリPDALをGoogleColabにて実行する方法の紹介
kentaitakura
1
200
3次元点群を利用した植物の葉の自動セグメンテーションについて
kentaitakura
2
1.1k
統計学入門講座 第2回スライド
techmathproject
0
100
Cross-Media Information Spaces and Architectures (CISA)
signer
PRO
3
31k
モンテカルロDCF法による事業価値の算出(モンテカルロ法とベイズモデリング) / Business Valuation Using Monte Carlo DCF Method (Monte Carlo Simulation and Bayesian Modeling)
ikuma_w
0
120
局所保存性・相似変換対称性を満たす機械学習モデルによる数値流体力学
yellowshippo
1
230
テンソル分解による糖尿病の組織特異的遺伝子発現の統合解析を用いた関連疾患の予測
tagtag
2
140
学術講演会中央大学学員会いわき支部
tagtag
0
150
Iniciativas independentes de divulgação científica: o caso do Movimento #CiteMulheresNegras
taisso
0
1.4k
04_石井クンツ昌子_お茶の水女子大学理事_副学長_D_I社会実現へ向けて.pdf
sip3ristex
0
330
システム数理と応用分野の未来を切り拓くロードマップ・エンターテインメント(スポーツ)への応用 / Applied mathematics for sports entertainment
konakalab
1
290
CV_3_Keypoints
hachama
0
160
Featured
See All Featured
How to Ace a Technical Interview
jacobian
276
23k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
227
22k
The Invisible Side of Design
smashingmag
299
50k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
137
33k
A Tale of Four Properties
chriscoyier
159
23k
The Cost Of JavaScript in 2023
addyosmani
49
7.8k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
357
30k
GitHub's CSS Performance
jonrohan
1031
460k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
5
570
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
30
2.3k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
45
7.2k
Making the Leap to Tech Lead
cromwellryan
133
9.3k
Transcript
PGTask: Introducing the Task of Profile Generation from Dialogues NAIST
IRD/RIKEN GRP D1 吉田 快 (X: @YoshidaKai2)
自己紹介 所属 • NAIST 吉野研/RIKEN GRP • D1 吉田 快
(X: @YoshidaKai2) 興味 • 主に対話、話者情報を活用した発話生成 宣伝 • NLP新米の会の運営やってます • 気になる人は DM or リプお願いします
論文のまとめ 目的 • 発話文からのプロフィール生成によるプロフィール文+発話のデータ作成 提案 • NLIモデルによるプロフィール文と発話文の紐づけによる自動的な学習データ (PGDataset)構築方法の提案 • PGDatasetによるプロフィール生成モデルの学習
長い
タスクの背景 • 近年LLMにプロフィールに沿ったキャラクターを演じさせることが行われている • Persona Chat [Zhang 2018]のようなプロフィール文+発話データが不足 →発話文から自動生成できると強そう プロフィール
• ラーメンが好き • ニンニクを愛してる 何か食べに行きませんか? 二郎系とかどうですか Persona Chatの対話
タスクの背景 • Persona Chatのデータは1発話+プロフィール文数文のセット ◦ 発話に反映されてないペルソナも存在 ◦ どれが使われているペルソナか参照を取る必要がある • 人手で参照を紐づけするのはコストフル
◦ 含意分類タスクで自動化できるのでは?
Entailment Classification (含意分類)タスク • 2文間の含意関係の有無の2値分類 • WelleckらのDNLIデータから、含意分類モデルを学習 (ここは別に新しくない) ◦ 実装はRoberta
(分類のために最終層に softmax)を用いた3値分類。目新しさはないので割愛 ◦ DNLIのみとDNLI+MNLIで比較 →MNLI+DNLIの方がAccuracyが高い 二郎に行きました ニンニク食べました 太郎と出かけました ニンニク食べました 含意 含意 中立 含意分類の例
NLIモデルでのアノテーション • 発話utに対して含意になるペルソナpiを全て選択 • 1つの発話に複数ペルソナが紐づけられることもある
Persona Generation (PG) Dataset • 各節とプロフィール文を含意分類により参 照付け • 1つの発話に複数のプロフィール文が割り 当てられることも
• 発話と参照元のペルソナを紐づけしたデー タhttps://github.com/ruinunca/PGTask
PGDatasetの質 : 自動評価 • 分類の際の最終層のsoftmaxの値を 集計して可視化 • softmaxが大きいほど、モデルの確信 度が高い •
図から多くのサンプルでモデルがちゃ んと識別できているっぽいことが確認で きた
PGDatasetの質 : 人手評価 ① ② ③ • 3名のアノテータが「発話文からプロ フィール文が抽出できるか」検証 •
3つの区間から100サンプルずつ検証 • softmaxの値が低い区間ほどアノテー タの精度も低い相関 • モデルが人手と一致することを確認 • PGDatasetにはモデルが99%以上の 確率を出したものを使用
Training Procedure • GPT系モデルをPGDatasetで Finetuning • 発話文からプロフィール文を予測 するように学習 発話 u={wu
1 ,...,wu m } プロフィール文 p={wp 1 ,...,wp k }
Evaluation • W/O(Without) or W(With) • FinetuningありのGPT-2が一番よい
生成例 良い例 (reading mysteriesに関連するものを生成 ) 悪い例 (drop high schoolが認識されていない )
所感 : 今欲しいものではない • 有りそうでなかった話 • Persona Chatの研究は既に次の段階 ◦ (END)
モデルにペルソナが埋め込まれた発話をさせる ◦ (NEXT) 限られたペルソナからそれっぽい発話を無限にさせる (ペルソナを無限に与えるのは煩わしいので ) ペルソナ(プロフィール) • ラーメンが好き • ニンニクを愛してる 何か食べに行きませんか? ニンニクマシマシラーメン とかどうですか? 何か食べに行きませんか? 二郎行こう! 家系行こう! 天スタ行こう! これまで: ペルソナが直接 コピーされた発話 これから: そのペルソナを匂わ せる発話
短い
論文のまとめ 目的 • 発話文を用いたプロフィール文生成 提案 • PersonaChatのプロフィール文と発話文をNLIによって自動的に紐づけ →生成モデルの学習データ(PGDataset)構築 • PGDatasetによるプロフィール生成モデルの学習
→Twitterのような発話文のみデータにプロフィール文をペアリング可能に ペルソナ(プロフィール) • ラーメンが好き • ニンニクを愛してる ニンニクアブラヤサイマシマシしか 勝たん!
プロフィール生成モデルと学習データの自動構築 • LLMにロールプレイをさせるためのデータ不足 • 特にPersona Chat [Zhang 2018]のようなプロフィール文+発話データの不足 ◦ 人手で発話文からプロフィールを作成するのは高コスト
◦ 発話データからプロフィール文を生成できるようにすればいいのでは? • 生成モデル学習のためのデータの自動構築 ◦ 発話+発話に使われているプロフィール文 のペアが必用 ▪ Persona Chatは発話に使われていないプロフィール文もペアに なっている ◦ 含意分類を用いて使われているプロフィールのみを選択 ◦ 含意分類器はRobertaをDNLI+MNLIで学習 (Welleckと同様)。ACC91.75% ◦ Persona Chatを用いて、発話文と使われている プロフィール文を紐づけ (PGDataset) ◦ PGDatasetでプロフィール生成モデル (GPT-2) を学習
データの質の評価 • 自動構築したデータの質が高いか 2側面で評価 • 分類の際の最終層のsoftmaxの値を集計して分析 自動評価 • softmaxが大きいほど、モデルの確信度が高い ◦
モデルは確信度高めに分類できていることを確認 人手評価 • 3区間それぞれ100サンプルずつ人手で分類を解いてモデルの精度と比較 ◦ softmaxが低い①では人手の精度も低く、③では人手の精度も高い相関を確認 ◦ 自動紐づけが人手と一致していると言えそう ◦ データセットにはモデルが 99%以上と予測したものだけを使用 ① ② ③
生成モデルの評価 • W/O(Without) or W(With) • FinetuningありのGPT-2が一番よい
所感 : 今欲しいものではない • 有りそうでなかった話 • Persona Chatの研究は既に次の段階 ◦ (END)
モデルにペルソナが埋め込まれた発話をさせる ◦ (NEXT) 限られたペルソナからそれっぽい発話を無限にさせる (ペルソナを無限に与えるのは煩わしいので ) ペルソナ(プロフィール) • ラーメンが好き • ニンニクを愛してる 何か食べに行きませんか? ニンニクマシマシラーメン とかどうですか? 何か食べに行きませんか? 二郎行こう! 家系行こう! 天スタ行こう! これまで: ペルソナが直接 コピーされた発話 これから: そのペルソナを匂わ せる発話
付録
DNLIの内訳
MNLIの内訳 各ラベルの内訳は不明
質疑応答 Q • 発話文に含まれているものの一部をプロフィール文として用いるというものだと理解し ました.ただその場合は、発話文をそのままプロフィール文として用いるときとの差分 があまりないと思ったのですが、その辺りはいかがでしょうか A • それな。経験上、Persona Chatに限って言えばルールベースである程度の精度が出
ると思います。一方でTwitterのような対話データになると、発話のフォーマットが定 まっていないので生成ベースの方が向いている気がします。
質疑応答 Q • 学習済みモデルは間違っているものも自信を持ちがちだと思いますが、NLIによる 自動評価はこの論文ではどれくらい信用できるのでしょうか? A Accuracyベースで91.75%の精度が出ているので、ある程度信用していいと思います (RecallとPrecisionが不明なのが微妙だが)。また、結果ベースですが人手との相関も ちゃんと出ているので、ある程度は信用していいとおもいます。
質疑応答 Q • 基本的なところで恐縮ですが、自動構築したデータセットの品質評価に確度を用いるのは 適切なのでしょうか A すいません、僕も知らないです。誰か教えてください。 一応今回のロジックとしては、「モデルが確度高く予測できている」 →「データの質が高い」、「モ デルと人手に相関があり、人手ではいいと示されている」
→「モデルで予測したデータもいいので は?」だと思います。 (多分ですが、確度だけだとダメで、人手評価との相関があって始めて確度に信頼性が生まれる のかなと思います)
質疑応答 Q • 自動構築したデータセットって公開されているのでしょうか. GPT-2で生成したデータセットが公開できるのか知りたかったです. A 自動構築したデータセット(PGDataset)は公開されています。ただ、PGDatasetは PersonaChatを組み換え操作して作ったデータなので、GPT-2で生成したデータではな いです。GPT-2で生成したデータセットを公開していいかは知らないです。
質疑応答 Q • (時間の関係でskipされたと思いますが、)「今欲しいものではない」というスライドについて もう少し詳細にご意見をお伺いしたいです! A 今までのペルソナ対話には与えたペルソナ文が直接埋め込まれた発話がされる問題 (所感の ページ左発話)があると考えています。これにより、PersonaChatをベースに構築した PGDatasetでは、発話文中のキーワードを使ったプロフィール文しか生成できないのでは?とい
う懸念があります。今後のペルソナ対話では、ペルソナ文に含まれていないキーワードも含めた (匂わせた)発話をしてほしい気持ちがあり、今回のモデルではそれが達成できない恐れがある ため「今欲しいものではない」と表現しました。