Generative Spoken Dialogue Language Modeling [対話論文読み会@電通大]

Slide 1

Slide 1 text

1 Generative Spoken Dialogue Language Modeling @TACLʼ23 佐々⽊裕多東京⼯業⼤学 M1 Tu Anh Nguyen et al. from Meta AI Research 🔗https://aclanthology.org/2023.tacl-1.15/ https://github.com/facebookresearch/fairseq/tree/main/examples/textless_nlp/dgslm 🗣https://speechbot.github.io/dgslm

Slide 2

Slide 2 text

2 概要 Ø ⾳声⼊⼒から⾳声⽣成を⾏う`textless`対話モデル dGSLMを提案 Ø Cross-attentionを採⽤した Dual-tower Transformerアーキテクチャ Ø テキストやその他ラベルを⽤いずに2000h⽣⾳声で学習 Ø 笑いや相槌のような⾮⾔語な語彙を⽣成 Ø ポーズやオーバラップのようなターンテイキングの⽣成が可能 Ø 分布も評価データセットと⾼い相関 Ø テキストベースの対話モデルと⽐べ、発話内容には課題あり

Slide 3

Slide 3 text

3 対話システムの現状 Ø 会話は流れるようなターンの連続 ❌ 多すぎるオーバラップ ❌ ⻑い沈黙 Ø オーバラップや沈黙は起きるが、重要な情報を伝える Ø Content-neutralな⾔語情報 Ø E.g., “hmm”, “yeah” Ø ⾮⾔語な語彙 Ø E.g., 笑い Ø 聞き⼿の態度 Ø E.g., 相槌テキストベースのインターフェースでの対話研究が多いため、ターンテイキングの調整に難しさ

Slide 4

Slide 4 text

4 本研究の⽴ち位置 Ø テキストやASRを介さず、⽣⾳声から⾳声対話モデルを学習する実現可能性を検証 Ø ASRを通すとユーザからの⼊⼒を待つ必要性 Ø ⾃⼰教師あり学習やtextlessな⾳声処理が発展中 Ø 対話モデルを⾮⾔語的な特徴でも評価 Ø 提案モデルdGSLMが、会話の表⾯上の特徴であるターンテイキングや相槌を⾼精度で模倣できていることを⽰す Ø テキストベースのカスケードな対話モデルのような意味的な情報を明⽰的には学習しないが…

Slide 5

Slide 5 text

5 提案⼿法 2. Dialogue Transformer Language Modeling (DLM) Dual-tower Transformerで2チャンネル⼊出⼒ 1. Discrete Phonetic Representation HuBERT + kmeansで⽣⾳声から⾳韻表現を抽出 3. Waveform Generation ⼩データでも⾼品質な⾳声合成が可能な離散的unit-baseのHiFi-GANボコーダ

Slide 6

Slide 6 text

6 1. Discrete Phonetic Representation HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units Ø 会話には “hmm”のようなカジュアル表現や笑いのような⾮⾔語⾳声含まれる Ø ドメインに適切な⾳韻表現を獲得するため HuBERTを採⽤ Ø HuBERTの出⼒をkmeansでクラスタリング Ø 離散的な⾳韻unitを獲得 Ø 最終的な離散的⾳韻unitのコードブックは500 Ø 様々な⾳韻クラスをモデル化 ※HuBERTの⾃⼰教師あり学習は⾯⽩いので興味があれば論⽂を参照してください

Slide 7

Slide 7 text

7 2. Dialogue Transformer Language Modeling DLMアーキテクチャ DLM学習/推論

Slide 8

Slide 8 text

8 2. Dialogue Transformer Language Modeling DLMアーキテクチャ Ø Dual-tower Transformerアーキテクチャ Ø 2チャンネルにそれぞれの発話者の⾳声が⼊⼒ Ø 2つのTransformerは重みを共有 Ø 話者から独⽴したモデルを学習 Ø 6層8アテンションヘッド埋め込みサイズは512 Ø Channel-wiseなcross-attention Ø それぞれのチャンネルの情報を取り込む Ø 上位4層のみ

Slide 9

Slide 9 text

9 2. Dialogue Transformer Language Modeling DLM学習/推論 1. Edge Unit Prediction 2. Delayed Duration Prediction 2つのObjective

Slide 10

Slide 10 text

10 2. Dialogue Transformer Language Modeling DLM学習/推論 1. Edge Unit Prediction Unit予測と連続する時間を同時に学習するのは困難で、性能悪化の要因に → Unitが前時刻から変わる時だけ学習対象前時刻と異なるunitを対象に Cross-entropy 2チャンネル（話者） 𝑢! : t時刻のunit 𝑐 : 話者（チャンネル）

Slide 11

Slide 11 text

11 2. Dialogue Transformer Language Modeling DLM学習/推論 2. Delayed Duration Prediction 同⼀unitが連続する時間を予測前時刻と異なるunitを対象に L1 loss (MAE) 2チャンネル（話者） 𝑑! : t時刻unitの予測duration

Slide 12

Slide 12 text

12 2. Dialogue Transformer Language Modeling DLM学習/推論 Training Objective

Slide 13

Slide 13 text

13 3. Waveform Generation Ø HuBERTから得られるunitと1-hotの話者情報を⼊⼒ HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis ここの入力がオリジナルと異なる

Slide 14

Slide 14 text

14 評価〜Training Metrics〜 Ø Cross-attention Ø Edge Unit予測性能は微改善 Ø Edge Unit Prediction Ø Edge Unit予測性能が⼤幅改善 Ø Edge Duration Prediction Ø Edge Unit予測性能も改善 Ø Delayed factorを導⼊ @Edge Duration Prediction Ø ベストモデルベースライン： Multi Stream Transformer データセット： Fisher（2000h英語の電話対話音声）

Slide 15

Slide 15 text

15 ターンテイキングの評価軸連続した発話発話内の沈黙発話の被せ発話間の沈黙

Slide 16

Slide 16 text

16 評価〜ターンテイキング〜 DLM-1は IPU以外長い DLM-2はオーバーラップ短めポーズ/ギャップ長め DLM-3-5はオーバーラップ長めポーズ/ギャップ短め

Slide 17

Slide 17 text

17 評価〜ターンテイキング〜最初30sと以降90sの相関開始プロンプトと生成音声のターンテイキングイベント発生時間の相関似ている

Slide 18

Slide 18 text

18 評価〜対話イベント〜 Ø WPM (Words per minute) Ø LPM (Laughs per minute) Ø FWR (Filler per minute) Ø DLM-3-5 Ø 笑いやフィラーのような⾃然なイベントに寄与 Ø ⾔葉が多いカスケード：ASR (wav2vec2-large)→DialoGPT→Google TTS API

Slide 19

Slide 19 text

19 評価〜Semantic Evaluation〜 Ø Conditional generation Ø 10sのプロンプトに対する⽣成 Ø TextlessモデルのPPL⾼すぎ Ø 意味的に⼀貫性のある⾳声⽣成に失敗 Ø カスケードモデル Ø ワード/サブワードレベルで学習しているため、良いPPLを達成生成音声ASRに対するDialoGPTのperplexity @t1 := デフォルトの温度パラメータ1.0 @GT := Ground truthのVERTと同等の温度パラメータ(次項参照)

Slide 20

Slide 20 text

20 評価〜Semantic Evaluation〜温度パラメータ [0.3, 2.0]に対するDialoGPTのPPLの摂動

Slide 21

Slide 21 text

21 評価〜⼈⼿評価〜 Ø DLM-1はスコアが低い Ø DLM-5はスコア⾼いが、カスケードやGTと⽐べると M-MOSが低い Ø ⾃然なターンテイキングは真似できているが… Ø 意義のある内容の⽣成には失敗 Ø データセットが⼩さいから︖ 👑 😨 N-MOS: Naturalness M-MOS: Meaningfulness

Slide 22

Slide 22 text

22 まとめ Ø ⾳声⼊⼒から⾳声⽣成を⾏う`textless`対話モデル dGSLMを提案 Ø Cross-attentionを採⽤した Dual-tower Transformerアーキテクチャ Ø テキストやその他ラベルを⽤いずに2000h⽣⾳声で学習 Ø 笑いや相槌のような⾮⾔語な語彙を⽣成 Ø ポーズやオーバラップのようなターンテイキングの⽣成が可能 Ø 分布も評価データセットと⾼い相関 Ø テキストベースの対話モデルと⽐べ、発話内容には課題あり