Slide 4
Slide 4 text
5
© rinna Co.,Ltd. All rights reserved.
既存手法
⚫
TTSベースの音声対話生成
◆
1発話ずつ、各々の声でTTS
◆
聞き手の発話(相槌・笑い)や重複を含まない
⚫
言語モデルベースの音声対話生成
◆
Dialogue Generative Spoken Language Modeling (dGSLM) [Nguyen+, 2023]
◆
HuBERT [Hsu+, 2021] 特徴量をk-meansクラスタリングしトークン化 (=unit)
◆
2チャネルのunit列をチャネル間アテンションを持つTransformerでモデル化
◆
テキストで発話内容を制御できず、意味性に課題