Slide 41
Slide 41 text
ରܕςΩετੜϞσϧͱͷΠϯλʔϑΣʔε
Huang et al., “AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head,” Arxiv, 2023
タスク決定
LLMs
(i.e., ChatGPT)
l ⾳声認識、⾳声翻訳
l ⾳声スタイル変換、強調、分離
l ⾳声ステレオ変換、⾳声修復
l ⾳響イベント抽出
l ⾳声顔画像⽣成
l テキスト⾳声合成
l 画像⾳楽⽣成、楽譜歌唱⽣成
応答⽣成
ユーザ⼊⼒
(⾳声orテキスト +画像)
ԻॲཧʹؔΘΔଟ༷ͳλεΫΛ͜ͳ͢ରܕγεςϜ
Generate an audio based
on the picture.
Received! Here is the
audio file you requested: