Upgrade to Pro — share decks privately, control downloads, hide ads and more …

T2S-GPT: Dynamic Vector Quantization for Autore...

Jundai Inoue
September 29, 2024
33

T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text

2024-09-30: ACL2024読み会@名大

Jundai Inoue

September 29, 2024
Tweet

Transcript

  1. T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from

    Text Aoxiong Yin, Haoyuan Li, Kai Shen, Siliang Tang*, Yueting Zhuang 読み手:井上純大(豊田工業大学 知識データ工学研究室 M1) 図表は論文,デモ,[1, 2]より [1] Zhang et al. T2M-GPT: Generating Human Motion from Textual Descriptions with Discrete Representations. In CVPR, 2023 [2] Stoll et al. Text2Sign: Towards Sign Language Production Using Neural Machine Translation and Generative Adversarial Networks. In International Journal of Computer Vision, 2020
  2. Vector Quantized-VAE (VQ-VAE) を用いた手話生成 [2] 連続する手話動作の生成は大変なため,手話動作を圧縮 1. VQ-VAEを用いて手話を有限個のコード(埋め込み)に変換 • VQ-VAEは潜在表現を有限個のコードで表現

    2. (テキスト)グロスから手話動作に対応するコードを生成 [2] Stoll et al. Text2Sign: Towards Sign Language Production Using Neural Machine Translation and Generative Adversarial Networks. In International Journal of Computer Vision, 2020 4 ACL読み会@名大
  3. 手法|DVQ-VAE • 各フレームの重要度を考慮して,圧縮するフレーム数を決定 • 各フレームの重要度をMLPで計算し,閾値 (= 1) でグループ化 • グループ内で重み付き平均を計算して,圧縮

    • 持続時間(= 圧縮したフレーム数)を用いて入力手話の系列長に 合わせて再構成 8 ACL読み会@名大 Transformer Transformer 重要度
  4. 手法|DVQ-VAEの損失 • VQ-VAE損失(再構成損失 + 潜在表現とコードを近づける損失) • 予算損失 • 期待するフレーム数内で情報を圧縮するための損失 •

    手話翻訳補助損失 • 再構成した手話が意味的に重要な情報を保持するための損失 9 ACL読み会@名大 Y:音声言語のテキスト X re :再構成した手話 Sum(I):重要度の和 T:総フレーム数 R:期待するフレーム数
  5. 手法|Transformerによる手話生成 • テキストと1つ前のコードから次コード予測問題として定式化 • コードを予測するときに,その持続時間も予測 • 現在のコードと前のコードの持続時間に基づいて次コードを予測 10 ACL読み会@名大 1.

    手話動作をコード とその持続時間に変換 S:コードシーケンス,Y:テキスト D:持続時間,i:インデックス 2. 自己回帰予測 入力: テキストと過去の コードと持続時間 出力: 現在の コードと持続時間
  6. 実験設定 • データセット:PHOENIX14T • ドイツ手話 • 訓練,開発,テスト:7,096,519,642 • 評価方法 •

    手話翻訳(手話からテキストに翻訳)モデルで逆翻訳して, ROUGEとBLEUで評価 • コードブックの数:1,024個 11 ACL読み会@名大