Slide 1

Slide 1 text

T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text Aoxiong Yin, Haoyuan Li, Kai Shen, Siliang Tang*, Yueting Zhuang 読み手:井上純大(豊田工業大学 知識データ工学研究室 M1) 図表は論文,デモ,[1, 2]より [1] Zhang et al. T2M-GPT: Generating Human Motion from Textual Descriptions with Discrete Representations. In CVPR, 2023 [2] Stoll et al. Text2Sign: Towards Sign Language Production Using Neural Machine Translation and Generative Adversarial Networks. In International Journal of Computer Vision, 2020

Slide 2

Slide 2 text

論文まとめ • 手話生成(テキスト→手話を生成するタスク)において, テキストから手話動作を生成する2段階学習手法を提案 1. 手話動作を動的にフレームをまとめて有限個の埋め込みに圧縮 2. GPTのようにテキストから圧縮した次の手話動作の埋め込みを生成 • テキスト生成でトークン列を生成するのと同様 • 既存手法よりも高い性能 2 ACL読み会@名大

Slide 3

Slide 3 text

手話生成 音声言語のテキストから手話(動画)を生成するタスク • テキストから手話へ異なるモダリティへの写像を学習する必要 • テキストから手話に直接変換するのは大変なので, テキスト→グロス列→手話と,グロス(手話単語の訳)を利用 テキスト グロス列 手話 3 ACL読み会@名大

Slide 4

Slide 4 text

Vector Quantized-VAE (VQ-VAE) を用いた手話生成 [2] 連続する手話動作の生成は大変なため,手話動作を圧縮 1. VQ-VAEを用いて手話を有限個のコード(埋め込み)に変換 • VQ-VAEは潜在表現を有限個のコードで表現 2. (テキスト)グロスから手話動作に対応するコードを生成 [2] Stoll et al. Text2Sign: Towards Sign Language Production Using Neural Machine Translation and Generative Adversarial Networks. In International Journal of Computer Vision, 2020 4 ACL読み会@名大

Slide 5

Slide 5 text

既存の手話生成の問題点 • コードに圧縮するフレーム数が固定長 • グロスごとに,同じグロスでも文脈によって動作時間が異なる →自動でグロス単位の境界を学習して,可変長にフレームを圧縮 • テキストからグロスへの変換が必要なくなる?→ Text2Sign 5 ACL読み会@名大

Slide 6

Slide 6 text

手法の概要 GPTのように手話動作を生成するために, 手話動作をグロスごとに有限個の埋め込みに圧縮 1. Dynamic VQ-VAE (DVQ-VAE) • 何フレームをまとめて埋め込みに 圧縮するかを動的に選択 2. Transformerによる手話生成 • テキストから手話(埋め込み)の生成 • 同時に持続時間も生成 6 ACL読み会@名大

Slide 7

Slide 7 text

Vector Quantized-VAE (VQ-VAE) ACL読み会@名大 7 • VQ-VAEは潜在表現を有限個の埋め込み(コード)で表現 • 事前分布がカテゴリカル分布 VAEの事前分布は正規分布 • 潜在表現と最も距離が近いコードを選択 • コードは学習可能なパラメタ 入力 X 入力を 再構成 X re

Slide 8

Slide 8 text

手法|DVQ-VAE • 各フレームの重要度を考慮して,圧縮するフレーム数を決定 • 各フレームの重要度をMLPで計算し,閾値 (= 1) でグループ化 • グループ内で重み付き平均を計算して,圧縮 • 持続時間(= 圧縮したフレーム数)を用いて入力手話の系列長に 合わせて再構成 8 ACL読み会@名大 Transformer Transformer 重要度

Slide 9

Slide 9 text

手法|DVQ-VAEの損失 • VQ-VAE損失(再構成損失 + 潜在表現とコードを近づける損失) • 予算損失 • 期待するフレーム数内で情報を圧縮するための損失 • 手話翻訳補助損失 • 再構成した手話が意味的に重要な情報を保持するための損失 9 ACL読み会@名大 Y:音声言語のテキスト X re :再構成した手話 Sum(I):重要度の和 T:総フレーム数 R:期待するフレーム数

Slide 10

Slide 10 text

手法|Transformerによる手話生成 • テキストと1つ前のコードから次コード予測問題として定式化 • コードを予測するときに,その持続時間も予測 • 現在のコードと前のコードの持続時間に基づいて次コードを予測 10 ACL読み会@名大 1. 手話動作をコード とその持続時間に変換 S:コードシーケンス,Y:テキスト D:持続時間,i:インデックス 2. 自己回帰予測 入力: テキストと過去の コードと持続時間 出力: 現在の コードと持続時間

Slide 11

Slide 11 text

実験設定 • データセット:PHOENIX14T • ドイツ手話 • 訓練,開発,テスト:7,096,519,642 • 評価方法 • 手話翻訳(手話からテキストに翻訳)モデルで逆翻訳して, ROUGEとBLEUで評価 • コードブックの数:1,024個 11 ACL読み会@名大

Slide 12

Slide 12 text

結果 • 既存手法よりも高性能 • Ground Truth (GT) に近い性能 手話のシーケンスを 連続的に予測 VQ-VAEを使用 手話翻訳モデル の性能 12 ACL読み会@名大

Slide 13

Slide 13 text

生成された手話の品質を確認 • 既存手法と比較して,生成された手話がより正解に近い • 手話動作の時間も正解に近い 13 ACL読み会@名大

Slide 14

Slide 14 text

Ablation Study • DVQ-VAEの有効性の確認 • VQ-VAEに置き換えて,実験をすると性能が大幅に低下 → DVQ-VAEは有効 • Duration-Transformer(持続時間を予測)の有効性の確認 • 全結合層に置き換えると,上手くいかない 14 ACL読み会@名大

Slide 15

Slide 15 text

まとめ • 手話生成において, テキストから手話動作を生成する2段階学習の手法を提案 • VQ-VAEを用いて,手話動作を有限個の埋め込みに圧縮 • テキストからの生成対象は圧縮した手話動作の埋め込みと持続時間 • Text2Signモデルにおいて,SOTAを達成 15 ACL読み会@名大

Slide 16

Slide 16 text

所感 • DVQ-VAEで学習した埋め込みが意味単位の表現 になっているのか? • ここら辺の解析がないため,分からない • デモを見ると,かなり正しく手話を生成できていて凄い • 顔の表情や口型など非手指動作の生成は今後の課題か? 16 ACL読み会@名大

Slide 17

Slide 17 text

手話動作の解析 ACL読み会@名大 17