T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text

T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from
Text Aoxiong Yin, Haoyuan Li, Kai Shen, Siliang Tang*, Yueting Zhuang 読み手：井上純大（豊田工業大学知識データ工学研究室 M1）図表は論文，デモ，[1, 2]より [1] Zhang et al. T2M-GPT: Generating Human Motion from Textual Descriptions with Discrete Representations. In CVPR, 2023 [2] Stoll et al. Text2Sign: Towards Sign Language Production Using Neural Machine Translation and Generative Adversarial Networks. In International Journal of Computer Vision, 2020

論文まとめ • 手話生成（テキスト→手話を生成するタスク）において，テキストから手話動作を生成する2段階学習手法を提案 1. 手話動作を動的にフレームをまとめて有限個の埋め込みに圧縮 2. GPTのようにテキストから圧縮した次の手話動作の埋め込みを生成 • テキスト生成でトークン列を生成するのと同様
• 既存手法よりも高い性能 2 ACL読み会@名大

手話生成音声言語のテキストから手話（動画）を生成するタスク • テキストから手話へ異なるモダリティへの写像を学習する必要 • テキストから手話に直接変換するのは大変なので，テキスト→グロス列→手話と，グロス（手話単語の訳）を利用テキストグロス列手話
3 ACL読み会@名大

Vector Quantized-VAE （VQ-VAE）を用いた手話生成 [2] 連続する手話動作の生成は大変なため，手話動作を圧縮 1. VQ-VAEを用いて手話を有限個のコード（埋め込み）に変換 • VQ-VAEは潜在表現を有限個のコードで表現
2. （テキスト）グロスから手話動作に対応するコードを生成 [2] Stoll et al. Text2Sign: Towards Sign Language Production Using Neural Machine Translation and Generative Adversarial Networks. In International Journal of Computer Vision, 2020 4 ACL読み会@名大

既存の手話生成の問題点 • コードに圧縮するフレーム数が固定長 • グロスごとに，同じグロスでも文脈によって動作時間が異なる →自動でグロス単位の境界を学習して，可変長にフレームを圧縮 • テキストからグロスへの変換が必要なくなる？→ Text2Sign 5
ACL読み会@名大

手法の概要 GPTのように手話動作を生成するために，手話動作をグロスごとに有限個の埋め込みに圧縮 1. Dynamic VQ-VAE (DVQ-VAE) • 何フレームをまとめて埋め込みに圧縮するかを動的に選択
2. Transformerによる手話生成 • テキストから手話（埋め込み）の生成 • 同時に持続時間も生成 6 ACL読み会@名大

Vector Quantized-VAE （VQ-VAE） ACL読み会@名大 7 • VQ-VAEは潜在表現を有限個の埋め込み（コード）で表現 • 事前分布がカテゴリカル分布 VAEの事前分布は正規分布
• 潜在表現と最も距離が近いコードを選択 • コードは学習可能なパラメタ入力 X 入力を再構成 X re

手法｜DVQ-VAE • 各フレームの重要度を考慮して，圧縮するフレーム数を決定 • 各フレームの重要度をMLPで計算し，閾値 (= 1) でグループ化 • グループ内で重み付き平均を計算して，圧縮
• 持続時間（= 圧縮したフレーム数）を用いて入力手話の系列長に合わせて再構成 8 ACL読み会@名大 Transformer Transformer 重要度

手法｜DVQ-VAEの損失 • VQ-VAE損失（再構成損失 + 潜在表現とコードを近づける損失） • 予算損失 • 期待するフレーム数内で情報を圧縮するための損失 •
手話翻訳補助損失 • 再構成した手話が意味的に重要な情報を保持するための損失 9 ACL読み会@名大 Y：音声言語のテキスト X re ：再構成した手話 Sum(I)：重要度の和 T：総フレーム数 R：期待するフレーム数

手法｜Transformerによる手話生成 • テキストと1つ前のコードから次コード予測問題として定式化 • コードを予測するときに，その持続時間も予測 • 現在のコードと前のコードの持続時間に基づいて次コードを予測 10 ACL読み会@名大 1.
手話動作をコードとその持続時間に変換 S：コードシーケンス，Y：テキスト D：持続時間，i：インデックス 2. 自己回帰予測入力：テキストと過去のコードと持続時間出力：現在のコードと持続時間

実験設定 • データセット：PHOENIX14T • ドイツ手話 • 訓練，開発，テスト：7,096，519，642 • 評価方法 •
手話翻訳（手話からテキストに翻訳）モデルで逆翻訳して， ROUGEとBLEUで評価 • コードブックの数：1,024個 11 ACL読み会@名大

結果 • 既存手法よりも高性能 • Ground Truth (GT) に近い性能手話のシーケンスを連続的に予測
VQ-VAEを使用手話翻訳モデルの性能 12 ACL読み会@名大

生成された手話の品質を確認 • 既存手法と比較して，生成された手話がより正解に近い • 手話動作の時間も正解に近い 13 ACL読み会@名大

Ablation Study • DVQ-VAEの有効性の確認 • VQ-VAEに置き換えて，実験をすると性能が大幅に低下 → DVQ-VAEは有効 • Duration-Transformer（持続時間を予測）の有効性の確認
• 全結合層に置き換えると，上手くいかない 14 ACL読み会@名大

まとめ • 手話生成において，テキストから手話動作を生成する2段階学習の手法を提案 • VQ-VAEを用いて，手話動作を有限個の埋め込みに圧縮 • テキストからの生成対象は圧縮した手話動作の埋め込みと持続時間 • Text2Signモデルにおいて，SOTAを達成

所感 • DVQ-VAEで学習した埋め込みが意味単位の表現になっているのか？ • ここら辺の解析がないため，分からない • デモを見ると，かなり正しく手話を生成できていて凄い • 顔の表情や口型など非手指動作の生成は今後の課題か？

手話動作の解析 ACL読み会@名大 17

T2S-GPT: Dynamic Vector Quantization for Autore...

T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text

Jundai Inoue

More Decks by Jundai Inoue

Featured

Transcript

T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from

Vector Quantized-VAE （VQ-VAE）を用いた手話生成 [2] 連続する手話動作の生成は大変なため，手話動作を圧縮 1. VQ-VAEを用いて手話を有限個のコード（埋め込み）に変換 • VQ-VAEは潜在表現を有限個のコードで表現

手法の概要 GPTのように手話動作を生成するために，手話動作をグロスごとに有限個の埋め込みに圧縮 1. Dynamic VQ-VAE (DVQ-VAE) • 何フレームをまとめて埋め込みに圧縮するかを動的に選択

Vector Quantized-VAE （VQ-VAE） ACL読み会@名大 7 • VQ-VAEは潜在表現を有限個の埋め込み（コード）で表現 • 事前分布がカテゴリカル分布 VAEの事前分布は正規分布

手法｜DVQ-VAE • 各フレームの重要度を考慮して，圧縮するフレーム数を決定 • 各フレームの重要度をMLPで計算し，閾値 (= 1) でグループ化 • グループ内で重み付き平均を計算して，圧縮

手法｜DVQ-VAEの損失 • VQ-VAE損失（再構成損失 + 潜在表現とコードを近づける損失） • 予算損失 • 期待するフレーム数内で情報を圧縮するための損失 •

実験設定 • データセット：PHOENIX14T • ドイツ手話 • 訓練，開発，テスト：7,096，519，642 • 評価方法 •

結果 • 既存手法よりも高性能 • Ground Truth (GT) に近い性能手話のシーケンスを連続的に予測

生成された手話の品質を確認 • 既存手法と比較して，生成された手話がより正解に近い • 手話動作の時間も正解に近い 13 ACL読み会@名大

Ablation Study • DVQ-VAEの有効性の確認 • VQ-VAEに置き換えて，実験をすると性能が大幅に低下 → DVQ-VAEは有効 • Duration-Transformer（持続時間を予測）の有効性の確認

手話動作の解析 ACL読み会@名大 17