【CVPR2022論文紹介】SignGAN

Signing at Scale: Learning to Co- Articulate Signs for Large-Scale
Photo- Realistic Sign Language Production CVPR 2022 特に注釈ない限り、画像は論文からの引用です

今、手話xCVがアツい？ 2 https://github.com/ycmin95/awesome-Gesture-Sign-Language-Recognition CV系トップカンファレンスにおいて、手話を扱った論文が増加傾向 ECCVではSLRTP（Sign Language Recognition,Translation＆Production） Workshopも開催 CVPR ECCV
ICCV 合計 2018 1 0 - 1 2019 1 - 0 1 2020 2 4 - 6 2021 4 - 5 9 2022 5 ? - 5 0 1 2 3 4 5 6 7 8 9 10 2018 2019 2020 2021 2022 件数年 ICCV ECCV CVPR CV系トップカンファレンス採択論文のうち、タイトルに“Sign Language”が含まれる論文の件数（ECCV,ICCVは隔年開催 ECCVの採択論文は資料作成視点でまだ未公開） ↑ BERT (ArXiv 2018) ↑ ViT (ArXiv 2020, ICLR 2021)

手話xCV @ CVPR 2022 3 "A Simple Multi-Modality Transfer Learning
Baseline for Sign Language Translation" 手話認識向け転移学習の提案 "Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Photo-Realistic Sign Language Production" 語彙制約のない写実的な連続手話動画の生成・翻訳【本日の紹介論文】 "C2SLR: Consistency-Enhanced Continuous Sign Language Recognition" 表情と手形状に注目した視覚特徴と系列特徴の組み合わせによる手話認識の性能向上 "MLSLT: Towards Multilingual Sign Language Translation" 多言語手話データセットの収集とマルチリンガルな手話認識の提案 "Sign Language Video Retrieval With Free-Form Textual Queries" テキストを用いた手話映像検索システムの提案

本論文の概要 4 https://openaccess.thecvf.com/content/CVPR2022/papers/Saunders_Signing_at_Scale_Learning_to_Co-Articulate_Signs_for_Large-Scale_Photo-Realistic_CVPR_2022_paper.pdf GANを用いた自由文からの語彙制約のない写実的な連続手話動画の生成・翻訳

なぜ機械手話動画生成のニーズがあるのか？ 5 聴覚障害者と書記言語手話と書記言語は文法・表現方法が大きく異なるため、手話を第一言語とする聴覚障害者が書記言語を習得することはハードルが高いそのため「音声言語を書記言語に変換する」だけでは手話を第一言語とする聴覚障害者をカバーできない手話通訳者と機械手話生成手話通訳者（interpreter）による通訳はそれをカバーする手段だが、大きな手間がかかるため手軽な機械手話動画生成のニーズが高い
特に緊急地震速報など手話通訳者が存在しない状況では、速報性を優先するため機械による手話生成が求められる

なぜ手話分析は難しいのか？① 6 画像引用：https://www2.nhk.or.jp/signlanguage/wenquete.cgi?gid=2 複数モダリティの統合が必要手形状・動き・口形に加え、CL（Classifire：相対的な位置情報）・NMS（Non-manual Signals：表情等を用いた感情・文法表現）といった手話特有の要素が存在 → CV・NLP・3次元空間解析といった複数のML技術を統合しなければ処理できない高度タスク NHKの手話CG（手話話者のモーションをキャプチャしCG変換）

なぜ手話分析は難しいのか？② 7 画像引用：RWTH-PHOENIX-Weather: A Large Vocabulary Sign Language Recognition and
Translation Corpus（LREC 2012）大規模な汎用手話コーパスが存在しない手話に対応した書記言語（※）が一般的に普及しておらず、手話動画へのアノテーションが困難 → 機械学習に活用できる大規模コーパスが構築されていない天気予報のコーパス（大規模コーパスは存在するものの、シーンが限定的） ※Glossと呼ばれる手話言語を文字表現で表したものは存在するが、書記言語ではない

先行研究 8 手話スケルトンの生成が中心で、写実的な手話生成までは行われていない加えて、天気予報ドメインの文章が中心であり、ドメイン制約がある単語と単語の接続が無視されているため理解が難しい画像引用：Neural Sign Language Synthesis: Words
Are Our Glosses（WACV 2020）単語と単語の接続を意識しているが、スケルトンのため写実的ではない画像引用：Progressive Transformers for End-to-End Sign Language Production（ECCV 2020）

本論文の概要・貢献 9 https://openaccess.thecvf.com/content/CVPR2022/papers/Saunders_Signing_at_Scale_Learning_to_Co-Articulate_Signs_for_Large-Scale_Photo-Realistic_CVPR_2022_paper.pdf GANを用いた自由文からの語彙制約のない写実的な連続手話動画の生成・翻訳【本論文の貢献】 ①制約がなく、ネイティブが理解できる大規模手話動画生成（翻訳）モデルの提案 ②連続手話動画生成時に手話単語動画から適切なフレームを選択するFS-Netの提案 ③写実的な連続手話動画を生成するSignGANの提案 ④手話ネイティブによる評価を実施し、既存手法に比べ自然な翻訳であることを確認

全体のアーキテクチャ 10

全体のアーキテクチャ 11 ①Text to Gloss ②Gloss to Pose ③Pose to
Video

Text to Gloss 12 https://www.lifeprint.com/asl101/topics/gloss.htm テキストをGloss（ここではトークン）に変換テキストと手話は文法が異なるため、異なる系列長への変換問題として扱う必要がある今回は系列長U→系列長Zへの変換問題として扱う 𝑓𝑢 =
𝐸𝑛𝑐(𝑥𝑢 ) 𝑥𝑢 𝑧𝑤 : : : : 𝑥𝑈 𝑥𝑢+1 𝑓𝑢+1 = 𝐸𝑛𝑐(𝑥𝑢+1 ) Encoder Decoder 𝑧𝑤+1 : : : : 𝑧𝑊 𝑧0 <EOS> <BOS> 系列長Uのテキスト系列長ZのGloss RNNのように前ステップの出力を再入力することで異なる系列長を扱えるようにする ※Gloss：手話言語を（無理やり）文字表現で表したもの。書記言語ではない。

Text to Glossのイメージ 13 画像引用：https://www.nhk.or.jp/strl/publica/rd/134/8.html NHKの手話CG生成技術を例に挙げて紹介

Gloss to Pose①（手話単語映像辞書の取り出し） 14 ※筆者の先行研究【Continuous 3D Multi-Channel Sign Language Production
via Progressive Transformers and Mixture Density Networks. 2021.】を用いてスケルトン情報を取得 Gloss（トークン）をもとに、対応付けられた手話単語映像辞書を取り出し Glossの系列長がWであれば、手話単語映像辞書の系列長もW 【手話単語辞書について】・辞書ごとに異なる系列長Pのスケルトン情報を格納※ ・人物はまちまち・辞書の拡張により、生成対象手話単語の語彙を増やすことが可能

Gloss to Pose②（手話単語映像辞書の結合） 15 辞書と辞書を結合し、連続した系列に変換するため隣接辞書の間を線形補完事前に設定したフレーム長で線形補完最終的に長さQの系列が得られる 𝑁𝐿𝐼
I = 𝐼1 , 𝐼2 , … , 𝐼𝑄 𝑁𝐿𝐼 は今回の実験設定では５

Gloss to Pose③（手話辞書系列の埋め込み表現獲得） 16 Counter Embedding は筆者の先行研究参照 Progressive Transformers
for End-to-End Sign Language Production（ECCV 2020）手話辞書系列の埋め込み特徴を獲得する手話辞書ごとに異なるGloss Embedding 手話辞書ごとに異なるLocal Counter Embedding 全辞書で共通のGlobal Counter Embedding 【Counter Embedding】各フレームI（スケルトン）が手話単語映像辞書のどの位置にあるかを示す特徴。テキストとは異なり、手話表現は要素ごとに表現の長さが異なるためこの特徴が必要例：https://youtu.be/d5Res5POg10?t=475

Gloss to Pose④（FS-Netを用いたフレーム選択） 17 FS-Net（Frame Selection Network）を用いたフレーム選択を行う冗長なフレームを除去し、映像を滑らかにする効果があるここまでの処理により、なめらかな連続手話のスケルトン系列が得られる

Pose to Video① SignGAN概要 18 スケルトン系列では人間が見ても理解できないため、写実的な手話映像系列に変換 StyleGANをベースにSkip ConnectionおよびMulti-Scale Discriminatorを導入単純なPose
to Videoだと手話単語ごとに人物が異なり違和感が生じるスタイル画像を用い人物指定することで同一人物による手話映像系列が生成される

Pose to Video② Hand keypoint loss 19 適切な手指表現になるようHand keypoint lossを導入
生成画像ごとに手指表現がぶれないようにする効果がある手話は手指の動きが多くぶれやすいため、手指画像をHand Keypointに変換し損失を算出実画像のHand Keypoint 生成画像のHand Keypoint Keypointを対象に GANと同等の損失関数を設計

Pose to Video③ Hand keypoint loss がないとどうなる？ 20 画像生成でよくある例指がない
引用） https://pbs.twimg.com/media/FcSVAruakAAIxGq?format=jpg&name=900x900 指のスキマから指が生えている引用） https://pbs.twimg.com/media/ FcaQJUFaIAEQngZ?format=jpg &name=large 手がふたつある引用） https://pbs.twimg.com/media/Fc GgCT_aMAQi- 7T?format=png&name=900x900

Pose to Video④ 全体のLoss設計 21 GAN Loss マルチスケールに対応した以外はGANのいつもの損失関数これがなければGANではない
VGG Loss 学習済みのVGGモデルのレイヤーを通して得られた特徴量の平均を lossとする鮮明な画像を生成する効果がある Hand Key Point Loss 手指のボーン情報が本物かニセモノかを判定する指の本数が変動しない一貫した手指画像を生成する効果がある Feature-Matching loss 生成画像をDiscriminatorに入力したときの中間層が実画像と同様になるように設計同一画像が大量に生成されるモード崩壊を防ぐ効果がある

できあがり！ 22

実験 23 DGS Corpus & Dicta-Sign: The Hamburg Studio Setup（CSLT
2010）データセット Meine DGS (mDGS) コーパス人数：330人のろう者形式：自由形式の手話言語：ドイツ手話語彙数：10042語フリートークを①ドイツ語の文章、②Gloss、③手話動画で構成される40,230のセグメントに分割同一意味の異なる表現を含む mDGS-V と、同一意味の異なる表現を含まない mDGS を用意追加データセット RWTH-PHOENIX-Weather 2014 T：ドイツの手話通訳付きニュース・天気予報 CSL-Daily：スタジオで収録された中国手話の日常会話 C4A dataset : 多様な手話通訳者が含まれる高画質データセット。写実画像生成に使うこんな感じのところで対面で座り、フリートークで撮影

実験 24 実験パラメタ Text to Gloss：2層・隠れ層128次元・4ヘッドのNN FS-Net：2層・隠れ層64次元・4ヘッドのNN 補完フレーム数𝑁𝐿𝐼 ：5 学習率：10^-3
評価指標 BLEU-4：生成結果のN-Gramが正解に含まれる割合（Precision） ROUGE：正解のN-Gramが生成結果に含まれる割合（Recall）

実験① Text to Gloss 25 ドメインが限定的なPHOENIX14T（天気予報）データセットでは、Data Augmentationを使わない既存手法に対し優位性を確認ドメインの制約がないmDGS-VおよびmDGSデータセットではスコアが低く、大規模語彙への対応の必要性が示唆されている
ベースライン： BLEU-4 : 20.23（PHOENIX14T） BLEU-4 : 23.17（PHOENIX14T + Data Augmentation）

実験② Gloss to Pose – 定量評価 26 生成されたスケルトン情報を用いて学習した手話翻訳モデルを用い、生成スケルトンを評価する（Back Translation）。
手話翻訳モデルの翻訳結果を用い、BLEU-4とROUGEで評価既存手法に対する有効性とFS-Netによる冗長フレーム除去の有効性を確認 FS-Netによる冗長フレームの除去を行わないケース生成スケルトンを使ってモデル学習

実験② Gloss to Pose – 定性評価① 27 手話ユーザ10名（うち2名は聴覚障害者）による相対評価スケルトン生成方法だけが異なる同一シーケンスから生成した写実映像を視聴し、どちらが理解しやすいかを確認
両方のデータセットで、FS-Netのほうが理解しやすいと答えた人がほとんど動画中で用いられている5つの手話単語を当てるタスクでも、平均4.8個の正解率

実験② Gloss to Pose – 定性評価② 28 手話単語のつなぎがどれくらい自然かを評価 FS-Netにより生成された動画と、孤立した辞書シーケンス動画（Isolated）を比較トリムしない場合はFS-Netのほうが自然、トリムした場合は同程度という結果

実験③ Pose to Video – 定量評価 29 以下の評価指標を用いてSignGANを評価 1) SSIM:
画像の品質評価に用いる指標。生成画像と正解画像の輝度・コントラスト・構造を比較することで算出。 2) Hand SSIM: SSIMを手に対して算出したもの。 3) Hand Pose: 生成画像と正解画像の Hand Keypoint の距離差。手位置のずれを評価する。 4) FID:画像の品質評価に用いる指標。生成画像の分布と実画像の分布の差を示す。 C4Aデータセットを用いた評価において有効性を確認。特にHand SSIMとHand PoseはHand Keypoint Loss が効いた

実験③ Pose to Video – 定性評価 30 生成動画を48人の被験者（うち28％が手話話者）に視聴してもらい、写実性を評価 SignGANのほうが良いと答えた被験者の割合を測定。すべてのベースラインに対し、8割以上の被験者がSignGANのほうが写実性が高いと評価

実験③ Pose to Video – 定性評価② 31 スケルトン動画と生成動画を聴覚障害者に視聴してもらい、どちらが理解しやすいかを5段階で確認スケルトン動画：3.2
生成動画：3.9 今回生成した写実的な動画は、スケルトン動画よりも理解度が向上することが示された

まとめ 32 https://openaccess.thecvf.com/content/CVPR2022/papers/Saunders_Signing_at_Scale_Learning_to_Co-Articulate_Signs_for_Large-Scale_Photo-Realistic_CVPR_2022_paper.pdf GANを用いた自由文からの写実的な連続手話動画の生成・翻訳【本論文の貢献】 ①制約がなく、ネイティブが理解できる大規模手話動画生成（翻訳）モデルの提案 ②連続手話動画生成時に手話単語動画から適切なフレームを選択するFS-Netの提案 ③写実的な連続手話動画を生成するSignGANの提案 ④手話ネイティブによる評価を実施し、既存手法に比べ自然な翻訳であることを確認

【CVPR2022論文紹介】SignGAN

【CVPR2022論文紹介】SignGAN

mkkon

Other Decks in Science

Featured

Transcript

Signing at Scale: Learning to Co- Articulate Signs for Large-Scale

今、手話xCVがアツい？ 2 https://github.com/ycmin95/awesome-Gesture-Sign-Language-Recognition CV系トップカンファレンスにおいて、手話を扱った論文が増加傾向 ECCVではSLRTP（Sign Language Recognition,Translation＆Production） Workshopも開催 CVPR ECCV

手話xCV @ CVPR 2022 3 "A Simple Multi-Modality Transfer Learning

本論文の概要 4 https://openaccess.thecvf.com/content/CVPR2022/papers/Saunders_Signing_at_Scale_Learning_to_Co-Articulate_Signs_for_Large-Scale_Photo-Realistic_CVPR_2022_paper.pdf GANを用いた自由文からの語彙制約のない写実的な連続手話動画の生成・翻訳

なぜ手話分析は難しいのか？② 7 画像引用：RWTH-PHOENIX-Weather: A Large Vocabulary Sign Language Recognition and

全体のアーキテクチャ 10

全体のアーキテクチャ 11 ①Text to Gloss ②Gloss to Pose ③Pose to

Text to Glossのイメージ 13 画像引用：https://www.nhk.or.jp/strl/publica/rd/134/8.html NHKの手話CG生成技術を例に挙げて紹介

Gloss to Pose①（手話単語映像辞書の取り出し） 14 ※筆者の先行研究【Continuous 3D Multi-Channel Sign Language Production

Gloss to Pose②（手話単語映像辞書の結合） 15 辞書と辞書を結合し、連続した系列に変換するため隣接辞書の間を線形補完事前に設定したフレーム長で線形補完最終的に長さQの系列が得られる 𝑁𝐿𝐼

Gloss to Pose③（手話辞書系列の埋め込み表現獲得） 16 Counter Embedding は筆者の先行研究参照 Progressive Transformers

Pose to Video① SignGAN概要 18 スケルトン系列では人間が見ても理解できないため、写実的な手話映像系列に変換 StyleGANをベースにSkip ConnectionおよびMulti-Scale Discriminatorを導入単純なPose

Pose to Video② Hand keypoint loss 19 適切な手指表現になるようHand keypoint lossを導入

Pose to Video③ Hand keypoint loss がないとどうなる？ 20 画像生成でよくある例指がない

Pose to Video④ 全体のLoss設計 21 GAN Loss マルチスケールに対応した以外はGANのいつもの損失関数これがなければGANではない

できあがり！ 22

実験 23 DGS Corpus & Dicta-Sign: The Hamburg Studio Setup（CSLT

実験 24 実験パラメタ Text to Gloss：2層・隠れ層128次元・4ヘッドのNN FS-Net：2層・隠れ層64次元・4ヘッドのNN 補完フレーム数𝑁𝐿𝐼 ：5 学習率：10^-3

実験② Gloss to Pose – 定量評価 26 生成されたスケルトン情報を用いて学習した手話翻訳モデルを用い、生成スケルトンを評価する（Back Translation）。

実験② Gloss to Pose – 定性評価① 27 手話ユーザ10名（うち2名は聴覚障害者）による相対評価スケルトン生成方法だけが異なる同一シーケンスから生成した写実映像を視聴し、どちらが理解しやすいかを確認

実験③ Pose to Video – 定量評価 29 以下の評価指標を用いてSignGANを評価 1) SSIM:

実験③ Pose to Video – 定性評価② 31 スケルトン動画と生成動画を聴覚障害者に視聴してもらい、どちらが理解しやすいかを5段階で確認スケルトン動画：3.2