$30 off During Our Annual Pro Sale. View Details »

【CVPR2022論文紹介】SignGAN

mkkon
November 11, 2022

 【CVPR2022論文紹介】SignGAN

CVPR2022で発表された論文
【Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Photo-Realistic Sign Language Production】の紹介

【解説記事】
https://qiita.com/mkkon/items/6c626252a722d522f4bf

【論文URL】https://openaccess.thecvf.com/content/CVPR2022/papers/Saunders_Signing_at_Scale_Learning_to_Co-Articulate_Signs_for_Large-Scale_Photo-Realistic_CVPR_2022_paper.pdf

mkkon

November 11, 2022
Tweet

Other Decks in Science

Transcript

  1. Signing at Scale: Learning to Co- Articulate Signs for Large-Scale

    Photo- Realistic Sign Language Production CVPR 2022 特に注釈ない限り、画像は論文からの引用です
  2. 今、手話xCVがアツい? 2 https://github.com/ycmin95/awesome-Gesture-Sign-Language-Recognition CV系トップカンファレンスにおいて、手話を扱った論文が増加傾向 ECCVではSLRTP(Sign Language Recognition,Translation&Production) Workshopも開催 CVPR ECCV

    ICCV 合計 2018 1 0 - 1 2019 1 - 0 1 2020 2 4 - 6 2021 4 - 5 9 2022 5 ? - 5 0 1 2 3 4 5 6 7 8 9 10 2018 2019 2020 2021 2022 件数 年 ICCV ECCV CVPR CV系トップカンファレンス採択論文のうち、 タイトルに“Sign Language”が含まれる論文の件数 (ECCV,ICCVは隔年開催 ECCVの採択論文は資料作成視点でまだ未公開) ↑ BERT (ArXiv 2018) ↑ ViT (ArXiv 2020, ICLR 2021)
  3. 手話xCV @ CVPR 2022 3 "A Simple Multi-Modality Transfer Learning

    Baseline for Sign Language Translation" 手話認識向け転移学習の提案 "Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Photo-Realistic Sign Language Production" 語彙制約のない写実的な連続手話動画の生成・翻訳【本日の紹介論文】 "C2SLR: Consistency-Enhanced Continuous Sign Language Recognition" 表情と手形状に注目した視覚特徴と系列特徴の組み合わせによる手話認識の性能向上 "MLSLT: Towards Multilingual Sign Language Translation" 多言語手話データセットの収集とマルチリンガルな手話認識の提案 "Sign Language Video Retrieval With Free-Form Textual Queries" テキストを用いた手話映像検索システムの提案
  4. 本論文の概要 4 https://openaccess.thecvf.com/content/CVPR2022/papers/Saunders_Signing_at_Scale_Learning_to_Co-Articulate_Signs_for_Large-Scale_Photo-Realistic_CVPR_2022_paper.pdf GANを用いた自由文からの語彙制約のない写実的な連続手話動画の生成・翻訳

  5. なぜ機械手話動画生成のニーズがあるのか? 5 聴覚障害者と書記言語 手話と書記言語は文法・表現方法が大きく異なるため、手話を第一言語とする聴覚障害者が書 記言語を習得することはハードルが高い そのため「音声言語を書記言語に変換する」だけでは手話を第一言語とする聴覚障害者をカ バーできない 手話通訳者と機械手話生成 手話通訳者(interpreter)による通訳はそれをカバーする手段だが、大きな手間がかかるため 手軽な機械手話動画生成のニーズが高い

    特に緊急地震速報など手話通訳者が存在しない状況では、速報性を優先するため機械による手 話生成が求められる
  6. なぜ手話分析は難しいのか?① 6 画像引用:https://www2.nhk.or.jp/signlanguage/wenquete.cgi?gid=2 複数モダリティの統合が必要 手形状・動き・口形に加え、CL(Classifire:相対的な位置情報)・NMS(Non-manual Signals:表情等を用いた感情・文法表現)といった手話特有の要素が存在 → CV・NLP・3次元空間解析といった複数のML技術を統合しなければ処理できない高度タス ク NHKの手話CG(手話話者のモーションをキャプチャしCG変換)

  7. なぜ手話分析は難しいのか?② 7 画像引用:RWTH-PHOENIX-Weather: A Large Vocabulary Sign Language Recognition and

    Translation Corpus(LREC 2012) 大規模な汎用手話コーパスが存在しない 手話に対応した書記言語(※) が一般的に普及しておらず、手話動画へのアノテーションが困難 → 機械学習に活用できる大規模コーパスが構築されていない 天気予報のコーパス (大規模コーパスは存在するものの、シーンが限定的) ※Glossと呼ばれる手話言語を文字表現で表したものは存在するが、書記言語では ない
  8. 先行研究 8 手話スケルトンの生成が中心で、写実的な手話生成までは行われていない 加えて、天気予報ドメインの文章が中心であり、ドメイン制約がある 単語と単語の接続が無視されているため理解が難しい 画像引用:Neural Sign Language Synthesis: Words

    Are Our Glosses(WACV 2020) 単語と単語の接続を意識しているが、スケルトンのため写実的ではない 画像引用:Progressive Transformers for End-to-End Sign Language Production(ECCV 2020)
  9. 本論文の概要・貢献 9 https://openaccess.thecvf.com/content/CVPR2022/papers/Saunders_Signing_at_Scale_Learning_to_Co-Articulate_Signs_for_Large-Scale_Photo-Realistic_CVPR_2022_paper.pdf GANを用いた自由文からの語彙制約のない写実的な連続手話動画の生成・翻訳 【本論文の貢献】 ①制約がなく、ネイティブが理解できる大規模手話動画生成(翻訳)モデルの提案 ②連続手話動画生成時に手話単語動画から適切なフレームを選択するFS-Netの提案 ③写実的な連続手話動画を生成するSignGANの提案 ④手話ネイティブによる評価を実施し、既存手法に比べ自然な翻訳であることを確認

  10. 全体のアーキテクチャ 10

  11. 全体のアーキテクチャ 11 ①Text to Gloss ②Gloss to Pose ③Pose to

    Video
  12. Text to Gloss 12 https://www.lifeprint.com/asl101/topics/gloss.htm テキストをGloss(ここではトークン)に変換 テキストと手話は文法が異なるため、異なる系列長への変換問題として扱う必要がある 今回は系列長U→系列長Zへの変換問題として扱う 𝑓𝑢 =

    𝐸𝑛𝑐(𝑥𝑢 ) 𝑥𝑢 𝑧𝑤 : : : : 𝑥𝑈 𝑥𝑢+1 𝑓𝑢+1 = 𝐸𝑛𝑐(𝑥𝑢+1 ) Encoder Decoder 𝑧𝑤+1 : : : : 𝑧𝑊 𝑧0 <EOS> <BOS> 系列長Uのテキスト 系列長ZのGloss RNNのように前ステップの出力を再入力 することで異なる系列長を扱えるように する ※Gloss:手話言語を(無理やり)文字表現で表したもの。書記言語ではない。
  13. Text to Glossのイメージ 13 画像引用:https://www.nhk.or.jp/strl/publica/rd/134/8.html NHKの手話CG生成技術を例に挙げて紹介

  14. Gloss to Pose①(手話単語映像辞書の取り出し) 14 ※筆者の先行研究【Continuous 3D Multi-Channel Sign Language Production

    via Progressive Transformers and Mixture Density Networks. 2021.】を用いてスケルトン情報を取得 Gloss(トークン)をもとに、対応付けられた手話単語映像辞書を取り出し Glossの系列長がWであれば、手話単語映像辞書の系列長もW 【手話単語辞書について】 ・辞書ごとに異なる系列長Pのスケルトン情報を格納※ ・人物はまちまち ・辞書の拡張により、生成対象手話単語の語彙を増やすことが可能
  15. Gloss to Pose②(手話単語映像辞書の結合) 15 辞書と辞書を結合し、連続した系列に変換するため隣接辞書の間を線形補完 事前に設定したフレーム長 で線形補完 最終的に長さQの系列 が得られる 𝑁𝐿𝐼

    I = 𝐼1 , 𝐼2 , … , 𝐼𝑄 𝑁𝐿𝐼 は今回の実験設定では5
  16. Gloss to Pose③(手話辞書系列の埋め込み表現獲得) 16 Counter Embedding は 筆者の先行研究参照 Progressive Transformers

    for End-to-End Sign Language Production(ECCV 2020) 手話辞書系列の埋め込み特徴を獲得する 手話辞書ごとに異なるGloss Embedding 手話辞書ごとに異なるLocal Counter Embedding 全辞書で共通のGlobal Counter Embedding 【Counter Embedding】 各フレームI(スケルトン)が手話 単語映像辞書のどの位置にあるかを 示す特徴。テキストとは異なり、手 話表現は要素ごとに表現の長さが異 なるためこの特徴が必要 例:https://youtu.be/d5Res5POg10?t=475
  17. Gloss to Pose④(FS-Netを用いたフレーム選択) 17 FS-Net(Frame Selection Network)を用いたフレーム選択を行う 冗長なフレームを除去し、映像を滑らかにする効果がある ここまでの処理により、なめらかな連続手話のスケルトン系列が得られる

  18. Pose to Video① SignGAN概要 18 スケルトン系列では人間が見ても理解できないため、写実的な手話映像系列に変換 StyleGANをベースにSkip ConnectionおよびMulti-Scale Discriminatorを導入 単純なPose

    to Videoだと手話単語ごとに 人物が異なり違和感が生じる スタイル画像を用い人物指定することで 同一人物による手話映像系列が生成される
  19. Pose to Video② Hand keypoint loss 19 適切な手指表現になるようHand keypoint lossを導入

    生成画像ごとに手指表現がぶれないようにする効果がある 手話は手指の動きが多くぶれやすいため、手指画像をHand Keypointに変換し損失を算出 実画像のHand Keypoint 生成画像のHand Keypoint Keypointを対象 に GANと同等の 損失関数を設計
  20. Pose to Video③ Hand keypoint loss がないとどうなる? 20 画像生成でよくある例 指がない

    引用) https://pbs.twimg.com/media/FcSVAruakAAIxGq?format=jpg&name=900x900 指のスキマから指が生えている 引用) https://pbs.twimg.com/media/ FcaQJUFaIAEQngZ?format=jpg &name=large 手がふたつある 引用) https://pbs.twimg.com/media/Fc GgCT_aMAQi- 7T?format=png&name=900x900
  21. Pose to Video④ 全体のLoss設計 21 GAN Loss マルチスケールに対応した以外はGANのいつもの損 失関数 これがなければGANではない

    VGG Loss 学習済みのVGGモデルのレイヤーを通して得られた特徴量の平均を lossとする 鮮明な画像を生成する効果がある Hand Key Point Loss 手指のボーン情報が本物かニセモノかを判定する 指の本数が変動しない一貫した手指画像を生成する効果がある Feature-Matching loss 生成画像をDiscriminatorに入力したときの中間層が実画像と同様になるよ うに設計 同一画像が大量に生成されるモード崩壊を防ぐ効果がある
  22. できあがり! 22

  23. 実験 23 DGS Corpus & Dicta-Sign: The Hamburg Studio Setup(CSLT

    2010) データセット Meine DGS (mDGS) コーパス 人数:330人のろう者 形式:自由形式の手話 言語:ドイツ手話 語彙数:10042語 フリートークを①ドイツ語の文章、②Gloss、③手話動画で構成される40,230のセグメントに分割 同一意味の異なる表現を含む mDGS-V と、同一意味の異なる表現を含まない mDGS を用意 追加データセット RWTH-PHOENIX-Weather 2014 T:ドイツの手話通訳付きニュース・天気予報 CSL-Daily:スタジオで収録された中国手話の日常会話 C4A dataset : 多様な手話通訳者が含まれる高画質データセット。写実画像生成に使う こんな感じのところで対面で座り、 フリートークで撮影
  24. 実験 24 実験パラメタ Text to Gloss:2層・隠れ層128次元・4ヘッドのNN FS-Net:2層・隠れ層64次元・4ヘッドのNN 補完フレーム数𝑁𝐿𝐼 :5 学習率:10^-3

    評価指標 BLEU-4:生成結果のN-Gramが正解に含まれる割合(Precision) ROUGE:正解のN-Gramが生成結果に含まれる割合(Recall)
  25. 実験① Text to Gloss 25 ドメインが限定的なPHOENIX14T(天気予報)データセットでは、Data Augmentationを使 わない既存手法に対し優位性を確認 ドメインの制約がないmDGS-VおよびmDGSデータセットではスコアが低く、大規模語彙への 対応の必要性が示唆されている

    ベースライン: BLEU-4 : 20.23(PHOENIX14T) BLEU-4 : 23.17(PHOENIX14T + Data Augmentation)
  26. 実験② Gloss to Pose – 定量評価 26 生成されたスケルトン情報を用いて学習した手話翻訳モデルを用い、生成スケルトンを評価す る(Back Translation)。

    手話翻訳モデルの翻訳結果を用い、BLEU-4とROUGEで評価 既存手法に対する有効性とFS-Netによる冗長フレーム除去の有効性を確認 FS-Netによる 冗長フレームの除去を 行わないケース 生成スケルトンを 使って モデル学習
  27. 実験② Gloss to Pose – 定性評価① 27 手話ユーザ10名(うち2名は聴覚障害者)による相対評価 スケルトン生成方法だけが異なる同一シーケンスから生成した写実映像を視聴し、どちらが理 解しやすいかを確認

    両方のデータセットで、FS-Netのほうが理解しやすいと答えた人がほとんど 動画中で用いられている5つの手話単語を当てるタスクでも、平均4.8個の正解率
  28. 実験② Gloss to Pose – 定性評価② 28 手話単語のつなぎがどれくらい自然かを評価 FS-Netにより生成された動画と、孤立した辞書シーケンス動画(Isolated)を比較 トリムしない場合はFS-Netのほうが自然、トリムした場合は同程度という結果

  29. 実験③ Pose to Video – 定量評価 29 以下の評価指標を用いてSignGANを評価 1) SSIM:

    画像の品質評価に用いる指標。生成画像と正解画像の輝度・コントラスト・構造を比較する ことで算出。 2) Hand SSIM: SSIMを手に対して算出したもの。 3) Hand Pose: 生成画像と正解画像の Hand Keypoint の距離差。手位置のずれを評価する。 4) FID:画像の品質評価に用いる指標。生成画像の分布と実画像の分布の差を示す。 C4Aデータセットを用いた評価において有効性を確認。特にHand SSIMとHand PoseはHand Keypoint Loss が効いた
  30. 実験③ Pose to Video – 定性評価 30 生成動画を48人の被験者(うち28%が手話話者)に視聴してもらい、写実性を評価 SignGANのほうが良いと答えた被験者の割合を測定。すべてのベースラインに対し、8割以上 の被験者がSignGANのほうが写実性が高いと評価

  31. 実験③ Pose to Video – 定性評価② 31 スケルトン動画と生成動画を聴覚障害者に視聴してもらい、どちらが理解しやすいかを5段階 で確認 スケルトン動画:3.2

    生成動画:3.9 今回生成した写実的な動画は、スケルトン動画よりも理解度が向上することが示された
  32. まとめ 32 https://openaccess.thecvf.com/content/CVPR2022/papers/Saunders_Signing_at_Scale_Learning_to_Co-Articulate_Signs_for_Large-Scale_Photo-Realistic_CVPR_2022_paper.pdf GANを用いた自由文からの写実的な連続手話動画の生成・翻訳 【本論文の貢献】 ①制約がなく、ネイティブが理解できる大規模手話動画生成(翻訳)モデルの提案 ②連続手話動画生成時に手話単語動画から適切なフレームを選択するFS-Netの提案 ③写実的な連続手話動画を生成するSignGANの提案 ④手話ネイティブによる評価を実施し、既存手法に比べ自然な翻訳であることを確認