Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【CVPR2022論文紹介】SignGAN

mkkon
November 11, 2022

 【CVPR2022論文紹介】SignGAN

CVPR2022で発表された論文
【Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Photo-Realistic Sign Language Production】の紹介

【解説記事】
https://qiita.com/mkkon/items/6c626252a722d522f4bf

【論文URL】https://openaccess.thecvf.com/content/CVPR2022/papers/Saunders_Signing_at_Scale_Learning_to_Co-Articulate_Signs_for_Large-Scale_Photo-Realistic_CVPR_2022_paper.pdf

mkkon

November 11, 2022
Tweet

Other Decks in Science

Transcript

  1. Signing at Scale: Learning to Co- Articulate Signs for Large-Scale

    Photo- Realistic Sign Language Production CVPR 2022 特に注釈ない限り、画像は論文からの引用です
  2. 今、手話xCVがアツい? 2 https://github.com/ycmin95/awesome-Gesture-Sign-Language-Recognition CV系トップカンファレンスにおいて、手話を扱った論文が増加傾向 ECCVではSLRTP(Sign Language Recognition,Translation&Production) Workshopも開催 CVPR ECCV

    ICCV 合計 2018 1 0 - 1 2019 1 - 0 1 2020 2 4 - 6 2021 4 - 5 9 2022 5 ? - 5 0 1 2 3 4 5 6 7 8 9 10 2018 2019 2020 2021 2022 件数 年 ICCV ECCV CVPR CV系トップカンファレンス採択論文のうち、 タイトルに“Sign Language”が含まれる論文の件数 (ECCV,ICCVは隔年開催 ECCVの採択論文は資料作成視点でまだ未公開) ↑ BERT (ArXiv 2018) ↑ ViT (ArXiv 2020, ICLR 2021)
  3. 手話xCV @ CVPR 2022 3 "A Simple Multi-Modality Transfer Learning

    Baseline for Sign Language Translation" 手話認識向け転移学習の提案 "Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Photo-Realistic Sign Language Production" 語彙制約のない写実的な連続手話動画の生成・翻訳【本日の紹介論文】 "C2SLR: Consistency-Enhanced Continuous Sign Language Recognition" 表情と手形状に注目した視覚特徴と系列特徴の組み合わせによる手話認識の性能向上 "MLSLT: Towards Multilingual Sign Language Translation" 多言語手話データセットの収集とマルチリンガルな手話認識の提案 "Sign Language Video Retrieval With Free-Form Textual Queries" テキストを用いた手話映像検索システムの提案
  4. なぜ手話分析は難しいのか?② 7 画像引用:RWTH-PHOENIX-Weather: A Large Vocabulary Sign Language Recognition and

    Translation Corpus(LREC 2012) 大規模な汎用手話コーパスが存在しない 手話に対応した書記言語(※) が一般的に普及しておらず、手話動画へのアノテーションが困難 → 機械学習に活用できる大規模コーパスが構築されていない 天気予報のコーパス (大規模コーパスは存在するものの、シーンが限定的) ※Glossと呼ばれる手話言語を文字表現で表したものは存在するが、書記言語では ない
  5. 先行研究 8 手話スケルトンの生成が中心で、写実的な手話生成までは行われていない 加えて、天気予報ドメインの文章が中心であり、ドメイン制約がある 単語と単語の接続が無視されているため理解が難しい 画像引用:Neural Sign Language Synthesis: Words

    Are Our Glosses(WACV 2020) 単語と単語の接続を意識しているが、スケルトンのため写実的ではない 画像引用:Progressive Transformers for End-to-End Sign Language Production(ECCV 2020)
  6. Text to Gloss 12 https://www.lifeprint.com/asl101/topics/gloss.htm テキストをGloss(ここではトークン)に変換 テキストと手話は文法が異なるため、異なる系列長への変換問題として扱う必要がある 今回は系列長U→系列長Zへの変換問題として扱う 𝑓𝑢 =

    𝐸𝑛𝑐(𝑥𝑢 ) 𝑥𝑢 𝑧𝑤 : : : : 𝑥𝑈 𝑥𝑢+1 𝑓𝑢+1 = 𝐸𝑛𝑐(𝑥𝑢+1 ) Encoder Decoder 𝑧𝑤+1 : : : : 𝑧𝑊 𝑧0 <EOS> <BOS> 系列長Uのテキスト 系列長ZのGloss RNNのように前ステップの出力を再入力 することで異なる系列長を扱えるように する ※Gloss:手話言語を(無理やり)文字表現で表したもの。書記言語ではない。
  7. Gloss to Pose①(手話単語映像辞書の取り出し) 14 ※筆者の先行研究【Continuous 3D Multi-Channel Sign Language Production

    via Progressive Transformers and Mixture Density Networks. 2021.】を用いてスケルトン情報を取得 Gloss(トークン)をもとに、対応付けられた手話単語映像辞書を取り出し Glossの系列長がWであれば、手話単語映像辞書の系列長もW 【手話単語辞書について】 ・辞書ごとに異なる系列長Pのスケルトン情報を格納※ ・人物はまちまち ・辞書の拡張により、生成対象手話単語の語彙を増やすことが可能
  8. Gloss to Pose③(手話辞書系列の埋め込み表現獲得) 16 Counter Embedding は 筆者の先行研究参照 Progressive Transformers

    for End-to-End Sign Language Production(ECCV 2020) 手話辞書系列の埋め込み特徴を獲得する 手話辞書ごとに異なるGloss Embedding 手話辞書ごとに異なるLocal Counter Embedding 全辞書で共通のGlobal Counter Embedding 【Counter Embedding】 各フレームI(スケルトン)が手話 単語映像辞書のどの位置にあるかを 示す特徴。テキストとは異なり、手 話表現は要素ごとに表現の長さが異 なるためこの特徴が必要 例:https://youtu.be/d5Res5POg10?t=475
  9. Pose to Video① SignGAN概要 18 スケルトン系列では人間が見ても理解できないため、写実的な手話映像系列に変換 StyleGANをベースにSkip ConnectionおよびMulti-Scale Discriminatorを導入 単純なPose

    to Videoだと手話単語ごとに 人物が異なり違和感が生じる スタイル画像を用い人物指定することで 同一人物による手話映像系列が生成される
  10. Pose to Video② Hand keypoint loss 19 適切な手指表現になるようHand keypoint lossを導入

    生成画像ごとに手指表現がぶれないようにする効果がある 手話は手指の動きが多くぶれやすいため、手指画像をHand Keypointに変換し損失を算出 実画像のHand Keypoint 生成画像のHand Keypoint Keypointを対象 に GANと同等の 損失関数を設計
  11. Pose to Video③ Hand keypoint loss がないとどうなる? 20 画像生成でよくある例 指がない

    引用) https://pbs.twimg.com/media/FcSVAruakAAIxGq?format=jpg&name=900x900 指のスキマから指が生えている 引用) https://pbs.twimg.com/media/ FcaQJUFaIAEQngZ?format=jpg &name=large 手がふたつある 引用) https://pbs.twimg.com/media/Fc GgCT_aMAQi- 7T?format=png&name=900x900
  12. Pose to Video④ 全体のLoss設計 21 GAN Loss マルチスケールに対応した以外はGANのいつもの損 失関数 これがなければGANではない

    VGG Loss 学習済みのVGGモデルのレイヤーを通して得られた特徴量の平均を lossとする 鮮明な画像を生成する効果がある Hand Key Point Loss 手指のボーン情報が本物かニセモノかを判定する 指の本数が変動しない一貫した手指画像を生成する効果がある Feature-Matching loss 生成画像をDiscriminatorに入力したときの中間層が実画像と同様になるよ うに設計 同一画像が大量に生成されるモード崩壊を防ぐ効果がある
  13. 実験 23 DGS Corpus & Dicta-Sign: The Hamburg Studio Setup(CSLT

    2010) データセット Meine DGS (mDGS) コーパス 人数:330人のろう者 形式:自由形式の手話 言語:ドイツ手話 語彙数:10042語 フリートークを①ドイツ語の文章、②Gloss、③手話動画で構成される40,230のセグメントに分割 同一意味の異なる表現を含む mDGS-V と、同一意味の異なる表現を含まない mDGS を用意 追加データセット RWTH-PHOENIX-Weather 2014 T:ドイツの手話通訳付きニュース・天気予報 CSL-Daily:スタジオで収録された中国手話の日常会話 C4A dataset : 多様な手話通訳者が含まれる高画質データセット。写実画像生成に使う こんな感じのところで対面で座り、 フリートークで撮影
  14. 実験 24 実験パラメタ Text to Gloss:2層・隠れ層128次元・4ヘッドのNN FS-Net:2層・隠れ層64次元・4ヘッドのNN 補完フレーム数𝑁𝐿𝐼 :5 学習率:10^-3

    評価指標 BLEU-4:生成結果のN-Gramが正解に含まれる割合(Precision) ROUGE:正解のN-Gramが生成結果に含まれる割合(Recall)
  15. 実験② Gloss to Pose – 定量評価 26 生成されたスケルトン情報を用いて学習した手話翻訳モデルを用い、生成スケルトンを評価す る(Back Translation)。

    手話翻訳モデルの翻訳結果を用い、BLEU-4とROUGEで評価 既存手法に対する有効性とFS-Netによる冗長フレーム除去の有効性を確認 FS-Netによる 冗長フレームの除去を 行わないケース 生成スケルトンを 使って モデル学習
  16. 実験② Gloss to Pose – 定性評価① 27 手話ユーザ10名(うち2名は聴覚障害者)による相対評価 スケルトン生成方法だけが異なる同一シーケンスから生成した写実映像を視聴し、どちらが理 解しやすいかを確認

    両方のデータセットで、FS-Netのほうが理解しやすいと答えた人がほとんど 動画中で用いられている5つの手話単語を当てるタスクでも、平均4.8個の正解率
  17. 実験③ Pose to Video – 定量評価 29 以下の評価指標を用いてSignGANを評価 1) SSIM:

    画像の品質評価に用いる指標。生成画像と正解画像の輝度・コントラスト・構造を比較する ことで算出。 2) Hand SSIM: SSIMを手に対して算出したもの。 3) Hand Pose: 生成画像と正解画像の Hand Keypoint の距離差。手位置のずれを評価する。 4) FID:画像の品質評価に用いる指標。生成画像の分布と実画像の分布の差を示す。 C4Aデータセットを用いた評価において有効性を確認。特にHand SSIMとHand PoseはHand Keypoint Loss が効いた