Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【CVPR2022論文紹介】SignGAN

mkkon
November 11, 2022

 【CVPR2022論文紹介】SignGAN

CVPR2022で発表された論文
【Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Photo-Realistic Sign Language Production】の紹介

【解説記事】
https://qiita.com/mkkon/items/6c626252a722d522f4bf

【論文URL】https://openaccess.thecvf.com/content/CVPR2022/papers/Saunders_Signing_at_Scale_Learning_to_Co-Articulate_Signs_for_Large-Scale_Photo-Realistic_CVPR_2022_paper.pdf

mkkon

November 11, 2022
Tweet

Other Decks in Science

Transcript

  1. Signing at Scale: Learning to Co-
    Articulate Signs for Large-Scale Photo-
    Realistic Sign Language Production
    CVPR 2022
    特に注釈ない限り、画像は論文からの引用です

    View Slide

  2. 今、手話xCVがアツい?
    2
    https://github.com/ycmin95/awesome-Gesture-Sign-Language-Recognition
    CV系トップカンファレンスにおいて、手話を扱った論文が増加傾向
    ECCVではSLRTP(Sign Language Recognition,Translation&Production) Workshopも開催
    CVPR ECCV ICCV 合計
    2018 1 0 - 1
    2019 1 - 0 1
    2020 2 4 - 6
    2021 4 - 5 9
    2022 5 ? - 5
    0
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    2018 2019 2020 2021 2022
    件数

    ICCV
    ECCV
    CVPR
    CV系トップカンファレンス採択論文のうち、
    タイトルに“Sign Language”が含まれる論文の件数
    (ECCV,ICCVは隔年開催
    ECCVの採択論文は資料作成視点でまだ未公開)

    BERT
    (ArXiv 2018)

    ViT
    (ArXiv 2020,
    ICLR 2021)

    View Slide

  3. 手話xCV @ CVPR 2022
    3
    "A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation"
    手話認識向け転移学習の提案
    "Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Photo-Realistic Sign
    Language Production"
    語彙制約のない写実的な連続手話動画の生成・翻訳【本日の紹介論文】
    "C2SLR: Consistency-Enhanced Continuous Sign Language Recognition"
    表情と手形状に注目した視覚特徴と系列特徴の組み合わせによる手話認識の性能向上
    "MLSLT: Towards Multilingual Sign Language Translation"
    多言語手話データセットの収集とマルチリンガルな手話認識の提案
    "Sign Language Video Retrieval With Free-Form Textual Queries"
    テキストを用いた手話映像検索システムの提案

    View Slide

  4. 本論文の概要
    4
    https://openaccess.thecvf.com/content/CVPR2022/papers/Saunders_Signing_at_Scale_Learning_to_Co-Articulate_Signs_for_Large-Scale_Photo-Realistic_CVPR_2022_paper.pdf
    GANを用いた自由文からの語彙制約のない写実的な連続手話動画の生成・翻訳

    View Slide

  5. なぜ機械手話動画生成のニーズがあるのか?
    5
    聴覚障害者と書記言語
    手話と書記言語は文法・表現方法が大きく異なるため、手話を第一言語とする聴覚障害者が書
    記言語を習得することはハードルが高い
    そのため「音声言語を書記言語に変換する」だけでは手話を第一言語とする聴覚障害者をカ
    バーできない
    手話通訳者と機械手話生成
    手話通訳者(interpreter)による通訳はそれをカバーする手段だが、大きな手間がかかるため
    手軽な機械手話動画生成のニーズが高い
    特に緊急地震速報など手話通訳者が存在しない状況では、速報性を優先するため機械による手
    話生成が求められる

    View Slide

  6. なぜ手話分析は難しいのか?①
    6
    画像引用:https://www2.nhk.or.jp/signlanguage/wenquete.cgi?gid=2
    複数モダリティの統合が必要
    手形状・動き・口形に加え、CL(Classifire:相対的な位置情報)・NMS(Non-manual
    Signals:表情等を用いた感情・文法表現)といった手話特有の要素が存在
    → CV・NLP・3次元空間解析といった複数のML技術を統合しなければ処理できない高度タス

    NHKの手話CG(手話話者のモーションをキャプチャしCG変換)

    View Slide

  7. なぜ手話分析は難しいのか?②
    7
    画像引用:RWTH-PHOENIX-Weather: A Large Vocabulary Sign Language Recognition and Translation Corpus(LREC 2012)
    大規模な汎用手話コーパスが存在しない
    手話に対応した書記言語(※)
    が一般的に普及しておらず、手話動画へのアノテーションが困難
    → 機械学習に活用できる大規模コーパスが構築されていない
    天気予報のコーパス
    (大規模コーパスは存在するものの、シーンが限定的)
    ※Glossと呼ばれる手話言語を文字表現で表したものは存在するが、書記言語では
    ない

    View Slide

  8. 先行研究
    8
    手話スケルトンの生成が中心で、写実的な手話生成までは行われていない
    加えて、天気予報ドメインの文章が中心であり、ドメイン制約がある
    単語と単語の接続が無視されているため理解が難しい
    画像引用:Neural Sign Language Synthesis: Words Are Our Glosses(WACV 2020)
    単語と単語の接続を意識しているが、スケルトンのため写実的ではない
    画像引用:Progressive Transformers for End-to-End Sign Language Production(ECCV 2020)

    View Slide

  9. 本論文の概要・貢献
    9
    https://openaccess.thecvf.com/content/CVPR2022/papers/Saunders_Signing_at_Scale_Learning_to_Co-Articulate_Signs_for_Large-Scale_Photo-Realistic_CVPR_2022_paper.pdf
    GANを用いた自由文からの語彙制約のない写実的な連続手話動画の生成・翻訳
    【本論文の貢献】
    ①制約がなく、ネイティブが理解できる大規模手話動画生成(翻訳)モデルの提案
    ②連続手話動画生成時に手話単語動画から適切なフレームを選択するFS-Netの提案
    ③写実的な連続手話動画を生成するSignGANの提案
    ④手話ネイティブによる評価を実施し、既存手法に比べ自然な翻訳であることを確認

    View Slide

  10. 全体のアーキテクチャ
    10

    View Slide

  11. 全体のアーキテクチャ
    11
    ①Text to Gloss ②Gloss to Pose ③Pose to Video

    View Slide

  12. Text to Gloss
    12
    https://www.lifeprint.com/asl101/topics/gloss.htm
    テキストをGloss(ここではトークン)に変換
    テキストと手話は文法が異なるため、異なる系列長への変換問題として扱う必要がある
    今回は系列長U→系列長Zへの変換問題として扱う
    𝑓𝑢
    = 𝐸𝑛𝑐(𝑥𝑢
    )
    𝑥𝑢
    𝑧𝑤
    :
    :
    :
    :
    𝑥𝑈
    𝑥𝑢+1
    𝑓𝑢+1
    = 𝐸𝑛𝑐(𝑥𝑢+1
    )
    Encoder Decoder 𝑧𝑤+1
    :
    :
    :
    :
    𝑧𝑊
    𝑧0


    系列長Uのテキスト 系列長ZのGloss
    RNNのように前ステップの出力を再入力
    することで異なる系列長を扱えるように
    する
    ※Gloss:手話言語を(無理やり)文字表現で表したもの。書記言語ではない。

    View Slide

  13. Text to Glossのイメージ
    13
    画像引用:https://www.nhk.or.jp/strl/publica/rd/134/8.html
    NHKの手話CG生成技術を例に挙げて紹介

    View Slide

  14. Gloss to Pose①(手話単語映像辞書の取り出し)
    14
    ※筆者の先行研究【Continuous 3D Multi-Channel Sign Language Production via Progressive Transformers and
    Mixture Density Networks. 2021.】を用いてスケルトン情報を取得
    Gloss(トークン)をもとに、対応付けられた手話単語映像辞書を取り出し
    Glossの系列長がWであれば、手話単語映像辞書の系列長もW
    【手話単語辞書について】
    ・辞書ごとに異なる系列長Pのスケルトン情報を格納※
    ・人物はまちまち
    ・辞書の拡張により、生成対象手話単語の語彙を増やすことが可能

    View Slide

  15. Gloss to Pose②(手話単語映像辞書の結合)
    15
    辞書と辞書を結合し、連続した系列に変換するため隣接辞書の間を線形補完
    事前に設定したフレーム長 で線形補完
    最終的に長さQの系列 が得られる
    𝑁𝐿𝐼
    I = 𝐼1
    , 𝐼2
    , … , 𝐼𝑄
    𝑁𝐿𝐼
    は今回の実験設定では5

    View Slide

  16. Gloss to Pose③(手話辞書系列の埋め込み表現獲得)
    16
    Counter Embedding は 筆者の先行研究参照 Progressive Transformers for End-to-End Sign Language Production(ECCV 2020)
    手話辞書系列の埋め込み特徴を獲得する
    手話辞書ごとに異なるGloss Embedding
    手話辞書ごとに異なるLocal Counter Embedding
    全辞書で共通のGlobal Counter Embedding
    【Counter Embedding】
    各フレームI(スケルトン)が手話
    単語映像辞書のどの位置にあるかを
    示す特徴。テキストとは異なり、手
    話表現は要素ごとに表現の長さが異
    なるためこの特徴が必要
    例:https://youtu.be/d5Res5POg10?t=475

    View Slide

  17. Gloss to Pose④(FS-Netを用いたフレーム選択)
    17
    FS-Net(Frame Selection Network)を用いたフレーム選択を行う
    冗長なフレームを除去し、映像を滑らかにする効果がある
    ここまでの処理により、なめらかな連続手話のスケルトン系列が得られる

    View Slide

  18. Pose to Video① SignGAN概要
    18
    スケルトン系列では人間が見ても理解できないため、写実的な手話映像系列に変換
    StyleGANをベースにSkip ConnectionおよびMulti-Scale Discriminatorを導入
    単純なPose to Videoだと手話単語ごとに
    人物が異なり違和感が生じる
    スタイル画像を用い人物指定することで
    同一人物による手話映像系列が生成される

    View Slide

  19. Pose to Video② Hand keypoint loss
    19
    適切な手指表現になるようHand keypoint lossを導入
    生成画像ごとに手指表現がぶれないようにする効果がある
    手話は手指の動きが多くぶれやすいため、手指画像をHand Keypointに変換し損失を算出
    実画像のHand
    Keypoint
    生成画像のHand
    Keypoint
    Keypointを対象

    GANと同等の
    損失関数を設計

    View Slide

  20. Pose to Video③ Hand keypoint loss がないとどうなる?
    20
    画像生成でよくある例
    指がない
    引用)
    https://pbs.twimg.com/media/FcSVAruakAAIxGq?format=jpg&name=900x900
    指のスキマから指が生えている
    引用)
    https://pbs.twimg.com/media/
    FcaQJUFaIAEQngZ?format=jpg
    &name=large
    手がふたつある
    引用)
    https://pbs.twimg.com/media/Fc
    GgCT_aMAQi-
    7T?format=png&name=900x900

    View Slide

  21. Pose to Video④ 全体のLoss設計
    21
    GAN Loss
    マルチスケールに対応した以外はGANのいつもの損
    失関数
    これがなければGANではない
    VGG Loss
    学習済みのVGGモデルのレイヤーを通して得られた特徴量の平均を
    lossとする
    鮮明な画像を生成する効果がある
    Hand Key Point Loss
    手指のボーン情報が本物かニセモノかを判定する
    指の本数が変動しない一貫した手指画像を生成する効果がある
    Feature-Matching loss
    生成画像をDiscriminatorに入力したときの中間層が実画像と同様になるよ
    うに設計
    同一画像が大量に生成されるモード崩壊を防ぐ効果がある

    View Slide

  22. できあがり!
    22

    View Slide

  23. 実験
    23
    DGS Corpus & Dicta-Sign: The Hamburg Studio Setup(CSLT 2010)
    データセット
    Meine DGS (mDGS) コーパス
    人数:330人のろう者
    形式:自由形式の手話
    言語:ドイツ手話
    語彙数:10042語
    フリートークを①ドイツ語の文章、②Gloss、③手話動画で構成される40,230のセグメントに分割
    同一意味の異なる表現を含む mDGS-V と、同一意味の異なる表現を含まない mDGS を用意
    追加データセット
    RWTH-PHOENIX-Weather 2014 T:ドイツの手話通訳付きニュース・天気予報
    CSL-Daily:スタジオで収録された中国手話の日常会話
    C4A dataset : 多様な手話通訳者が含まれる高画質データセット。写実画像生成に使う
    こんな感じのところで対面で座り、
    フリートークで撮影

    View Slide

  24. 実験
    24
    実験パラメタ
    Text to Gloss:2層・隠れ層128次元・4ヘッドのNN
    FS-Net:2層・隠れ層64次元・4ヘッドのNN
    補完フレーム数𝑁𝐿𝐼
    :5
    学習率:10^-3
    評価指標
    BLEU-4:生成結果のN-Gramが正解に含まれる割合(Precision)
    ROUGE:正解のN-Gramが生成結果に含まれる割合(Recall)

    View Slide

  25. 実験① Text to Gloss
    25
    ドメインが限定的なPHOENIX14T(天気予報)データセットでは、Data Augmentationを使
    わない既存手法に対し優位性を確認
    ドメインの制約がないmDGS-VおよびmDGSデータセットではスコアが低く、大規模語彙への
    対応の必要性が示唆されている
    ベースライン:
    BLEU-4 : 20.23(PHOENIX14T)
    BLEU-4 : 23.17(PHOENIX14T + Data Augmentation)

    View Slide

  26. 実験② Gloss to Pose – 定量評価
    26
    生成されたスケルトン情報を用いて学習した手話翻訳モデルを用い、生成スケルトンを評価す
    る(Back Translation)。
    手話翻訳モデルの翻訳結果を用い、BLEU-4とROUGEで評価
    既存手法に対する有効性とFS-Netによる冗長フレーム除去の有効性を確認
    FS-Netによる
    冗長フレームの除去を
    行わないケース
    生成スケルトンを
    使って
    モデル学習

    View Slide

  27. 実験② Gloss to Pose – 定性評価①
    27
    手話ユーザ10名(うち2名は聴覚障害者)による相対評価
    スケルトン生成方法だけが異なる同一シーケンスから生成した写実映像を視聴し、どちらが理
    解しやすいかを確認
    両方のデータセットで、FS-Netのほうが理解しやすいと答えた人がほとんど
    動画中で用いられている5つの手話単語を当てるタスクでも、平均4.8個の正解率

    View Slide

  28. 実験② Gloss to Pose – 定性評価②
    28
    手話単語のつなぎがどれくらい自然かを評価
    FS-Netにより生成された動画と、孤立した辞書シーケンス動画(Isolated)を比較
    トリムしない場合はFS-Netのほうが自然、トリムした場合は同程度という結果

    View Slide

  29. 実験③ Pose to Video – 定量評価
    29
    以下の評価指標を用いてSignGANを評価
    1) SSIM: 画像の品質評価に用いる指標。生成画像と正解画像の輝度・コントラスト・構造を比較する
    ことで算出。
    2) Hand SSIM: SSIMを手に対して算出したもの。
    3) Hand Pose: 生成画像と正解画像の Hand Keypoint の距離差。手位置のずれを評価する。
    4) FID:画像の品質評価に用いる指標。生成画像の分布と実画像の分布の差を示す。
    C4Aデータセットを用いた評価において有効性を確認。特にHand SSIMとHand PoseはHand
    Keypoint Loss が効いた

    View Slide

  30. 実験③ Pose to Video – 定性評価
    30
    生成動画を48人の被験者(うち28%が手話話者)に視聴してもらい、写実性を評価
    SignGANのほうが良いと答えた被験者の割合を測定。すべてのベースラインに対し、8割以上
    の被験者がSignGANのほうが写実性が高いと評価

    View Slide

  31. 実験③ Pose to Video – 定性評価②
    31
    スケルトン動画と生成動画を聴覚障害者に視聴してもらい、どちらが理解しやすいかを5段階
    で確認
    スケルトン動画:3.2
    生成動画:3.9
    今回生成した写実的な動画は、スケルトン動画よりも理解度が向上することが示された

    View Slide

  32. まとめ
    32
    https://openaccess.thecvf.com/content/CVPR2022/papers/Saunders_Signing_at_Scale_Learning_to_Co-Articulate_Signs_for_Large-Scale_Photo-Realistic_CVPR_2022_paper.pdf
    GANを用いた自由文からの写実的な連続手話動画の生成・翻訳
    【本論文の貢献】
    ①制約がなく、ネイティブが理解できる大規模手話動画生成(翻訳)モデルの提案
    ②連続手話動画生成時に手話単語動画から適切なフレームを選択するFS-Netの提案
    ③写実的な連続手話動画を生成するSignGANの提案
    ④手話ネイティブによる評価を実施し、既存手法に比べ自然な翻訳であることを確認

    View Slide