手話xCV @ CVPR 2022 3 "A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation" 手話認識向け転移学習の提案 "Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Photo-Realistic Sign Language Production" 語彙制約のない写実的な連続手話動画の生成・翻訳【本日の紹介論文】 "C2SLR: Consistency-Enhanced Continuous Sign Language Recognition" 表情と手形状に注目した視覚特徴と系列特徴の組み合わせによる手話認識の性能向上 "MLSLT: Towards Multilingual Sign Language Translation" 多言語手話データセットの収集とマルチリンガルな手話認識の提案 "Sign Language Video Retrieval With Free-Form Textual Queries" テキストを用いた手話映像検索システムの提案
先行研究 8 手話スケルトンの生成が中心で、写実的な手話生成までは行われていない 加えて、天気予報ドメインの文章が中心であり、ドメイン制約がある 単語と単語の接続が無視されているため理解が難しい 画像引用:Neural Sign Language Synthesis: Words Are Our Glosses(WACV 2020) 単語と単語の接続を意識しているが、スケルトンのため写実的ではない 画像引用:Progressive Transformers for End-to-End Sign Language Production(ECCV 2020)
Gloss to Pose①(手話単語映像辞書の取り出し) 14 ※筆者の先行研究【Continuous 3D Multi-Channel Sign Language Production via Progressive Transformers and Mixture Density Networks. 2021.】を用いてスケルトン情報を取得 Gloss(トークン)をもとに、対応付けられた手話単語映像辞書を取り出し Glossの系列長がWであれば、手話単語映像辞書の系列長もW 【手話単語辞書について】 ・辞書ごとに異なる系列長Pのスケルトン情報を格納※ ・人物はまちまち ・辞書の拡張により、生成対象手話単語の語彙を増やすことが可能
Pose to Video④ 全体のLoss設計 21 GAN Loss マルチスケールに対応した以外はGANのいつもの損 失関数 これがなければGANではない VGG Loss 学習済みのVGGモデルのレイヤーを通して得られた特徴量の平均を lossとする 鮮明な画像を生成する効果がある Hand Key Point Loss 手指のボーン情報が本物かニセモノかを判定する 指の本数が変動しない一貫した手指画像を生成する効果がある Feature-Matching loss 生成画像をDiscriminatorに入力したときの中間層が実画像と同様になるよ うに設計 同一画像が大量に生成されるモード崩壊を防ぐ効果がある