NC Camgoz(2020)

Sign Language Transformers: Joint End-to-end Sign Language Recognition and Translation
Necati Cihan Camgoz¨ , Oscar Kollerq, Simon Hadﬁeld and Richard Bowden CVSSP, University of Surrey, Guildford, UK, qMicrosoft, Munich, Germany(2020)

【各章要約】 1. Introduction ▪1.1 Sign Segmentation 　・手話翻訳：完璧な翻訳よりもグロスの連続手話認識 /CSLRが多い　→音声と手話の間のマッピングは複雑、単純な単語対手話のマッピングは難しい
　・手話のセグメンテーション：連続した手話ビデオからトピック・コメント構造 (topic comment structures)より形成される手話文を検出　・手話の自動セグメンテーションに関する文献はいくつか研究あり、連続的な手話翻訳に手話のセグメンテーションを利用する研究は現在無い ▪1.2 Sign Language Recognition and Understanding 　・CSLR：話者の見え方、空間内での相互作用、非同期的な多関節性 (asynchronous multi-articulatory nature) 　→話題の限られた領域(cf. 天気予報)にしか適用できてない

【各章要約】 1. Introduction ▪1.3 Sign Language Translation 　・PHOENIX14T(by Camgoz(2028))：世界初の手話動画から音声言語への翻訳
　・ニューラル機械翻訳 (NMT)で処理　・グロスを間に使用で性能が劇的向上　→グロス数はビデオフレーム数より少　→グロス抜きのSign2Textガイダンス無

【各章要約】 2. Related Work 　・J Bungeroth(2004)：概念的なビデオベースの SLTシステム(右図) 　・S Ebling(2015)：非手指特徴の自動生成
をコア機械翻訳ステップの後にスケジュールするシーケンス分類モデル (？) 　・SK Ko(2019)：体のキーポイント座標を使用し韓国手話データセットで評価　・A Vaswani(2017)：transformer networksの導入が画期的→従来のattentionベースのエンコーダーデコーダーアプローチに比べて翻訳性能を大幅改善　・NC Camgoz(2020/今回)：multiple co-dependent transformer networksを同時に訓練して関連タスクを共同で解決する新しいアーキテクチャを提案

【各章要約】 3. Sign Language Transformers 　・目標：手話ビデオ V = (I1, ...,
IT)（Tフレーム）を与えられたときに、 N個のグロスから成る手話グロスシーケンス G = (g1, ..., gN)およびU個の単語から成る話し言葉の文 S = (w1, ..., wU)を生成する条件付き確率p(G|V)およびp(S|V)の学習　・現状： Sign2Text→性能低、Sign2Gloss2Text→手話グロスの注釈の品質に依存　・今回：訓練中にintermediate gloss supervision(?)をCTC loss(?)の形でSign Language Recognition Transformer（SLRT）エンコーダに注入 → デコーダに渡される情報を制限せずに、手話のより意味のある時空間表現を学習 (?)

【各章要約】 3. Sign Language Transformers ▪3.1 Spatial and Word Embeddings
　・古典的なNMTパイプラインに従い、手話ビデオフレームと話し言葉の単語というトークンを埋め込む　・muは話し言葉の単語wuの埋め込み表現を指し、ftはCNNから得られる非線形フレームレベルの空間表現(?) 　・A Vaswani(2017)の位置エンコーディング方法に従い、埋め込み表現に時間的な順序情報を追加

【各章要約】 3. Sign Language Transformers ▪3.2 Sign Language Recognition Transformers
　・認識の流れ：① 時空間表現 z1:Tが与えられる　→②線形射影層とそれに続くソフトマックス活性化を使用してフレームレベルのグロス確率 p(gt|V) を取得　→③p(G|V) を使用してCSLR損失を計算　・SLRT の訓練方法：フレームレベルのアノテーション付きの交差エントロピー誤差 (cross-entropy loss)を使用、CTC(Connectionist Temporal Classiﬁcation)などのシーケンスツーシーケンス学習損失関数を使用(弱教師あり学習 ) zt：フレーム It の時空間表現、 ˆf1:Tが与えられた時点 tで生成 π：パスを表す B：G(Gloss)に対応するすべての有効なパスのセット G*：正解のグロスシーケンス

【各章要約】 3. Sign Language Transformers ▪3.3 Sign Language Translation Transformers
　・自動回帰型トランスフォーマーデコーダーモデル”SLTT”：文頭<bos>から文末<eos>まで位置エンコードされた単語埋め込みをマスクされた自己注意層 (self-attention layer)に渡す　・SLRTとSLTTの自己注意層から抽出された表現は組み合わされ、ソースシーケンスとターゲットシーケンスのマッピングを学習するエンコーダーデコーダー注意モジュールに渡される　・SLTTはシーケンスレベルの条件付き確率 p(S|V)を順序付きの条件付き確率に分解し訓練　・認識損失LRと翻訳損失LTの重み付き合計である結合損失項Lを最小化することでネットワークを訓練

【各章要約】 4. Dataset and Translation Protocols 　・Sign2Text：グロスなどの中間表現を経由せずに連続手話ビデオから直接口語の文に翻訳することを目的　・Gloss2Text：グロスは多チャンネルの時間的信号のテキスト表現→Sign2TextシステムがGloss2Textを上回る可能性
　・Sign2Gloss2Text：現在のSLTの最先端手法、CSLRモデルを使用して手話ビデオからグロスシーケンスを抽出し、それをテキスト間の問題として翻訳　・Sign2Gloss→Gloss2Text：グロス注釈の真値でトレーニングされた最良の Gloss2Textネットワークを使用　→Sign2(Gloss+Text)

【各章要約】 5. Quantitative Results ▪5.1 Implementation and Evaluation Details 　・Framework：JoeyNMTの修正版を使用、PyTorch＋TensorFlow(CTCビームサーチデコーダ)
　・Network Details：トランスフォーマーは各層に 512の隠れユニットと8つのヘッドを使用、Xavier初期化を使用、トランスフォーマー層と単語埋め込みに 0.1のドロップアウト率を利用　・Performance Metrics：CSLR性能を評価するための一般的な指標である単語誤り率（ WER）を使用、機械翻訳で最も一般的な指標である BLEUスコア（1から4までのn-グラム）を使用　・Training：Adamオプティマイザーを使用して、バッチサイズ 32、学習率10^-3（β1=0.9、β2=0.998）、重み減衰10^-3でネットワークをトレーニング　・Decoding：グリーディサーチを使用してグロスシーケンスと口語文の両方をデコード、推論時にはビーム幅が0から10の範囲でビームサーチデコーディングを利用

【各章要約】 5. Quantitative Results ▪5.2 Text-to-Text Sign Language Translation 　・テキスト間の手話翻訳にはトランスフォー
マーを使用　→RNNベースの注意機構アーキテクチャに対する性能向上を評価　→自己注意モジュールといったより高度な注意機構アーキテクチャによる　→ソースシーケンスとターゲットシーケンスの両方における文脈情報を学習

【各章要約】 5. Quantitative Results ▪5.3 Sign2Gloss 　・どのCNNを使用するか：ImageNetで訓練されたEﬃcientNetシリーズを使用・CNN+LSTM+HMMセットアップで手話認識の学習に使用されたInception ネットワークを使用　・空間埋め込み層
：より高度になるにつれ認識性能が向上　・入力を正規化 (ネットワークがより抽象的な非線形表現を学習)：Batch NormalizationとReLU を続けて適用　・トランスフォーマー層の数の影響：層数を増やすことでネットワークがより抽象的な表現を学習できるようになる＆過剰適合しやすくもなる →3層の手話トランスフォーマーへ

【各章要約】 5. Quantitative Results ▪5.4 Sign2Text and Sign2(Gloss+Text) 　・認識と翻訳タスクを統合した単一モデルでの性能向上を検討：、認識損失の重み
λRをゼロに設定してSign2Textネットワークをトレーニング　・認識と翻訳を等しい重み（ λR=λT=1.0）で共同学習：翻訳性能は向上したが特定のタスクに特化したネットワークと比較して認識性能は低下　→Sign2(Gloss+Text)はGloss2Text翻訳性能を上回った　→ビデオ表現から直接翻訳する方がより良い性能を達成

【各章要約】 6. Qualitative Results 　・Sign2(Gloss+Text)モデル　による音声言語翻訳 (右図) 　・全体として翻訳の品質は良好　・一部の難しい翻訳：特定の　固有名詞・数字

【各章要約】 7. Conclusion and Future Work 　・”Sign Language Transformers”：手話認識と翻訳をエンドツーエンドで同時に学習する新しいトランスフォーマーベースのアーキテクチャを提案
　・手話データで事前学習された特徴を使用することが、一般的なImageNetベースの空間表現を使用するよりも優れている　・認識と翻訳を共同で学習することが、両タスクの性能を向上　・ビデオ表現から音声言語の文を直接翻訳することで、仮想上限として設定されていたテキストからテキストへの翻訳結果を上回る　・今後の課題：顔、手、体などの複数の手話発話器を個別にモデル化し、それらの間の言語関係を学習するようにネットワークを促進→これはMediapipe?

【次に読むべき論文】・A Vaswani(2017) ”Attention Is All You Need” 　→Attentionモデルの本家論文・A
Graves(2006) “Connectionist Temporal Classiﬁcation: Labelling Unsegmented Sequence Data with Recurrent Neural Networks” 　→CTCの本家論文・I Sutskever(2014) ”Sequence to Sequence Learning with Neural Networks” 　→Seq2Seqの本家論文

NC Camgoz(2020)

NC Camgoz(2020)

DaikiMachida

Featured

Transcript

Sign Language Transformers: Joint End-to-end Sign Language Recognition and Translation

【各章要約】 1. Introduction ▪1.1 Sign Segmentation 　・手話翻訳：完璧な翻訳よりもグロスの連続手話認識 /CSLRが多い　→音声と手話の間のマッピングは複雑、単純な単語対手話のマッピングは難しい

【各章要約】 1. Introduction ▪1.3 Sign Language Translation 　・PHOENIX14T(by Camgoz(2028))：世界初の手話動画から音声言語への翻訳

【各章要約】 2. Related Work 　・J Bungeroth(2004)：概念的なビデオベースの SLTシステム(右図) 　・S Ebling(2015)：非手指特徴の自動生成

【各章要約】 3. Sign Language Transformers 　・目標：手話ビデオ V = (I1, ...,

【各章要約】 3. Sign Language Transformers ▪3.1 Spatial and Word Embeddings

【各章要約】 3. Sign Language Transformers ▪3.2 Sign Language Recognition Transformers

【各章要約】 3. Sign Language Transformers ▪3.3 Sign Language Translation Transformers

【各章要約】 5. Quantitative Results ▪5.1 Implementation and Evaluation Details 　・Framework：JoeyNMTの修正版を使用、PyTorch＋TensorFlow(CTCビームサーチデコーダ)

【各章要約】 5. Quantitative Results ▪5.2 Text-to-Text Sign Language Translation 　・テキスト間の手話翻訳にはトランスフォー

【各章要約】 5. Quantitative Results ▪5.3 Sign2Gloss 　・どのCNNを使用するか：ImageNetで訓練されたEﬃcientNetシリーズを使用・CNN+LSTM+HMMセットアップで手話認識の学習に使用されたInception ネットワークを使用　・空間埋め込み層

【各章要約】 5. Quantitative Results ▪5.4 Sign2Text and Sign2(Gloss+Text) 　・認識と翻訳タスクを統合した単一モデルでの性能向上を検討：、認識損失の重み

【各章要約】 6. Qualitative Results 　・Sign2(Gloss+Text)モデル　による音声言語翻訳 (右図) 　・全体として翻訳の品質は良好　・一部の難しい翻訳：特定の　固有名詞・数字

【各章要約】 7. Conclusion and Future Work 　・”Sign Language Transformers”：手話認識と翻訳をエンドツーエンドで同時に学習する新しいトランスフォーマーベースのアーキテクチャを提案

【次に読むべき論文】・A Vaswani(2017) ”Attention Is All You Need” 　→Attentionモデルの本家論文・A