Upgrade to Pro — share decks privately, control downloads, hide ads and more …

NC Camgoz(2020)

DaikiMachida
June 24, 2024
12

NC Camgoz(2020)

Sign Language Transformers: Joint End-to-end Sign Language Recognition and Translation
Necati Cihan Camgoz, Oscar Koller, Simon Hadfield, Richard Bowden

Prior work on Sign Language Translation has shown that having a mid-level sign gloss representation (effectively recognizing the individual signs) improves the translation performance drastically. In fact, the current state-of-the-art in translation requires gloss level tokenization in order to work. We introduce a novel transformer based architecture that jointly learns Continuous Sign Language Recognition and Translation while being trainable in an end-to-end manner. This is achieved by using a Connectionist Temporal Classification (CTC) loss to bind the recognition and translation problems into a single unified architecture. This joint approach does not require any ground-truth timing information, simultaneously solving two co-dependant sequence-to-sequence learning problems and leads to significant performance gains.
We evaluate the recognition and translation performances of our approaches on the challenging RWTH-PHOENIX-Weather-2014T (PHOENIX14T) dataset. We report state-of-the-art sign language recognition and translation results achieved by our Sign Language Transformers. Our translation networks outperform both sign video to spoken language and gloss to spoken language translation models, in some cases more than doubling the performance (9.58 vs. 21.80 BLEU-4 Score). We also share new baseline translation results using transformer networks for several other text-to-text sign language translation tasks.

DaikiMachida

June 24, 2024
Tweet

Transcript

  1. Sign Language Transformers: Joint End-to-end Sign Language Recognition and Translation

    Necati Cihan Camgoz¨ , Oscar Kollerq, Simon Hadfield and Richard Bowden CVSSP, University of Surrey, Guildford, UK, qMicrosoft, Munich, Germany(2020)
  2. 【各章要約】 1. Introduction ▪1.1 Sign Segmentation  ・手話翻訳:完璧な翻訳よりも グロスの連続手話認識 /CSLRが多い  →音声と手話の間のマッピングは複雑、単純な単語対手話のマッピングは難しい

     ・手話のセグメンテーション:連続した手話ビデオから トピック・コメント構造 (topic comment structures)より形成される手 話文を検出  ・手話の自動セグメンテーション に関する文献はいくつか研究あり、連続的な 手話翻訳に手話のセグメンテーションを利 用する研究は現在無い ▪1.2 Sign Language Recognition and Understanding  ・CSLR:話者の見え方、空間内での相互作用、 非同期的な多関節性 (asynchronous multi-articulatory nature)  →話題の限られた領域(cf. 天気予報)にしか適用できてない
  3. 【各章要約】 1. Introduction ▪1.3 Sign Language Translation  ・PHOENIX14T(by Camgoz(2028)):世界 初の手話動画から音声言語への翻訳

     ・ニューラル機械翻訳 (NMT)で処理  ・グロスを間に使用で性能が劇的向上  →グロス数はビデオフレーム数より少  →グロス抜きのSign2Textガイダンス無
  4. 【各章要約】 2. Related Work  ・J Bungeroth(2004):概念的なビデオベースの SLTシ ステム(右図)  ・S Ebling(2015):非手指特徴の自動生成

    をコア機械翻 訳ステップの後にスケジュールするシーケンス分類モデル (?)  ・SK Ko(2019):体のキーポイント座標を使用 し韓国手 話データセットで評価  ・A Vaswani(2017):transformer networksの導入が画 期的→従来のattentionベースのエンコーダーデコーダーアプ ローチに比べて翻訳性能を大幅改善  ・NC Camgoz(2020/今回):multiple co-dependent transformer networksを同時に訓練して関連タスクを共同 で解決する新しいアーキテクチャを提案
  5. 【各章要約】 3. Sign Language Transformers  ・目標:手話ビデオ V = (I1, ...,

    IT)(Tフレーム)を与 えられたときに、 N個のグロスから成る手話 グロス シーケンス G = (g1, ..., gN)およびU個の単語から成 る話し言葉の文 S = (w1, ..., wU)を生成する条件付 き確率p(G|V)およびp(S|V)の学習  ・現状: Sign2Text→性能低、Sign2Gloss2Text→手 話グロスの注釈の品質に依存  ・今回:訓練中にintermediate gloss supervision(?)をCTC loss(?)の形でSign Language Recognition Transformer(SLRT)エンコーダに注入 → デコーダに渡される情報を制限せずに、手話のより 意味のある時空間表現を学習 (?)
  6. 【各章要約】 3. Sign Language Transformers ▪3.1 Spatial and Word Embeddings

     ・古典的なNMTパイプライン に従い、 手話ビデオフレームと話し言葉の単語と いうトークンを埋め込む  ・muは話し言葉の単語wuの埋め込み 表現を指し、ftはCNNから得られる非線 形フレームレベルの空間表現(?)  ・A Vaswani(2017)の位置エンコーディ ング方法に従い、埋め込み表現に時間 的な順序情報を追加
  7. 【各章要約】 3. Sign Language Transformers ▪3.2 Sign Language Recognition Transformers

     ・認識の流れ:① 時空間表現 z1:Tが与えられる  →②線形射影層 とそれに続くソフトマックス活性化 を使用してフレームレベルのグロス確率 p(gt|V) を 取得  →③p(G|V) を使用してCSLR損失を計算  ・SLRT の訓練方法:フレームレベルのアノテー ション付きの交差エントロピー誤差 (cross-entropy loss)を使用、CTC(Connectionist Temporal Classification)などのシーケンスツーシーケンス学 習損失関数 を使用(弱教師あり学習 ) zt:フレーム It の時空間表現、 ˆf1:Tが与えられた時点 tで生成 π:パスを表す B:G(Gloss)に対応するすべての有効なパスのセット G*:正解のグロスシーケンス
  8. 【各章要約】 3. Sign Language Transformers ▪3.3 Sign Language Translation Transformers

     ・自動回帰型トランスフォーマーデコーダーモデ ル”SLTT”:文頭<bos>から文末<eos>まで位置エンコードさ れた単語埋め込みをマスクされた 自己注意層 (self-attention layer)に渡す  ・SLRTとSLTTの自己注意層から抽出された表現は組み 合わされ、ソースシーケンスとターゲットシーケンスのマッ ピングを学習するエンコーダーデコーダー注意モジュー ルに渡される  ・SLTTはシーケンスレベルの条件付き確率 p(S|V)を順序 付きの条件付き確率に分解 し訓練  ・認識損失LRと翻訳損失LTの重み付き合計である結合 損失項Lを最小化 することでネットワークを訓練
  9. 【各章要約】 4. Dataset and Translation Protocols  ・Sign2Text:グロスなどの中間表現を経由せずに連続手話ビデオから直接口語の文 に翻訳することを目的  ・Gloss2Text:グロスは多チャンネルの時間的信号のテキスト表現→Sign2Textシステ ムがGloss2Textを上回る可能性

     ・Sign2Gloss2Text:現在のSLTの最先端手法、CSLRモデルを使用して手話ビデオか らグロスシーケンスを抽出し、それをテキスト間の問題として翻訳  ・Sign2Gloss→Gloss2Text:グロス注釈の真値でトレーニングされた最良の Gloss2Textネットワークを使用 →Sign2(Gloss+Text)
  10. 【各章要約】 5. Quantitative Results ▪5.1 Implementation and Evaluation Details  ・Framework:JoeyNMTの修正版を使用、PyTorch+TensorFlow(CTCビームサーチデコーダ)

     ・Network Details:トランスフォーマーは各層に 512の隠れユニットと8つのヘッドを使用、Xavier初期化 を使用、トランスフォーマー層と単語埋め込みに 0.1のドロップアウト率を利用  ・Performance Metrics:CSLR性能を評価するための一般的な指標である単語誤り率( WER)を使用、 機械翻訳で最も一般的な指標である BLEUスコア(1から4までのn-グラム)を使用  ・Training:Adamオプティマイザーを使用して、バッチサイズ 32、学習率10^-3(β1=0.9、β2=0.998)、重 み減衰10^-3でネットワークをトレーニング  ・Decoding:グリーディサーチを使用してグロスシーケンスと口語文の両方をデコード、推論時にはビー ム幅が0から10の範囲でビームサーチデコーディングを利用
  11. 【各章要約】 5. Quantitative Results ▪5.2 Text-to-Text Sign Language Translation  ・テキスト間の手話翻訳にはトランスフォー

    マーを使用  →RNNベースの注意機構アーキテクチャに 対する性能向上を評価  →自己注意モジュールといったより高度な 注意機構アーキテクチャによる  →ソースシーケンスとターゲットシーケンス の両方における文脈情報を学習
  12. 【各章要約】 5. Quantitative Results ▪5.3 Sign2Gloss  ・どのCNNを使用するか:ImageNetで訓練されたEfficientNetシリーズを使用 ・CNN+LSTM+HMMセットアップで手話認識の学習に使用されたInception ネットワークを使用  ・空間埋め込み層

    :より高度になるにつれ認識性能が向上  ・入力を正規化 (ネットワークがより抽象的な非線形表現を学習):Batch NormalizationとReLU を続けて適用  ・トランスフォーマー層の数の影響 :層数を増やすことでネットワークがより抽象的な表現を学 習できるようになる&過剰適合しやすくもなる →3層の手話トランスフォーマーへ
  13. 【各章要約】 5. Quantitative Results ▪5.4 Sign2Text and Sign2(Gloss+Text)  ・認識と翻訳タスクを統合した単一モデルでの性能向上を検討 :、認識損失の重み

    λRをゼロに設定してSign2Textネットワークをトレーニング  ・認識と翻訳を等しい重み( λR=λT=1.0)で共同学習 :翻訳性能は向上したが特定のタ スクに特化したネットワークと比較して認識性能は低下  →Sign2(Gloss+Text)はGloss2Text翻訳性能を上回った  →ビデオ表現から直接翻訳する方がより良い性能を達成
  14. 【各章要約】 7. Conclusion and Future Work  ・”Sign Language Transformers”:手話認識と翻訳をエンドツーエンドで同時に学習 する新しいトランスフォーマーベースのアーキテクチャを提案

     ・手話データで事前学習された特徴を使用 することが、一般的なImageNetベースの 空間表現を使用するよりも優れている  ・認識と翻訳を共同で学習 することが、両タスクの性能を向上  ・ビデオ表現から音声言語の文を直接翻訳 することで、仮想上限として設定されてい たテキストからテキストへの翻訳結果を上回る  ・今後の課題:顔、手、体などの複数の手話発話器を個別にモデル化 し、それらの間 の言語関係を学習するようにネットワークを促進→これはMediapipe?
  15. 【次に読むべき論文】 ・A Vaswani(2017) ”Attention Is All You Need”  →Attentionモデルの本家論文 ・A

    Graves(2006) “Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks”  →CTCの本家論文 ・I Sutskever(2014) ”Sequence to Sequence Learning with Neural Networks”  →Seq2Seqの本家論文