輪講資料：UNI-SIGN: TOWARD UNIFIED SIGN LANGUAGE UN- DERSTANDING AT SCALE

井上純大（豊田工業大学知識データ工学研究室 M2） @ICLR2025 図表は論文，[1]より引用

論文概要 • 手話の事前学習と下流タスク間のギャップを解消するために，全てのタスクを次単語予測問題として統一的に扱う手法を提案

背景・目的 • 従来の事前学習手法と下流タスクでは目的関数が異なる • 事前学習: 自己教師あり学習や対照学習 • 下流タスク: 単語認識（分類），連続単語認識（CTC損失），翻訳
下流タスクの例 [1] [1] Necati Cihan Camgoz et al. Neural Sign Language Translation, In CVPR, 2018

提案手法｜全体像 • 事前学習と全ての下流タスクを次単語予測問題として処理 • 性能向上のために，動画とキーポイントを活用した特徴の作成入力：手，顔，体のキーポイント座標

提案手法｜次単語予測問題として定式化 • 事前学習と下流タスクで同じ目的関数で学習 →タスク間のギャップを解消 • 手話の特徴を言語モデル（mT5-base）に入力し，次単語を予測 • 損失関数: Fsign: キーポイントや動画から
得られる手話の特徴 s u : u番目のトークン

提案手法｜全体像 • 事前学習と全ての下流タスクを次単語予測問題として処理 • 性能向上のために，動画とキーポイントを活用した特徴の作成入力：手，顔，体のキーポイント座標

提案手法｜動画とキーポイントを活用した特徴の作成入力：手，顔，体のキーポイント座標 • 手・顔・体のキーポイント座標から別々に特徴を抽出 • 手の特徴抽出においてキーポイント推定の誤差を動画の特徴を利用して補完

提案手法｜動画とキーポイントを活用した特徴の作成入力：手，顔，体のキーポイント座標 • 手・顔・体のキーポイント座標から別々に特徴を抽出 • 手の特徴抽出においてキーポイント推定の誤差を動画の特徴を利用して補完キーポイントの座標キーポイントの特徴
動画の特徴

実験｜下流タスクでの性能評価 • 単語認識，連続単語認識，翻訳でSOTAを達成単語認識連続単語認識手話翻訳

Ablation study • 下流タスクを次単語予測として処理することの有効性を確認 • 単語認識を分類，連続単語認識を系列ラベリングで学習した時と比較 • 手・顔・体のキーポイントを全部使用することの有効性を確認

輪講資料：UNI-SIGN: TOWARD UNIFIED SIGN LANGUAGE UN-...

輪講資料：UNI-SIGN: TOWARD UNIFIED SIGN LANGUAGE UN- DERSTANDING AT SCALE

Jundai Inoue

More Decks by Jundai Inoue

Featured

Transcript

井上純大（豊田工業大学知識データ工学研究室 M2） @ICLR2025 図表は論文，[1]より引用

論文概要 • 手話の事前学習と下流タスク間のギャップを解消するために，全てのタスクを次単語予測問題として統一的に扱う手法を提案

背景・目的 • 従来の事前学習手法と下流タスクでは目的関数が異なる • 事前学習: 自己教師あり学習や対照学習 • 下流タスク: 単語認識（分類），連続単語認識（CTC損失），翻訳

提案手法｜全体像 • 事前学習と全ての下流タスクを次単語予測問題として処理 • 性能向上のために，動画とキーポイントを活用した特徴の作成入力：手，顔，体のキーポイント座標

提案手法｜全体像 • 事前学習と全ての下流タスクを次単語予測問題として処理 • 性能向上のために，動画とキーポイントを活用した特徴の作成入力：手，顔，体のキーポイント座標

提案手法｜全体像 • 事前学習と全ての下流タスクを次単語予測問題として処理 • 性能向上のために，動画とキーポイントを活用した特徴の作成入力：手，顔，体のキーポイント座標

実験｜下流タスクでの性能評価 • 単語認識，連続単語認識，翻訳でSOTAを達成単語認識連続単語認識手話翻訳

Ablation study • 下流タスクを次単語予測として処理することの有効性を確認 • 単語認識を分類，連続単語認識を系列ラベリングで学習した時と比較 • 手・顔・体のキーポイントを全部使用することの有効性を確認