Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
輪講資料:UNI-SIGN: TOWARD UNIFIED SIGN LANGUAGE UN-...
Search
Jundai Inoue
May 24, 2025
0
5
輪講資料:UNI-SIGN: TOWARD UNIFIED SIGN LANGUAGE UN- DERSTANDING AT SCALE
5分で論文紹介
Jundai Inoue
May 24, 2025
Tweet
Share
More Decks by Jundai Inoue
See All by Jundai Inoue
VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking
jkmt
0
210
T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text
jkmt
0
61
Featured
See All Featured
Thoughts on Productivity
jonyablonski
69
4.8k
The Straight Up "How To Draw Better" Workshop
denniskardys
236
140k
The Art of Programming - Codeland 2020
erikaheidi
54
13k
Scaling GitHub
holman
462
140k
Building a Scalable Design System with Sketch
lauravandoore
462
33k
A Tale of Four Properties
chriscoyier
160
23k
Code Reviewing Like a Champion
maltzj
525
40k
GraphQLの誤解/rethinking-graphql
sonatard
71
11k
The Cost Of JavaScript in 2023
addyosmani
53
8.8k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
47
9.6k
Typedesign – Prime Four
hannesfritz
42
2.8k
Rebuilding a faster, lazier Slack
samanthasiow
83
9.1k
Transcript
井上 純大(豊田工業大学 知識データ工学研究室 M2) @ICLR2025 図表は論文,[1]より引用
論文概要 • 手話の事前学習と下流タスク間のギャップを解消するために, 全てのタスクを次単語予測問題として統一的に扱う手法を提案
背景・目的 • 従来の事前学習手法と下流タスクでは目的関数が異なる • 事前学習: 自己教師あり学習や対照学習 • 下流タスク: 単語認識(分類),連続単語認識(CTC損失), 翻訳
下流タスクの例 [1] [1] Necati Cihan Camgoz et al. Neural Sign Language Translation, In CVPR, 2018
提案手法|全体像 • 事前学習と全ての下流タスクを次単語予測問題として処理 • 性能向上のために,動画とキーポイントを活用した特徴の作成 入力:手,顔,体のキーポイント座標
提案手法|全体像 • 事前学習と全ての下流タスクを次単語予測問題として処理 • 性能向上のために,動画とキーポイントを活用した特徴の作成 入力:手,顔,体のキーポイント座標
提案手法|次単語予測問題として定式化 • 事前学習と下流タスクで同じ目的関数で学習 →タスク間のギャップを解消 • 手話の特徴を言語モデル(mT5-base)に入力し,次単語を予測 • 損失関数: Fsign: キーポイントや動画から
得られる手話の特徴 s u : u番目のトークン
提案手法|全体像 • 事前学習と全ての下流タスクを次単語予測問題として処理 • 性能向上のために,動画とキーポイントを活用した特徴の作成 入力:手,顔,体のキーポイント座標
提案手法|動画とキーポイントを活用し た特徴の作成 入力:手,顔,体のキーポイント座標 • 手・顔・体のキーポイント座標から別々に特徴を抽出 • 手の特徴抽出においてキーポイント推定の誤差を動画の特徴を利用し て補完
提案手法|動画とキーポイントを活用し た特徴の作成 入力:手,顔,体のキーポイント座標 • 手・顔・体のキーポイント座標から別々に特徴を抽出 • 手の特徴抽出においてキーポイント推定の誤差を動画の特徴を利用し て補完 キーポイントの座標 キーポイントの特徴
動画の特徴
実験|下流タスクでの性能評価 • 単語認識,連続単語認識,翻訳でSOTAを達成 単語認識 連続 単語認識 手話翻訳
Ablation study • 下流タスクを次単語予測として処理することの有効性を確認 • 単語認識を分類,連続単語認識を系列ラベリングで学習した時と比較 • 手・顔・体のキーポイントを全部使用することの有効性を確認