Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
輪講資料:UNI-SIGN: TOWARD UNIFIED SIGN LANGUAGE UN-...
Search
Jundai Inoue
May 24, 2025
0
6
輪講資料:UNI-SIGN: TOWARD UNIFIED SIGN LANGUAGE UN- DERSTANDING AT SCALE
5分で論文紹介
Jundai Inoue
May 24, 2025
Tweet
Share
More Decks by Jundai Inoue
See All by Jundai Inoue
500xCompressor: Generalized Prompt Compression for Large Language Models
jkmt
0
43
VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking
jkmt
0
260
T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text
jkmt
0
66
Featured
See All Featured
Facilitating Awesome Meetings
lara
56
6.6k
For a Future-Friendly Web
brad_frost
180
9.9k
Learning to Love Humans: Emotional Interface Design
aarron
274
40k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
3k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
140
34k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
229
22k
Rebuilding a faster, lazier Slack
samanthasiow
84
9.2k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
114
20k
Become a Pro
speakerdeck
PRO
29
5.5k
Transcript
井上 純大(豊田工業大学 知識データ工学研究室 M2) @ICLR2025 図表は論文,[1]より引用
論文概要 • 手話の事前学習と下流タスク間のギャップを解消するために, 全てのタスクを次単語予測問題として統一的に扱う手法を提案
背景・目的 • 従来の事前学習手法と下流タスクでは目的関数が異なる • 事前学習: 自己教師あり学習や対照学習 • 下流タスク: 単語認識(分類),連続単語認識(CTC損失), 翻訳
下流タスクの例 [1] [1] Necati Cihan Camgoz et al. Neural Sign Language Translation, In CVPR, 2018
提案手法|全体像 • 事前学習と全ての下流タスクを次単語予測問題として処理 • 性能向上のために,動画とキーポイントを活用した特徴の作成 入力:手,顔,体のキーポイント座標
提案手法|全体像 • 事前学習と全ての下流タスクを次単語予測問題として処理 • 性能向上のために,動画とキーポイントを活用した特徴の作成 入力:手,顔,体のキーポイント座標
提案手法|次単語予測問題として定式化 • 事前学習と下流タスクで同じ目的関数で学習 →タスク間のギャップを解消 • 手話の特徴を言語モデル(mT5-base)に入力し,次単語を予測 • 損失関数: Fsign: キーポイントや動画から
得られる手話の特徴 s u : u番目のトークン
提案手法|全体像 • 事前学習と全ての下流タスクを次単語予測問題として処理 • 性能向上のために,動画とキーポイントを活用した特徴の作成 入力:手,顔,体のキーポイント座標
提案手法|動画とキーポイントを活用し た特徴の作成 入力:手,顔,体のキーポイント座標 • 手・顔・体のキーポイント座標から別々に特徴を抽出 • 手の特徴抽出においてキーポイント推定の誤差を動画の特徴を利用し て補完
提案手法|動画とキーポイントを活用し た特徴の作成 入力:手,顔,体のキーポイント座標 • 手・顔・体のキーポイント座標から別々に特徴を抽出 • 手の特徴抽出においてキーポイント推定の誤差を動画の特徴を利用し て補完 キーポイントの座標 キーポイントの特徴
動画の特徴
実験|下流タスクでの性能評価 • 単語認識,連続単語認識,翻訳でSOTAを達成 単語認識 連続 単語認識 手話翻訳
Ablation study • 下流タスクを次単語予測として処理することの有効性を確認 • 単語認識を分類,連続単語認識を系列ラベリングで学習した時と比較 • 手・顔・体のキーポイントを全部使用することの有効性を確認