Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
輪講資料:UNI-SIGN: TOWARD UNIFIED SIGN LANGUAGE UN-...
Search
Jundai Inoue
May 24, 2025
0
12
輪講資料:UNI-SIGN: TOWARD UNIFIED SIGN LANGUAGE UN- DERSTANDING AT SCALE
5分で論文紹介
Jundai Inoue
May 24, 2025
Tweet
Share
More Decks by Jundai Inoue
See All by Jundai Inoue
500xCompressor: Generalized Prompt Compression for Large Language Models
jkmt
0
70
VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking
jkmt
0
470
T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text
jkmt
0
82
Featured
See All Featured
JAMstack: Web Apps at Ludicrous Speed - All Things Open 2022
reverentgeek
1
350
BBQ
matthewcrist
89
10k
What the history of the web can teach us about the future of AI
inesmontani
PRO
1
440
Large-scale JavaScript Application Architecture
addyosmani
515
110k
Build The Right Thing And Hit Your Dates
maggiecrowley
39
3k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Navigating Team Friction
lara
192
16k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
10
1.1k
Information Architects: The Missing Link in Design Systems
soysaucechin
0
780
Optimizing for Happiness
mojombo
379
71k
Max Prin - Stacking Signals: How International SEO Comes Together (And Falls Apart)
techseoconnect
PRO
0
89
It's Worth the Effort
3n
188
29k
Transcript
井上 純大(豊田工業大学 知識データ工学研究室 M2) @ICLR2025 図表は論文,[1]より引用
論文概要 • 手話の事前学習と下流タスク間のギャップを解消するために, 全てのタスクを次単語予測問題として統一的に扱う手法を提案
背景・目的 • 従来の事前学習手法と下流タスクでは目的関数が異なる • 事前学習: 自己教師あり学習や対照学習 • 下流タスク: 単語認識(分類),連続単語認識(CTC損失), 翻訳
下流タスクの例 [1] [1] Necati Cihan Camgoz et al. Neural Sign Language Translation, In CVPR, 2018
提案手法|全体像 • 事前学習と全ての下流タスクを次単語予測問題として処理 • 性能向上のために,動画とキーポイントを活用した特徴の作成 入力:手,顔,体のキーポイント座標
提案手法|全体像 • 事前学習と全ての下流タスクを次単語予測問題として処理 • 性能向上のために,動画とキーポイントを活用した特徴の作成 入力:手,顔,体のキーポイント座標
提案手法|次単語予測問題として定式化 • 事前学習と下流タスクで同じ目的関数で学習 →タスク間のギャップを解消 • 手話の特徴を言語モデル(mT5-base)に入力し,次単語を予測 • 損失関数: Fsign: キーポイントや動画から
得られる手話の特徴 s u : u番目のトークン
提案手法|全体像 • 事前学習と全ての下流タスクを次単語予測問題として処理 • 性能向上のために,動画とキーポイントを活用した特徴の作成 入力:手,顔,体のキーポイント座標
提案手法|動画とキーポイントを活用し た特徴の作成 入力:手,顔,体のキーポイント座標 • 手・顔・体のキーポイント座標から別々に特徴を抽出 • 手の特徴抽出においてキーポイント推定の誤差を動画の特徴を利用し て補完
提案手法|動画とキーポイントを活用し た特徴の作成 入力:手,顔,体のキーポイント座標 • 手・顔・体のキーポイント座標から別々に特徴を抽出 • 手の特徴抽出においてキーポイント推定の誤差を動画の特徴を利用し て補完 キーポイントの座標 キーポイントの特徴
動画の特徴
実験|下流タスクでの性能評価 • 単語認識,連続単語認識,翻訳でSOTAを達成 単語認識 連続 単語認識 手話翻訳
Ablation study • 下流タスクを次単語予測として処理することの有効性を確認 • 単語認識を分類,連続単語認識を系列ラベリングで学習した時と比較 • 手・顔・体のキーポイントを全部使用することの有効性を確認