Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Journal club] UNITER: UNiversal Image-TExt Rep...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 20, 2022
Technology
0
1.4k
[Journal club] UNITER: UNiversal Image-TExt Representation Learning
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 20, 2022
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
Machine Intelligence for Vision, Language, and Actions
keio_smilab
PRO
0
590
[Journal club] V-DPO: Mitigating Hallucination in Large Vision Language Models via Vision-Guided Direct Preference Optimization
keio_smilab
PRO
0
140
[Journal club] Model Alignment as Prospect Theoretic Optimization
keio_smilab
PRO
0
160
[Journal club] DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models
keio_smilab
PRO
0
80
[Journal club] LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders
keio_smilab
PRO
2
110
Will multimodal language processing change the world?
keio_smilab
PRO
4
630
[Journal club] MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual Prompting
keio_smilab
PRO
0
200
[Journal club] Seeing the Unseen: Visual Common Sense for Semantic Placement
keio_smilab
PRO
0
180
[Journal club] Language-Embedded Gaussian Splats (LEGS): Incrementally Building Room-Scale Representations with a Mobile Robot
keio_smilab
PRO
0
190
Other Decks in Technology
See All in Technology
Liquid Glass革新とSwiftUI/UIKit進化
fumiyasac0921
0
210
25分で解説する「最小権限の原則」を実現するための AWS「ポリシー」大全 / 20250625-aws-summit-aws-policy
opelab
9
1.1k
GitHub Copilot の概要
tomokusaba
1
130
“社内”だけで完結していた私が、AWS Community Builder になるまで
nagisa53
1
390
あなたの声を届けよう! 女性エンジニア登壇の意義とアウトプット実践ガイド #wttjp / Call for Your Voice
kondoyuko
4
440
250627 関西Ruby会議08 前夜祭 RejectKaigi「DJ on Ruby Ver.0.1」
msykd
PRO
2
270
変化する開発、進化する体系時代に適応するソフトウェアエンジニアの知識と考え方(JaSST'25 Kansai)
mizunori
1
210
解析の定理証明実践@Lean 4
dec9ue
0
180
Understanding_Thread_Tuning_for_Inference_Servers_of_Deep_Models.pdf
lycorptech_jp
PRO
0
120
データプラットフォーム技術におけるメダリオンアーキテクチャという考え方/DataPlatformWithMedallionArchitecture
smdmts
5
630
生成AI時代 文字コードを学ぶ意義を見出せるか?
hrsued
1
310
PHP開発者のためのSOLID原則再入門 #phpcon / PHP Conference Japan 2025
shogogg
4
730
Featured
See All Featured
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
130
19k
Rebuilding a faster, lazier Slack
samanthasiow
82
9.1k
We Have a Design System, Now What?
morganepeng
53
7.7k
How to Ace a Technical Interview
jacobian
277
23k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
15
1.5k
Build your cross-platform service in a week with App Engine
jlugia
231
18k
Imperfection Machines: The Place of Print at Facebook
scottboms
267
13k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
2.8k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Navigating Team Friction
lara
187
15k
The World Runs on Bad Software
bkeepers
PRO
69
11k
Docker and Python
trallard
44
3.4k
Transcript
慶應義塾大学 杉浦孔明研究室 是方諒介 UNITER: UNiversal Image-TExt Representation Learning Yen-Chun Chen,
Linjie Li, Licheng Yu, Ahmed El Kholy, Faisal Ahmed, Zhe Gan, Yu Cheng, Jingjing Liu (Microsoft Dynamics 365 AI Research) ECCV 2020 Chen, Yen-Chun, et al. "UNITER: UNiversal Image-TExt Representation Learning." ECCV 2020.
概要 背景 ✓ 画像と言語の汎用的な共同表現の需要 提案 ✓ transformerを中核とした大規模な事前学習済みモデル ✓ 4種の自己教師あり事前学習タスクで共同表現を学習 結果
✓ fine-tuningにより、6種のタスクでSOTAを達成 2
背景:画像と言語の汎用的な共同表現の需要 ◼ Vision and Language (V&L) において、画像・言語間の関係性の学習は必須 ◼ 一般に、共同表現は各タスクに特化 タスク間で共有できず不便
3 Model Task MCB [Fukui+ EMNLP17] ・Visual Question Answering (VQA) BAN [Kim+ NeurIPS18] SCAN [Lee+ ECCV18] ・Image-Text Retrieval ・Referring Expression Comprehension MAttNet [Yu+ CVPR18] 欠点:学習された表現はタスクに強く依存 既存モデル例 MCB
関連研究:自己教師あり事前学習への関心の高まり ◼ 自己教師あり学習 ◼ 教師なし学習の一種 ◼ データ自身から独自のラベルを機械的に生成 ◼ 事前学習 ◼
大規模なデータセットで予め有用な初期値を得る ◼ 個別のタスクに応じてfine-tuning 4 Model Detail LXMERT [Tan+ EMNLP19] ・画像とテキストを独立して埋め込む ・2ストリーム構造 VL-BERT [Su+ ICLR20] ・一つのtransformerを画像とテキストの両方に適用 ・1ストリーム構造 マルチモーダルタスクのための自己教師あり事前学習が流行 VL-BERT
提案手法:UNITER (UNiversal Image-TExt Representation) ◼ transformer [Vaswani+ NeurIPS17] を中核とした事前学習済みモデル 1.
Image Embedder:画像特徴, 領域検出 2. Text Embedder:言語表現 3. Transformer:画像と言語の一般化可能な共同表現を学習 ◼ 4種の自己教師あり事前学習 1. Masked Language Modeling 2. Masked Region Modeling 3. Image-Text Matching 4. Word-Region Alignment 5
transformerへの入力:画像・テキストを埋め込み表現に変換 ◼ Image Embedder:Faster R-CNN [Ren+ NeurIPS15] で物体検出 ◼ 以下2つを「FC層
結合 正規化」で変換 1. 領域の特徴:ROI-pool特徴 2. 領域の位置:7次元ベクトル [𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 , 𝑤, ℎ, 𝑤 × ℎ] ◼ Text Embedder:BERT [Devlin+ 18] と同様にWordPieceでトークン化 ◼ 以下2つを「結合 正規化」で変換 1. 単語埋め込み 2. 位置埋め込み 6
1. Masked Language Modeling (MLM):マスクされた単語を予測 ◼ 入力単語の15%に対して以下の処理 ◼ 80%:[MASK]に置換 ◼
10%:ランダムな単語に置換 ◼ 10%:そのまま ◼ 非マスク単語・画像領域から予測 ◼ 負の対数尤度を最小化 7 ℒMLM 𝜃 = −𝔼 𝐰,𝐯 ~𝐷 log 𝑃𝜃 (𝐰𝐦 |𝐰∖𝐦 , 𝐯) 𝐰𝐦 :マスクされた単語 𝐰∖𝐦 :それ以外の単語 𝐯 = {𝐯1 , … , 𝐯𝐾 }:画像領域 dog 例:[MASK]をdogと予測 MASKトークンに置換
2. Masked Region Modeling (MRM):マスクされた画像領域を予測 ◼ 入力画像領域の15%に対して以下の処理 ◼ 80%:マスク(0に置換) ◼
10%:ランダムな領域に置換 ◼ 10%:そのまま ◼ 非マスク領域・テキストから予測 ◼ 𝑓𝜃 を最小化 3パターンを提案 8 ℒMRM 𝜃 = 𝔼 𝐰,𝐯 ~𝐷 𝑓𝜃 (𝐯𝐦 |𝐯∖𝐦 , 𝐰) マスク処理 例:犬の領域を予測 𝐯𝐦 :マスクされた画像領域 𝐯∖𝐦 :それ以外の画像領域 𝐰 = {𝐰1 , … , 𝒘𝐾 }:テキスト
2. 3パターンのMRM (1/2):マスク領域の特徴量へ回帰 ① Masked Region Feature Regression (MRFR) ◼
マスク領域に対するtransformerの出力 𝐯𝐦 (𝑖) をFC層で領域特徴 ℎ𝜃 𝐯𝐦 𝑖 へ変換 ◼ 領域特徴の正解 𝑟(𝐯𝐦 (𝑖)) はROI-pool特徴 ◼ L2回帰 9 𝑓𝜃 𝐯𝐦 𝐯∖𝐦 , 𝐰 = Σ𝑖=1 𝑀 ℎ𝜃 𝐯𝐦 𝑖 − 𝑟 𝐯𝐦 𝑖 2 2 Faster R-CNNの処理過程で得たもの
2. 3パターンの MRM (2/2):マスク領域のクラスへ分類 ② Masked Region Classification (MRC) ◼
𝐯𝐦 (𝑖) をFC層・softmax関数で領域のクラス予測分布 𝑔𝜃 𝐯𝐦 𝑖 へ変換 ◼ 「正解 𝑐 𝐯𝐦 𝑖 はFaster R-CNNの検出結果(one-hotベクトル)」と仮定 ◼ 両者の交差エントロピー誤差(CE)を算出 ③ Masked Region Classification with KL-Divergence (MRC-kl) ◼ ②の仮定は領域に真の正解ラベルが存在しないことに反するため、一部を変更 ◼ one-hotベクトル 𝑐 𝐯𝐦 𝑖 予測確率分布 ǁ 𝑐 𝐯𝐦 𝑖 ◼ 交差エントロピー誤差 KLダイバージェンス 10 𝑓𝜃 𝐯𝐦 𝐯∖𝐦 , 𝐰 = Σ𝑖=1 𝑀 CE 𝑐 𝐯𝐦 𝑖 , 𝑔𝜃 𝐯𝐦 𝑖 𝑓𝜃 𝐯𝐦 𝐯∖𝐦 , 𝐰 = Σ𝑖=1 𝑀 𝐷𝐾𝐿 ǁ 𝑐 𝐯𝐦 𝑖 ‖ 𝑔𝜃 𝐯𝐦 𝑖
MLM, MRM における工夫:画像・言語の片方だけマスク 11 従来:Joint Random Masking ◼ 対応する画像領域と単語が同時にマスクされる可能性 共同表現の学習に悪影響
提案:Conditional Masking ◼ 画像領域か単語のどちらかが観測できる条件下でのみ、もう一方をマスク処理
◼ 不一致例の作成 ◼ 画像-テキストの組に対し、片方をランダムな別のサンプルのものに置換 ◼ テキストが画像の説明として正しいか二値(0/1)で判断 ◼ CLSトークン位置の出力から、FC層・シグモイド関数で予測値算出 ◼ 交差エントロピー誤差を最小化
3. Image-Text Matching (ITM):画像とテキストの一致を判断 12 ℒITM 𝜃 = −𝔼 𝐰,𝐯 ~𝐷 [𝑦 log 𝑠𝜃 𝐰, 𝐯 + 1 − 𝑦 log(1 − 𝑠𝜃 𝐰, 𝐯 )] 𝐰 = {𝐰1 , … , 𝐰𝑇 }:テキスト 𝐯 = {𝐯1 , … , 𝐯𝐾 } :画像領域 𝑦 ∈ {0,1}:ラベル 0 ≤ 𝑠𝜃 𝐰, 𝐯 ≤ 1:予測値
◼ 画像領域と単語の対応度合いを学習 ◼ それぞれ分布 𝝁, 𝝂 とみなし、最適輸送問題(OT [Monge 1781] )に落とし込む
◼ 総輸送コストを最小化 4. Word-Region Alignment (WRA):画像とテキストのマッチング最適化 13 ℒWRA 𝜃 = 𝒟𝑜𝑡 (𝝁, 𝝂) = min 𝐓∈𝛱(𝒂,𝒃) Σ𝑖=1 𝑇 Σ𝑗=1 𝐾 𝐓𝑖𝑗 ⋅ 𝑐(𝐰𝑖 , 𝐯𝑗 ) 𝐓 ∈ ℝ𝑇×𝐾:OTの解(最適輸送プラン) 𝑐(𝐰𝑖 , 𝐯𝑗 ) :コサイン類似度
◼ 4種の大規模データセットで事前学習 ◼ COCO, Visual Genome, Conceptual Captions, SBU Captions
◼ 6種のタスクに応じてfine-tuning ◼ UNITER-largeモデルは、 全てのベンチマークで他に勝る ◼ Base:12層 / Large:24層 定量的結果:6種のV&LタスクでSOTAを達成 14 ① ② ③ ④ ⑤ ⑥
Ablation Study:全ての事前学習タスクが有効 ◼ 4種のタスクで「事前学習タスク」について評価 ◼ 考察 ✓ 全事前学習タスクが有効 ✓ MRM3種の内では、
MRC-klが最も優位 ✓ Conditional Maskingも 精度向上に寄与 15 全タスクの総和
まとめ 16 背景 ✓ 画像と言語の汎用的な共同表現の需要 提案 ✓ transformerを中核とした大規模な事前学習済みモデル ✓ 4種の自己教師あり事前学習タスクで共同表現を学習
結果 ✓ fine-tuningにより、6種のタスクでSOTAを達成
Appendix:最適輸送問題の直感的理解 17 https://www.math.sci.hokudai.ac.jp/~wakate/mcyr/2020/pdf/kobayashi_shinichiro.pdf 目標 ◼ 砂山 𝜇 を、同体積で空の砂場 𝜈 へ運ぶ
条件 ◼ 砂粒を位置 𝑥 から 𝑦 へ運ぶコストは |𝑥 − 𝑦| 解 ◼ 総輸送コストを最小化する輸送プラン
Appendix:SOTAを達成した6種のV&Lタスク (1/3) ① Visual Question Answering (VQA) - 画像 +
それに対する質問 → 質問の答え ② Visual Commonsense Reasoning (VCR) - 画像 + それに対する質問 → 質問の答え + 根拠 18 https://openaccess.thecvf.com/content_CVPR_2019/papers/Zellers_From_Recognition_to_Cognition_Visual_Commonsense_Reasoning_CVPR_2019_paper.pdf 入力 → 出力
Appendix:SOTAを達成した6種のV&Lタスク (2/3) ③ Natural Language for Visual Reasoning for Real
2 (NLVR2) - 画像のペア + 説明文 → 説明文が正しいかどうか ④ Visual Entailment (SNLI-VE) - 画像 + 説明文 → 画像が説明文を含意しているか3段階評価 19 https://lil.nlp.cornell.edu/nlvr/NLVR2BiasAnalysis.html 入力 → 出力
Appendix:SOTAを達成した6種のV&Lタスク (3/3) ⑤ Image-Text Retrieval (IR, TR) - クエリテキスト →
ターゲット画像 - クエリ画像 → ターゲットテキスト ⑥ Referring Expression Comprehension - 参照表現 + 画像領域候補 → 指し示す画像領域 20 入力 → 出力