Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Journal club] Pix2seq: A Language Modeling Fra...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Semantic Machine Intelligence Lab., Keio Univ.
PRO
November 17, 2022
Technology
0
340
[Journal club] Pix2seq: A Language Modeling Framework for Object Detection
Semantic Machine Intelligence Lab., Keio Univ.
PRO
November 17, 2022
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching
keio_smilab
PRO
0
2
[Journal club] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model
keio_smilab
PRO
0
70
[Journal club] Improved Mean Flows: On the Challenges of Fastforward Generative Models
keio_smilab
PRO
0
140
[Journal club] MemER: Scaling Up Memory for Robot Control via Experience Retrieval
keio_smilab
PRO
0
87
[Journal club] Flow Matching for Generative Modeling
keio_smilab
PRO
1
340
Multimodal AI Driving Solutions to Societal Challenges
keio_smilab
PRO
2
200
[Journal club] Re-thinking Temporal Search for Long-Form Video Understanding
keio_smilab
PRO
0
47
[Journal club] Focusing on What Matters: Object-Agent-centric Tokenization for Vision Language Action Models
keio_smilab
PRO
0
20
[Journal club] EXPERT: An Explainable Image Captioning Evaluation Metric with Structured Explanations
keio_smilab
PRO
0
75
Other Decks in Technology
See All in Technology
Introduction to Sansan for Engineers / エンジニア向け会社紹介
sansan33
PRO
6
68k
プロポーザルに込める段取り八分
shoheimitani
1
590
SchooでVue.js/Nuxtを技術選定している理由
yamanoku
3
160
Bedrock PolicyでAmazon Bedrock Guardrails利用を強制してみた
yuu551
0
260
クレジットカード決済基盤を支えるSRE - 厳格な監査とSRE運用の両立 (SRE Kaigi 2026)
capytan
6
2.8k
今日から始めるAmazon Bedrock AgentCore
har1101
4
420
M&A 後の統合をどう進めるか ─ ナレッジワーク × Poetics が実践した組織とシステムの融合
kworkdev
PRO
1
480
ブロックテーマ、WordPress でウェブサイトをつくるということ / 2026.02.07 Gifu WordPress Meetup
torounit
0
190
コスト削減から「セキュリティと利便性」を担うプラットフォームへ
sansantech
PRO
3
1.6k
SREじゃなかった僕らがenablingを通じて「SRE実践者」になるまでのリアル / SRE Kaigi 2026
aeonpeople
6
2.5k
CDKで始めるTypeScript開発のススメ
tsukuboshi
1
510
今こそ学びたいKubernetesネットワーク ~CNIが繋ぐNWとプラットフォームの「フラッと」な対話
logica0419
2
130
Featured
See All Featured
Highjacked: Video Game Concept Design
rkendrick25
PRO
1
290
The SEO identity crisis: Don't let AI make you average
varn
0
330
Everyday Curiosity
cassininazir
0
130
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
128
55k
How People are Using Generative and Agentic AI to Supercharge Their Products, Projects, Services and Value Streams Today
helenjbeal
1
130
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
9.6k
Stop Working from a Prison Cell
hatefulcrawdad
273
21k
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
52
Getting science done with accelerated Python computing platforms
jacobtomlinson
2
120
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.7k
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
1
110
The AI Search Optimization Roadmap by Aleyda Solis
aleyda
1
5.2k
Transcript
Ting Chen1, Saurabh Saxena1, Lala Li1, David J. Fleet1, Geoffrey
Hinton1 1: Google Research, Brain Team 慶應義塾大学 杉浦孔明研究室 小槻誠太郎 T. Chen, S. Saxena, L. Li, D.J. Fleet, and G. Hinton, “Pix2seq: A language modeling framework for object detection,” ICLR, 2022.
概要 – Pix2Seq 既存の物体検出モデルはタスクに特化した設定が多く為されていた ➔複雑な学習 / 汎用性の低下 物体検出を 入力画像で条件付けしたLanguage Modelingのような形で定式化
物体検出に特化した構造やengineeringを使用せず DETR, Faster R-CNNに対してcompetitiveな性能を達成 2
背景 – 物体検出タスク 画像中の全ての物体を認識し、その位置とカテゴリを求める 物体:Bounding box + Class label で表現
様々なタスクに応用 3
背景 – 既存の物体検出モデルは “Task-Specific” 特殊な入力(Bounding box + Class labelの集合) を扱うため特別な構造を用意
Bounding boxの集合を扱うための 専用の損失関数や評価指標 ➔ 1. 学習が複雑になる ➔ 2. 汎用性を失う / 他のタスクへ応用 ➔ 2. するためにモデルの再設計が必要 4 e.g. Region proposals RoI pooling e.g. Box regression Set-based matching IoU
関連研究 – 既存の物体検出モデルは “Task-Specific” 5 Faster R-CNN [Ren+, NeurIPS15] •
標準的な物体検出手法 • Bounding boxの集合を予測するため大量のProposal • 人手で設定する要素(Anchorsなど)に依存 • 重複を削除するためによくNMSが用いられる DETR [Carion+, ECCV20] • Transformerを採用し、End-to-Endの物体検出 • 大量のProposalを出してNMSを行うことを避けた • 学習で獲得する”object query”が必要
提案 – Pix2Seq : “Task-Agnostic”なモデル + 学習方法 “深層学習モデルがどこにどんな物体があるかを理解しているのであれば、 それを取り出す表現方法を教えれば良いだろう” ➔
画像を与え、Bounding boxの座標(y min , x min , y max , x max )とカテゴリを ➔ Language Modeling (LM) に似た形式 で順に出力 6
提案 – Pix2Seq : “Task-Agnostic”なモデル + 学習方法 LMに似た形式で扱うために、Bounding boxを離散トークンとして表現 画像で条件付けしたLMに似た形式
→ Encoder-Decoder型の構造 LMで標準的に利用される対数尤度の最大化 7
Sequence construction – Bounding boxを離散トークンに Class labelはもともと離散トークンとして表現される(object idなど) 8 1.
Bounding boxの位置座標 2. 正規化した位置座標 → (54, 261, 439, 409) → (0.11, 0.41, 0.91, 0.64) → (55, 205, 454, 319) 画像のサイズに寄らず一定の 整数値から選ばれるようになる
Sequence construction – Bounding boxを離散トークンに Class labelはもともと離散トークンとして表現される(object idなど) Bounding boxも離散トークンに変換
一つの物体に対して最終的に得られるトークン列は [ , class] ➔ LMにおけるDecoderの入力(全ての物体の情報)は [SOS, 1 1 1 1, class1, classL, EOS] 9 → (54, 261, 439, 409) → (0.11, 0.41, 0.91, 0.64) → (55, 205, 454, 319) → [55, 205, 454, 319, 1764]
Sequence augmentation – 検出漏れ+誤検出の低減 LMにおけるDecoderの入力は [ 1 1 1 1,
class1, classL, EOS] EOSが { 早く出る→検出漏れが増加 / 遅く出る→誤検出, 重複が増加} EOSを遅く(たくさん検出)し, かつ ➔ ??? 10
Sequence augmentation – 検出漏れ+誤検出の低減 LMにおけるDecoderの入力は [ 1 1 1 1,
class1, classL, EOS] EOSが { 早く出る→検出漏れが増加 / 遅く出る→誤検出, 重複が増加} EOSを遅く(たくさん検出)し, かつ ➔ ➔ 11
LMにおけるDecoderの入力は [ 1 1 1 1, class1, classL, EOS] EOSが
{ 早く出る→検出漏れが増加 / 遅く出る→誤検出, 重複が増加} EOSを遅く(たくさん検出)し, かつ ➔ ➔ Sequence augmentation – 検出漏れ+誤検出の低減 12 後半に偽bounding boxを追加 偽bounding boxに対する座標の予測はback prop.しない (どこからが偽物かは学習時は分かるので狙ってdetach可能)
Architecture – シンプルなEncoder-Decoder型 Encoder : 画像をベクトル表現に埋め込めるモデル e.g. CNN / ViT
/ … Decoder : transformerのdecoderを利用 実験ではEncoderはDETRを踏襲↓ (CNNで得た特徴マップをflattenしてencoderに通す) 13
Objective / Loss function – Language Modelingと同様 LMで標準的に利用される対数尤度の最大化 maximize
𝑗 𝑤𝑗 log 𝑃 𝑦𝑗 𝑥, 𝑦1:𝑗−1 ) 𝑥 : 画像 𝑦 : トークン列のGround truth 𝑦 : 予測したトークン列 𝑤𝑗 : 著者らは1にしたが、class tokenへの重みづけを増やしたりできる 14
定性的結果 – 細かな物体も正確に予測 15
定量的結果 – Faster R-CNN, DETRに対しcompetitive Scratchで学習 (Dataset : COCO) 物体の大小について
性能のバランスが良い Pix2Seqに比べて (DETRは小物体に弱い) (Faster R-CNNは (大物体に弱い) 16
Backboneのサイズが大きいと性能が向上 Fine-tuningでの画像サイズ が大きいと性能が向上 定量的結果 – Pretrainingの効果が見られた 17 ↑From scratch on
MS-COCO ↓Objects365でpretraining → COCOでfine-tuning
まとめ – Pix2Seq 既存の物体検出モデルはタスクに特化した設定が多く為されていた ➔複雑な学習 / 汎用性の低下 物体検出を 入力画像で条件付けしたLanguage Modelingのような形で定式化
物体検出に特化した構造やengineeringを使用せず DETR, Faster R-CNNに対してcompetitiveな性能を達成 18
Appendix – Links • Paper (ICLR2022) • Discussion @OpenReview •
Official Implementation (TensorFlow) • Official Blog • Demo (Colab.) 19
Appendix – Ablation study: Sequence augmentation 20 を予測する時はAttentionが散らばっているが、 最初の座標を決めた後は即座にAttentionが対象物体に集中する 物体予測の順序
Appendix – Ablation study: 物体の順序 物体の並べ方は画像中の位置やclass順などにすることなく ランダムにした方が性能が良い. 画像中の位置などで並べてしまうと、一度検出漏れが発生した際に もう一度同じような箇所から取り出そうとしなくなってしまい 検出漏れが回復できなくなると推測
21
Appendix – Ablation study: Sequence augmentation 22 ↑From scratch on
MS-COCO ↑Objects365でpretraining / COCOでfine-tuning