[Journal club] Pix2seq: A Language Modeling Framework for Object Detection

Slide 1

Slide 1 text

Ting Chen1, Saurabh Saxena1, Lala Li1, David J. Fleet1, Geoffrey Hinton1 1: Google Research, Brain Team 慶應義塾大学杉浦孔明研究室小槻誠太郎 T. Chen, S. Saxena, L. Li, D.J. Fleet, and G. Hinton, “Pix2seq: A language modeling framework for object detection,” ICLR, 2022.

Slide 2

Slide 2 text

概要 – Pix2Seq 既存の物体検出モデルはタスクに特化した設定が多く為されていた ➔複雑な学習 / 汎用性の低下物体検出を入力画像で条件付けしたLanguage Modelingのような形で定式化物体検出に特化した構造やengineeringを使用せず DETR, Faster R-CNNに対してcompetitiveな性能を達成 2

Slide 3

Slide 3 text

背景 – 物体検出タスク画像中の全ての物体を認識し、その位置とカテゴリを求める物体：Bounding box + Class label で表現様々なタスクに応用 3

Slide 4

Slide 4 text

背景 – 既存の物体検出モデルは “Task-Specific” 特殊な入力(Bounding box + Class labelの集合) を扱うため特別な構造を用意 Bounding boxの集合を扱うための専用の損失関数や評価指標 ➔ 1. 学習が複雑になる ➔ 2. 汎用性を失う / 他のタスクへ応用 ➔ 2. するためにモデルの再設計が必要 4 e.g. Region proposals RoI pooling e.g. Box regression Set-based matching IoU

Slide 5

Slide 5 text

関連研究 – 既存の物体検出モデルは “Task-Specific” 5 Faster R-CNN [Ren+, NeurIPS15] • 標準的な物体検出手法 • Bounding boxの集合を予測するため大量のProposal • 人手で設定する要素(Anchorsなど)に依存 • 重複を削除するためによくNMSが用いられる DETR [Carion+, ECCV20] • Transformerを採用し、End-to-Endの物体検出 • 大量のProposalを出してNMSを行うことを避けた • 学習で獲得する”object query”が必要

Slide 6

Slide 6 text

提案 – Pix2Seq : “Task-Agnostic”なモデル + 学習方法 “深層学習モデルがどこにどんな物体があるかを理解しているのであれば、それを取り出す表現方法を教えれば良いだろう” ➔ 画像を与え、Bounding boxの座標(y min , x min , y max , x max )とカテゴリを ➔ Language Modeling (LM) に似た形式で順に出力 6

Slide 7

Slide 7 text

提案 – Pix2Seq : “Task-Agnostic”なモデル + 学習方法 LMに似た形式で扱うために、Bounding boxを離散トークンとして表現画像で条件付けしたLMに似た形式 → Encoder-Decoder型の構造 LMで標準的に利用される対数尤度の最大化 7

Slide 8

Slide 8 text

Sequence construction – Bounding boxを離散トークンに Class labelはもともと離散トークンとして表現される(object idなど) 8 1. Bounding boxの位置座標 2. 正規化した位置座標 → (54, 261, 439, 409) → (0.11, 0.41, 0.91, 0.64) → (55, 205, 454, 319) 画像のサイズに寄らず一定の整数値から選ばれるようになる

Slide 9

Slide 9 text

Sequence construction – Bounding boxを離散トークンに Class labelはもともと離散トークンとして表現される(object idなど) Bounding boxも離散トークンに変換一つの物体に対して最終的に得られるトークン列は [ , class] ➔ LMにおけるDecoderの入力(全ての物体の情報)は [SOS, 1 1 1 1, class1, classL, EOS] 9 → (54, 261, 439, 409) → (0.11, 0.41, 0.91, 0.64) → (55, 205, 454, 319) → [55, 205, 454, 319, 1764]

Slide 10

Slide 10 text

Sequence augmentation – 検出漏れ+誤検出の低減 LMにおけるDecoderの入力は [ 1 1 1 1, class1, classL, EOS] EOSが { 早く出る→検出漏れが増加 / 遅く出る→誤検出, 重複が増加} EOSを遅く(たくさん検出)し, かつ ➔ ??? 10

Slide 11

Slide 11 text

Sequence augmentation – 検出漏れ+誤検出の低減 LMにおけるDecoderの入力は [ 1 1 1 1, class1, classL, EOS] EOSが { 早く出る→検出漏れが増加 / 遅く出る→誤検出, 重複が増加} EOSを遅く(たくさん検出)し, かつ ➔ ➔ 11

Slide 12

Slide 12 text

LMにおけるDecoderの入力は [ 1 1 1 1, class1, classL, EOS] EOSが { 早く出る→検出漏れが増加 / 遅く出る→誤検出, 重複が増加} EOSを遅く(たくさん検出)し, かつ ➔ ➔ Sequence augmentation – 検出漏れ+誤検出の低減 12 後半に偽bounding boxを追加偽bounding boxに対する座標の予測はback prop.しない (どこからが偽物かは学習時は分かるので狙ってdetach可能)

Slide 13

Slide 13 text

Architecture – シンプルなEncoder-Decoder型 Encoder : 画像をベクトル表現に埋め込めるモデル e.g. CNN / ViT / … Decoder : transformerのdecoderを利用実験ではEncoderはDETRを踏襲↓ (CNNで得た特徴マップをflattenしてencoderに通す) 13

Slide 14

Slide 14 text

Objective / Loss function – Language Modelingと同様 LMで標準的に利用される対数尤度の最大化 maximize ෍ 𝑗 𝑤𝑗 log 𝑃 ෤ 𝑦𝑗 𝑥, 𝑦1:𝑗−1 ) 𝑥 : 画像 ෤ 𝑦 : トークン列のGround truth 𝑦 : 予測したトークン列 𝑤𝑗 : 著者らは1にしたが、class tokenへの重みづけを増やしたりできる 14

Slide 15

Slide 15 text

定性的結果 – 細かな物体も正確に予測 15

Slide 16

Slide 16 text

定量的結果 – Faster R-CNN, DETRに対しcompetitive Scratchで学習 (Dataset : COCO) 物体の大小について性能のバランスが良い Pix2Seqに比べて (DETRは小物体に弱い) (Faster R-CNNは (大物体に弱い) 16

Slide 17

Slide 17 text

Backboneのサイズが大きいと性能が向上 Fine-tuningでの画像サイズが大きいと性能が向上定量的結果 – Pretrainingの効果が見られた 17 ↑From scratch on MS-COCO ↓Objects365でpretraining → COCOでfine-tuning

Slide 18

Slide 18 text

まとめ – Pix2Seq 既存の物体検出モデルはタスクに特化した設定が多く為されていた ➔複雑な学習 / 汎用性の低下物体検出を入力画像で条件付けしたLanguage Modelingのような形で定式化物体検出に特化した構造やengineeringを使用せず DETR, Faster R-CNNに対してcompetitiveな性能を達成 18

Slide 19

Slide 19 text

Appendix – Links • Paper (ICLR2022) • Discussion @OpenReview • Official Implementation (TensorFlow) • Official Blog • Demo (Colab.) 19

Slide 20

Slide 20 text

Appendix – Ablation study: Sequence augmentation 20 を予測する時はAttentionが散らばっているが、最初の座標を決めた後は即座にAttentionが対象物体に集中する物体予測の順序

Slide 21

Slide 21 text

Appendix – Ablation study: 物体の順序物体の並べ方は画像中の位置やclass順などにすることなくランダムにした方が性能が良い. 画像中の位置などで並べてしまうと、一度検出漏れが発生した際にもう一度同じような箇所から取り出そうとしなくなってしまい検出漏れが回復できなくなると推測 21

Slide 22

Slide 22 text

Appendix – Ablation study: Sequence augmentation 22 ↑From scratch on MS-COCO ↑Objects365でpretraining / COCOでfine-tuning