[Journal club] GRIT: Faster and Better Image Captioning Transformer Using Dual Visual Features

Slide 1

Slide 1 text

GRIT: Faster and Be0er Image Cap5oning Transformer Using Dual Visual Features B4 Van-Quang Nguyen1 , Masanori Suganuma2,1 , and Takayuki Okatani1,2 1Graduate School of Information Sciences, Tohoku University 2RIKEN Center for AIP ECCV2022 Nguyen, V. Q., Suganuma, M., & Okatani, T. (2022, October). Grit: Faster and beCer image capEoning transformer using dual visual features. In ECCV (pp. 167-184).

Slide 2

Slide 2 text

概要 • 背景 • 強化学習を用いた Image Captioning 手法 • 既存手法で利用されているRegion Featuresのみの手法では文脈情報が欠如 • 提案手法 • 物体検出にDETRを用い、end-to-endの学習を実現 • Image Captioning タスクにおいてGrid Features と Region Featuresを適切に融合する Parallel Cross-Attentionモデルの提案 • 結果 • COCO datasetにおけるOnline/Offlineテストにて各種自動評価尺度でSOTA • Zero Shotなデータにおいても既存手法を上回る結果 • 計算効率も既存手法と比較して大幅改善 1

Slide 3

Slide 3 text

• Object Detectorで取得したRegion Featuresのみを使用 • Region Features 取得にCNNベースの物体検出器を使用 ☹ 文脈情報が欠如 ☹ 検出の不正確さのリスク ☹ 計算量が膨大 ☹ end to end の学習が不可背景: 既存 Region Features Based Image Captioning モデルの弱点 Region Features 2

Slide 4

Slide 4 text

利用特徴量 / NIC [Vinyals+ CVPR15] SCST [Steven+ CVPR17] Grid Features 細かな粒度のGrid Features & Attention 機構を利用 ☹ 物体レベルの情報が欠落 Up-Down [Anderson+ CVPR18] M2Transformer [Cornia+ CVPR20] Region Features Object Detectionを用いてRegion Featuresを抽出 ☹ 計算コストが高い・文脈情報の欠落 RSTNeT [Zhang+ CVPR21] Grid Features 物体検出器で抽出したGrid特徴量をキャプション生成に適用関連研究:Grid/Region両特徴量を用いたキャプション生成は不十分 M2Transformer RSTNeT 3 Grid Features

Slide 5

Slide 5 text

1. 物体検出器をTransformer(DETR)ベースの構成にしたことでend-to-end の学習を可能に 2. Grid Features を活用することで、Region Featuresでは捉えきれない文脈情報を補完 3. Region / Grid Features 融合のためのCross-attention機構の提案提案手法: GRIT 4

Slide 6

Slide 6 text

GRIT: 特徴量抽出機構 (1/2) 2stepのRegion Featuresの生成 1. Region Features Deformable DETRに倣い物体検出と物体属性予測を組み合わせた事前学習の実施 ☺モデルの性能を維持したままend-to-endな学習が可能で計算時間の大幅な短縮 5 それぞれ物体iの予測されたクラスの確率物体iのバウンディングボックス回帰の正規化された損失それぞれ物体iの予測された属性の確率

Slide 7

Slide 7 text

• Swin Transformerの最後の特徴マップを入力 • 𝐿! 層の Self-A(en*on Transformerを用いてGrid Features を出力 ☺ 画像全体から抽出されるためRegion Featuresでは捉えきれない文脈情報を保有 ☺ Self-Attention でGrid Features間の空間的な相互作用を明示的にモデル化 GRIT: 特徴量抽出機構 (2/2) Grid Feature Network 6

Slide 8

Slide 8 text

GRIT: キャプション生成機構 1. 文中単語に対するマスク付き Self-Attention 先の単語からの情報を遮断するマスクを使用 2. 単語・視覚特徴量間のParallel Cross Attention • 独立したMulti-Head Attentionを並列に適用 • 特徴量にゲート機構を適用し、最終的に加算 3. Feed-Forward Network (FFN) 7

Slide 9

Slide 9 text

GRIT: 2Stepの損失関数の利用によるFine Tuning 1. Cross-Entropy lossを用いてモデルを事前学習 2. Self-Critical Sequence Training Strategy [Steven+ CVPR17] CIDEr-D最適化により Fine Tuning 現時点のパラメータでテスト画像に生成した最良のキャプション" wの評価r(" w)を使用 " w を閾値として正負が逆転 " wより良いキャプションが増え " wより劣るキャプションが減る wi : ビーム内のi番目の文 r(・) : 報酬関数 b: 報酬基準 k : バッチ内のサンプル番号 8

Slide 10

Slide 10 text

実験設定 • データセット事前学習第1ステップ(物体検出) COCO, Visual Genome, Open Images, and Object365 第2ステップ(物体検出&属性予測) Visual Genome Image Captioning COCO dataset nocaps Dataset, ArtEmis dataset 入力画像の画質を384×640で利用 (他手法は800×1333) • 計算時間とリソース A100 GPU ×8 で16時間 9 ArtEmis Open Images

Slide 11

Slide 11 text

定量的結果: Online Testにおいて全ての自動評価尺度でSOTA ☺ reference caption数 5, 40 のテストにおいていずれもSOTA ☺ GRITの単一モデルが他のどのアンサンブルモデルよりも良い結果 10

Slide 12

Slide 12 text

定性的結果:キャプション生成が難しい画像においても適切に出力熟したバナナであること、他のフルーツの存在を適切に出力ブラシを適切に出力裏面でも歯ブラシを適切に認識 11

Slide 13

Slide 13 text

追試及びエラー分析 12 GT1: a woman standing in a room with a remote GT2: a couple of people that are staring at a tv GT3: two women playing a video game in a living room GRIT: two women playing a video game in a living room GT1:a sewage lid on the ground with a para sail chute in the background GT2:there is a balloon that is flying over the ground parachute over a large valley with a man made structure GRIT: a pair of scissors sitting on the ground with GT1:a collection of artwork leaning against a wooden fence a collection of poster arts lined up on the fence GT2*a collection of paintings against a fence outside several paintings leaning against Polos: 92.4 ☺ GRIT: a stop sign on a sidewalk next to a stop sign Polos: 9.64 Polos: 9.75 ☹ ☹ 改善案: Polosを報酬として利用する強化学習の実施・MLLMの説明能力の利用 Polos [Wada+ CVPR24] にて評価: 67.02

Slide 14

Slide 14 text

Ablation Study: 選択手法の有効性を確認 ☺ より多くのデータセットをSwin Transformerの事前学習で用いることで、結果が向上 ☺ Region Features(Object Queryが増加する)につれて性能が向上、150を超えると飽和 ☺ end-to-endの学習を行うことで、CIDErスコアが大幅に改善 ☺ Sigmoidをゲート活性化関数として用いた特徴量の並列処理が最高の結果 13

Slide 15

Slide 15 text

所感 • Strengths • 二つの特徴量を適切に処理し、処理方法の並列処理もAblation Studyで適切に検証 • DETRを用いたend-to-endな学習による計算効率向上は強化学習において有用 • 豊富な実験結果 • Weakness • 最高性能の組み合わせはわかるがAblation Studyにおけるそれぞれの寄与度がわかりにくい • 強化学習だけあって計算効率が良いといえど高性能GPU&長時間を要する • CIDEr特化になりすぎることが本質的な価値と言えるのか 14

Slide 16

Slide 16 text

まとめ • 背景 • 既存手法で利用されているRegion Featuresのみの手法では文脈情報が欠如 • 手法 • 物体検出にDETRを用い、end-to-endの学習を実現可能にし計算効率を改善 • Image Captioning タスクにおいてGrid Features と Region Featuresを適切に融合する Parallel Cross-Attentionモデルの提案 • 結果 • COCO datasetにおけるOnline/Offlineテストにて各種自動評価尺度でSOTA • Zero Shotなデータにおいても既存手法を上回る結果 • 計算効率も既存手法と比較して大幅改善 15

Slide 17

Slide 17 text

APPENDIX 定量的結果: nocaps(zero shot)を用いた評価でもSOTA ☺ Region Featuresを用いた既存手法よりも in-domain/out-domain両者でSOTA

Slide 18

Slide 18 text

APPENDIX 定量的結果: 既存手法と比較して大幅な計算効率の上昇 • 既存手法のVinVL [Zgang+ CVPR21] やM2Transformer [Cornia+ CVPR20] と比較し計算効率が上昇 • V100 GPU ×1 において minibatchを64まで上げることが可能 • minibatchサイズを32以上にすると一枚毎の推論速度が31ms程度にまで高速化

Slide 19

Slide 19 text

APPENDIX 追試及びエラー分析 Polos [Wada+ CVPR24] にて評価 • 様々な画像キャプショニングベンチマークにてSOTAを記録 • 今最も人間の評価に近い自動評価尺度 GRIT : 67.02 比較: 論文値 ICC [Yanuka+ ACL24]: 39.00

Slide 20

Slide 20 text

APPENDIX: 実行結果 • 100分の1のデータ量でも3h以上の実行時間を要する、通常実行だと1epoch 9時間 • データ量の影響もあり論文値は未達成

Slide 21

Slide 21 text

• TransformerのV&Lタスクへの応用 ViT [Dosovitskiy+ ICLR21]やDETR [Cornia+ ECCV20] によるTransformerの画像適用 • Image CaptioningへのTransformer応用 • 領域特徴量など各種特徴量の獲得への活用 SGAE [Yang+ iCCV19], ETA [Li+ ICCV19] • Caption Decoderとしての応用 ORT [Herdade+ NeurIPS19]. NG-SAN [Guo+ CVPR20]. DLCT[Luo+ AAAI21] 他 → Grit FeaturesやRegion Featuresを統一的に扱う手法はあまりない APPENDIX: Vision/Language タスクにおけるTransformerの適用

Slide 22

Slide 22 text

APPENDIX 定量的結果: COCOで全ての自動評価尺度でSOTA • BLEU1, BLEU4, ROUGE, METEOR, CIDEr-D, SPICEの全ての指標においてSOTA • Visual Genome単体よりも4つのデータセットを利用したもの(†)の方が良い結果

Slide 23

Slide 23 text

APPENDIX: GRIT 特徴量抽出機構 Swin Transformer • BackBoneとしてデファクトスタンダードなSwin Transformerの利用 • 通常のSelf-Attentionでは対応が難しい大きい入力データに対しても、スケーラブルにSelf-Attentionを適用 • 不要な小さな部分をmaskすると計算量が増加するため、 cyclicにshift させ Window数を増やさずに効率的に処理する