Slide 1

Slide 1 text

GRIT: Faster and Be0er Image Cap5oning Transformer Using Dual Visual Features B4 Van-Quang Nguyen1 , Masanori Suganuma2,1 , and Takayuki Okatani1,2 1Graduate School of Information Sciences, Tohoku University 2RIKEN Center for AIP ECCV2022 Nguyen, V. Q., Suganuma, M., & Okatani, T. (2022, October). Grit: Faster and beCer image capEoning transformer using dual visual features. In ECCV (pp. 167-184).

Slide 2

Slide 2 text

概要 • 背景 • 強化学習を用いた Image Captioning 手法 • 既存手法で利用されているRegion Featuresのみの手法では文脈情報が欠如 • 提案手法 • 物体検出にDETRを用い、end-to-endの学習を実現 • Image Captioning タスクにおいてGrid Features と Region Featuresを適切に融合する Parallel Cross-Attentionモデルの提案 • 結果 • COCO datasetにおけるOnline/Offlineテストにて各種自動評価尺度でSOTA • Zero Shotなデータにおいても既存手法を上回る結果 • 計算効率も既存手法と比較して大幅改善 1

Slide 3

Slide 3 text

• Object Detectorで取得したRegion Featuresのみを使用 • Region Features 取得にCNNベースの物体検出器を使用 ☹ 文脈情報が欠如 ☹ 検出の不正確さのリスク ☹ 計算量が膨大 ☹ end to end の学習が不可 背景: 既存 Region Features Based Image Captioning モデルの弱点 Region Features 2

Slide 4

Slide 4 text

利用特徴量 / NIC [Vinyals+ CVPR15] SCST [Steven+ CVPR17] Grid Features 細かな粒度のGrid Features & Attention 機構を利用 ☹ 物体レベルの情報が欠落 Up-Down [Anderson+ CVPR18] M2Transformer [Cornia+ CVPR20] Region Features Object Detectionを用いてRegion Featuresを抽出 ☹ 計算コストが高い・文脈情報の欠落 RSTNeT [Zhang+ CVPR21] Grid Features 物体検出器で抽出したGrid特徴量をキャプション生成に適用 関連研究:Grid/Region両特徴量を用いたキャプション生成は不十分 M2Transformer RSTNeT 3 Grid Features

Slide 5

Slide 5 text

1. 物体検出器をTransformer(DETR)ベースの構成にしたことでend-to-end の学習を可能に 2. Grid Features を活用することで、Region Featuresでは捉えきれない文脈情報を補完 3. Region / Grid Features 融合のためのCross-attention機構の提案 提案手法: GRIT 4

Slide 6

Slide 6 text

GRIT: 特徴量抽出機構 (1/2) 2stepのRegion Featuresの生成 1. Region Features Deformable DETRに倣い物体検出と物体属性予測を組み合わせた事前学習の実施 ☺モデルの性能を維持したままend-to-endな学習が可能で計算時間の大幅な短縮 5 それぞれ物体iの予測されたクラスの確率 物体iのバウンディングボックス回帰の正規化された損失 それぞれ物体iの予測された属性の確率

Slide 7

Slide 7 text

• Swin Transformerの最後の特徴マップを入力 • 𝐿! 層の Self-A(en*on Transformerを用いてGrid Features を出力 ☺ 画像全体から抽出されるためRegion Featuresでは捉えきれない文脈情報を保有 ☺ Self-Attention でGrid Features間の空間的な相互作用を明示的にモデル化 GRIT: 特徴量抽出機構 (2/2) Grid Feature Network 6

Slide 8

Slide 8 text

GRIT: キャプション生成機構 1. 文中単語に対するマスク付き Self-Attention 先の単語からの情報を遮断するマスクを使用 2. 単語・視覚特徴量間のParallel Cross Attention • 独立したMulti-Head Attentionを並列に適用 • 特徴量にゲート機構を適用し、最終的に加算 3. Feed-Forward Network (FFN) 7

Slide 9

Slide 9 text

GRIT: 2Stepの損失関数の利用によるFine Tuning 1. Cross-Entropy lossを用いてモデルを事前学習 2. Self-Critical Sequence Training Strategy [Steven+ CVPR17] CIDEr-D最適化により Fine Tuning 現時点のパラメータでテスト画像に生成した最良のキャプション" wの評価r(" w)を使用 " w を閾値として正負が逆転 " wより良いキャプションが増え " wより劣るキャプションが減る wi : ビーム内のi番目の文 r(・) : 報酬関数 b: 報酬基準 k : バッチ内のサンプル番号 8

Slide 10

Slide 10 text

実験設定 • データセット 事前学習 第1ステップ(物体検出) COCO, Visual Genome, Open Images, and Object365 第2ステップ(物体検出&属性予測) Visual Genome Image Captioning COCO dataset nocaps Dataset, ArtEmis dataset 入力画像の画質を384×640で利用 (他手法は800×1333) • 計算時間とリソース A100 GPU ×8 で16時間 9 ArtEmis Open Images

Slide 11

Slide 11 text

定量的結果: Online Testにおいて全ての自動評価尺度でSOTA ☺ reference caption数 5, 40 のテストにおいていずれもSOTA ☺ GRITの単一モデルが他のどのアンサンブルモデルよりも良い結果 10

Slide 12

Slide 12 text

定性的結果:キャプション生成が難しい画像においても適切に出力 熟したバナナであること、他の フルーツの存在を適切に出力 ブラシを適切に出力 裏面でも歯ブラシを適切に認識 11

Slide 13

Slide 13 text

追試及びエラー分析 12 GT1: a woman standing in a room with a remote GT2: a couple of people that are staring at a tv GT3: two women playing a video game in a living room GRIT: two women playing a video game in a living room GT1:a sewage lid on the ground with a para sail chute in the background GT2:there is a balloon that is flying over the ground parachute over a large valley with a man made structure GRIT: a pair of scissors sitting on the ground with GT1:a collection of artwork leaning against a wooden fence a collection of poster arts lined up on the fence GT2*a collection of paintings against a fence outside several paintings leaning against Polos: 92.4 ☺ GRIT: a stop sign on a sidewalk next to a stop sign Polos: 9.64 Polos: 9.75 ☹ ☹ 改善案: Polosを報酬として利用する強化学習の実施・MLLMの説明能力の利用 Polos [Wada+ CVPR24] にて評価: 67.02

Slide 14

Slide 14 text

Ablation Study: 選択手法の有効性を確認 ☺ より多くのデータセットをSwin Transformerの事前学習で用いることで、結果が向上 ☺ Region Features(Object Queryが増加する)につれて性能が向上、150を超えると飽和 ☺ end-to-endの学習を行うことで、CIDErスコアが大幅に改善 ☺ Sigmoidをゲート活性化関数として用いた特徴量の並列処理が最高の結果 13

Slide 15

Slide 15 text

所感 • Strengths • 二つの特徴量を適切に処理し、処理方法の並列処理もAblation Studyで適切に検証 • DETRを用いたend-to-endな学習による計算効率向上は強化学習において有用 • 豊富な実験結果 • Weakness • 最高性能の組み合わせはわかるがAblation Studyにおけるそれぞれの寄与度がわ かりにくい • 強化学習だけあって計算効率が良いといえど高性能GPU&長時間を要する • CIDEr特化になりすぎることが本質的な価値と言えるのか 14

Slide 16

Slide 16 text

まとめ • 背景 • 既存手法で利用されているRegion Featuresのみの手法では文脈情報が欠如 • 手法 • 物体検出にDETRを用い、end-to-endの学習を実現可能にし計算効率を改善 • Image Captioning タスクにおいてGrid Features と Region Featuresを適切に融合する Parallel Cross-Attentionモデルの提案 • 結果 • COCO datasetにおけるOnline/Offlineテストにて各種自動評価尺度でSOTA • Zero Shotなデータにおいても既存手法を上回る結果 • 計算効率も既存手法と比較して大幅改善 15

Slide 17

Slide 17 text

APPENDIX 定量的結果: nocaps(zero shot)を用いた評価でもSOTA ☺ Region Featuresを用いた既存手法よりも in-domain/out-domain両者でSOTA

Slide 18

Slide 18 text

APPENDIX 定量的結果: 既存手法と比較して大幅な計算効率の上昇 • 既存手法のVinVL [Zgang+ CVPR21] やM2Transformer [Cornia+ CVPR20] と比較し計算効率が上昇 • V100 GPU ×1 において minibatchを64まで上げることが可能 • minibatchサイズを32以上にすると一枚毎の推論速度が31ms程度にまで高速化

Slide 19

Slide 19 text

APPENDIX 追試及びエラー分析 Polos [Wada+ CVPR24] にて評価 • 様々な画像キャプショニングベンチマークにてSOTAを記録 • 今最も人間の評価に近い自動評価尺度 GRIT : 67.02 比較: 論文値 ICC [Yanuka+ ACL24]: 39.00

Slide 20

Slide 20 text

APPENDIX: 実行結果 • 100分の1のデータ量でも3h以上の実行時間を要する、通常実行だと1epoch 9時間 • データ量の影響もあり論文値は未達成

Slide 21

Slide 21 text

• TransformerのV&Lタスクへの応用 ViT [Dosovitskiy+ ICLR21]やDETR [Cornia+ ECCV20] によるTransformerの画像適用 • Image CaptioningへのTransformer応用 • 領域特徴量など各種特徴量の獲得への活用 SGAE [Yang+ iCCV19], ETA [Li+ ICCV19] • Caption Decoderとしての応用 ORT [Herdade+ NeurIPS19]. NG-SAN [Guo+ CVPR20]. DLCT[Luo+ AAAI21] 他 → Grit FeaturesやRegion Featuresを統一的に扱う手法はあまりない APPENDIX: Vision/Language タスクにおけるTransformerの適用

Slide 22

Slide 22 text

APPENDIX 定量的結果: COCOで全ての自動評価尺度でSOTA • BLEU1, BLEU4, ROUGE, METEOR, CIDEr-D, SPICEの全ての指標においてSOTA • Visual Genome単体よりも4つのデータセットを利用したもの(†)の方が良い結果

Slide 23

Slide 23 text

APPENDIX: GRIT 特徴量抽出機構 Swin Transformer • BackBoneとしてデファクトスタンダードなSwin Transformerの利用 • 通常のSelf-Attentionでは対応が難しい大きい入力データに対しても、スケーラ ブルにSelf-Attentionを適用 • 不要な小さな部分をmaskすると計算量が増加するため、 cyclicにshift させ Window数を増やさずに効率的に処理する