ゼロショット物体検出の研究動向

by SenseTime Japan

Slide 1

Slide 1 text

ゼロショット物体検出の研究動向 @【SenseTime Japan × Sansan】画像処理勉強会 2021/12/03 SenseTime Japan 研究チーム飯田啄巳

Slide 2

Slide 2 text

©2021 SenseTime. All Rights Reserved. 1 自己紹介 Confidential 飯田啄巳（たくみ）センスタイムジャパン@京都ラボ 2020年新卒入社 • 業務 [Now] 自動運転向けの（広い意味での）異常検知 • 好きなことアニメ、読書 ARIAが好きでベネチアに行きましたちょうど今日新作映画が公開されたので、みんな見よう！今回の発表内容をテックブログにまとめましたセンスタイムテックブログ『Zero-Shot Detectionの研究まとめ』

Slide 3

Slide 3 text

©2021 SenseTime. All Rights Reserved. 2 アジェンダ Confidential • Zero-Shot Detection入門 • Zero-Shot Detectionとは • Zero-Shot Detectionへのロードマップ • Zero-Shot Learning • 物体検出 • Zero-Shot Detection • Zero-Shot Detectionの難しさ • 論文紹介 1. Zero-Shot Object Detection 2. BLC 3. Zero-Shot Instance Segmentation 4. OVD • おわりにテーマ『ゼロショット物体検出の研究動向』

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

©2021 SenseTime. All Rights Reserved. 9 Zero-Shot Detectionへのロードマップ Zero-Shot Learning 物体検出 × Zero-Shot Learning 物体検出 start goal word2vec Zero-Shot Detection Zero-Shot Detection 未学習のクラスを認識可能にする画像中の物体の位置とそのクラス名を認識する

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

©2021 SenseTime. All Rights Reserved. 13 Zero-Shot Learning（クラス分類） Encoder 画像特徴訓練データパラメータ固定馬縞柄単語画像 NN 画像ー単語間の橋渡し学習可能耳が２つ目が横茶色馬 word2vec コーパスから学習済シマウマ＝縞柄の馬縞柄馬単語空間単語ベクトルを利用して未知のクラスを補間するシマウマ word2vecからの事前知識アライメント済み馬の単語ベクトルが取れたから馬！縞柄の単語ベクトルが取れたから縞柄！縞柄

Slide 15

Slide 15 text

©2021 SenseTime. All Rights Reserved. 14 Zero-Shot Learning（クラス分類） Encoder 画像特徴訓練データパラメータ固定馬縞柄単語画像 NN 画像ー単語間の橋渡し学習可能耳が２つ目が横茶色馬 word2vec コーパスから学習済シマウマ＝縞柄の馬縞柄馬単語空間 word2vecからの事前知識アライメント済み単語ベクトルを利用して未知のクラスを補間するシマウマ馬の単語ベクトルが取れたから馬！縞柄の単語ベクトルが取れたから縞柄！縞柄

Slide 16

Slide 16 text

©2021 SenseTime. All Rights Reserved. 15 Zero-Shot Learning（クラス分類） Encoder 画像特徴訓練データパラメータ固定馬縞柄 word2vec コーパスから学習済単語画像 NN 画像ー単語間の橋渡し馬の単語ベクトルが取れたから馬！縞柄の単語ベクトルが取れたから縞柄！馬＋縞柄の単語ベクトルが取れたからシマウマ？学習可能シマウマ＝縞柄の馬縞柄馬耳が２つ目が横茶色馬単語空間単語ベクトルを利用して未知のクラスを補間する word2vecからの事前知識アライメント済み縞柄シマウマ

Slide 17

Slide 17 text

©2021 SenseTime. All Rights Reserved. 16 Zero-Shot Learning（クラス分類） Encoder 画像特徴訓練データパラメータ固定馬縞柄 word2vec コーパスから学習済単語画像 NN 画像ー単語間の橋渡し学習可能シマウマ＝縞柄の馬縞柄馬耳が２つ目が横茶色馬単語空間 • Zero-Shot Learningでは、画像特徴と単語特徴のマッピングを行う。 • 単語空間を使うことで、データ点の補間ができる。ポイント縞柄シマウマ単語ベクトルを利用して未知のクラスを補間する word2vecからの事前知識アライメント済み馬の単語ベクトルが取れたから馬！縞柄の単語ベクトルが取れたから縞柄！馬＋縞柄の単語ベクトルが取れたからシマウマ？

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

©2021 SenseTime. All Rights Reserved. 20 Zero-Shot Learning x 物体検出 CNN CNN FC FC FC FC 座標 (x, y, w, h) 固定サイズ化 RoI Pooling RPN stage 1 stage 2 物体? 背景? 座標 (x, y, w, h) 犬シマウマ背景 Zero-Shot Detectionでは、2ステージの物体検出モデルが主流になっている。分類ヘッド回帰ヘッド物体らしき箇所を検出 → クラス分類ポイント物体らしければ領域提案 ※ Faster R-CNNの場合

Slide 22

Slide 22 text

Slide 23

Slide 23 text

©2021 SenseTime. All Rights Reserved. 22 Zero-Shot Learning x 物体検出 CNN CNN FC FC FC FC 座標 (x, y, w, h) 固定サイズ化 RoI Pooling RPN stage 1 stage 2 物体? 背景? 座標 (x, y, w, h) 犬シマウマ背景物体検出のクラスを単語ベクトルにしてやれば良い分類ヘッド回帰ヘッド背景

Slide 24

Slide 24 text

©2021 SenseTime. All Rights Reserved. 23 Zero-Shot Learning x 物体検出 CNN CNN FC FC FC FC 座標 (x, y, w, h) 固定サイズ化 RoI Pooling RPN stage 1 stage 2 物体? 背景? 座標 (x, y, w, h) 犬猫背景物体検出のクラスを単語ベクトルにしてやれば良い犬シマウマ背景 word2vec 犬、シマウマなどに対応した単語ベクトルを引っ張ってくる分類ヘッド回帰ヘッド背景 Zero-Shot Detectionになると分類ヘッドをセマンティックヘッドと言ったりする

Slide 25

Slide 25 text

©2021 SenseTime. All Rights Reserved. 24 Zero-Shot Detectionのむずかしさ CNN CNN FC FC FC FC 座標 (x, y, w, h) 固定サイズ化 RoI Pooling RPN stage 1 stage 2 物体? 背景? 座標 (x, y, w, h) word2vec 犬猫背景「背景」の単語ベクトルなんてしらない… 背景物体検出では、必ずしも候補領域に対象クラスが含まれていない →「背景」として、検出結果を破棄する必要がある →「背景」の単語ベクトルがない分類ヘッド回帰ヘッド Zero-Shot Detectionになると分類ヘッドをセマンティックヘッドと言ったりする犬シマウマ背景背景の単語ベクトルは別途対応が必要ポイント

Slide 26

Slide 26 text

Slide 27

Slide 27 text

©2021 SenseTime. All Rights Reserved. 26 Zero-Shot Object Detection Step 1: 既知クラスの特徴紐付け(アライメント)をきっちり行う ResNet 224x224 FC 馬縞柄 300 Step 2: 背景クラスのロバスト化 ResNet 馬縞柄 300 背景 𝐶𝑠𝑒𝑒𝑛 𝑂 パラメータ固定学習可能 𝐶𝑠𝑒𝑒𝑛 FC 𝐶𝑢𝑛𝑠𝑒𝑒𝑛 [Ankan Bansal+, "Zero-shot object detection", ECCV, 2018] Zero-Shot Detectionの火付け論文 ※ R-CNNを利用 “馬” = “背景” = (固定値) “馬” = “時計” = “ピアノ” = “すべり台” = 224x224 既知クラス𝐶𝑠𝑒𝑒𝑛 検出したい未知クラス𝐶𝑢𝑛𝑠𝑒𝑒𝑛 検出しないつもりの未知クラス𝑂 • BBoxのついていないところを、検出する予定のない未知クラスの単語ベクトルに割り当てる。

Slide 28

Slide 28 text

©2021 SenseTime. All Rights Reserved. 27 Zero-Shot Object Detection Step 1: 既知クラスの特徴紐付け(アライメント)をきっちり行う ResNet 224x224 FC 馬縞柄 300 パラメータ固定学習可能 𝐶𝑠𝑒𝑒𝑛 [Ankan Bansal+, "Zero-shot object detection", ECCV, 2018] Zero-Shot Detectionの火付け論文 ※ R-CNNを利用 “馬” = “背景” = (固定値) • BBoxのついていないところを、検出する予定のない未知クラスの単語ベクトルに割り当てる。

Slide 29

Slide 29 text

©2021 SenseTime. All Rights Reserved. 28 Zero-Shot Object Detection Step 1: 既知クラスの特徴紐付け(アライメント)をきっちり行う ResNet 224x224 FC 馬縞柄 300 “馬” = “背景” = (固定値) Step 2: 背景クラスのロバスト化 ResNet 224x224 馬縞柄 300 “馬” = “時計” = “ピアノ” = 背景 𝐶𝑠𝑒𝑒𝑛 𝑂 パラメータ固定学習可能 𝐶𝑠𝑒𝑒𝑛 FC 既知クラス𝐶𝑠𝑒𝑒𝑛 検出したい未知クラス𝐶𝑢𝑛𝑠𝑒𝑒𝑛 検出しないつもりの未知クラス𝑂 “すべり台” = 𝐶𝑢𝑛𝑠𝑒𝑒𝑛 [Ankan Bansal+, "Zero-shot object detection", ECCV, 2018] Zero-Shot Detectionの火付け論文 ※ R-CNNを利用 • BBoxのついていないところを、検出する予定のない未知クラスの単語ベクトルに割り当てる。

Slide 30

Slide 30 text

©2021 SenseTime. All Rights Reserved. 29 BLC 背景の単語ベクトルを学習可能にしたカスケード構造のモデルを提案 • 学習可能な背景単語ベクトル 1. RPNの部分で前景と背景に対応した単語ベクトルを学習する 2. 学習した背景の単語ベクトルを分類ヘッドの背景単語ベクトルとして利用する。 • カスケード構造（多段）にしたことで、緩やかな候補領域の破棄（背景クラスへの分類）ができる [Ye Zheng+, "Background Learnable Cascade for Zero-Shot Object Detection", ACCV, 2020] RPN I backbone pool pool S1 R1 pool S2 R2 S3 R3 Semantic information flow S Semantic Branch R BBox Regression RoI Align Pool 別で学習前景・背景の2値分類背景人馬 … 車 Semantic Branchの出力 𝑎𝑟𝑔𝑚𝑎𝑥 class 𝑖 前景背景 𝑋𝑏𝑏𝑜𝑥 𝑎𝑟𝑔𝑚𝑎𝑥 0 or 1 学習可能な単語ベクトル RPNの中身 Background aware

Slide 31

Slide 31 text

©2021 SenseTime. All Rights Reserved. 30 pool R1 S1 BLC 背景の単語ベクトルを学習可能にしたカスケード構造のモデルを提案 • 学習可能な背景単語ベクトル 1. RPNの部分で前景と背景に対応した単語ベクトルを学習する 2. 学習した背景の単語ベクトルを分類ヘッドの背景単語ベクトルとして利用する。 • カスケード構造（多段）にしたことで、緩やかな候補領域の破棄（背景クラスへの分類）ができる [Ye Zheng+, "Background Learnable Cascade for Zero-Shot Object Detection", ACCV, 2020] pool pool S2 R2 S3 R3 Semantic information flow S Semantic Branch R BBox Regression RoI Align Pool RPN Background aware 別で学習前景・背景の2値分類 backbone I 背景人馬 … 車 Semantic Branchの出力 𝑎𝑟𝑔𝑚𝑎𝑥 class 𝑖 前景背景 𝑋𝑏𝑏𝑜𝑥 𝑎𝑟𝑔𝑚𝑎𝑥 0 or 1 学習可能な単語ベクトル RPNの中身

Slide 32

Slide 32 text

©2021 SenseTime. All Rights Reserved. 31 S2 R2 S3 R3 BLC 背景の単語ベクトルを学習可能にしたカスケード構造のモデルを提案 • 学習可能な背景単語ベクトル 1. RPNの部分で前景と背景に対応した単語ベクトルを学習する 2. 学習した背景の単語ベクトルを分類ヘッドの背景単語ベクトルとして利用する。 • カスケード構造（多段）にしたことで、緩やかな候補領域の破棄（背景クラスへの分類）ができる [Ye Zheng+, "Background Learnable Cascade for Zero-Shot Object Detection", ACCV, 2020] pool pool Semantic information flow S Semantic Branch R BBox Regression RoI Align Pool RPN Background aware 別で学習前景・背景の2値分類 backbone I pool R1 S1 Semantic Branchの出力 𝑎𝑟𝑔𝑚𝑎𝑥 class 𝑖 前景背景 𝑋𝑏𝑏𝑜𝑥 𝑎𝑟𝑔𝑚𝑎𝑥 0 or 1 学習可能な単語ベクトル RPNの中身背景人馬 … 車

Slide 33

Slide 33 text

©2021 SenseTime. All Rights Reserved. 32 BLC 背景の単語ベクトルを学習可能にしたカスケード構造のモデルを提案 • 学習可能な背景単語ベクトル 1. RPNの部分で前景と背景に対応した単語ベクトルを学習する 2. 学習した背景の単語ベクトルを分類ヘッドの背景単語ベクトルとして利用する。 • カスケード構造（多段）にしたことで、緩やかな候補領域の破棄（背景クラスへの分類）ができる [Ye Zheng+, "Background Learnable Cascade for Zero-Shot Object Detection", ACCV, 2020] RPN I backbone pool pool S1 R1 pool Semantic information flow S Semantic Branch R BBox Regression RoI Align Pool 別で学習前景・背景の2値分類前ステージで出力したセマンティック情報を後段に伝える Semantic information flowの中身 Background aware S2 R2 S3 R3

Slide 34

Slide 34 text

©2021 SenseTime. All Rights Reserved. 33 Zero-Shot Instance Segmentation Zero-Shotのインスタンスセグメンテーションを行った初の論文 • BLCと同様に背景の単語ベクトルを学習可能なRPNを利用（同じ作者） • Mask R-CNNの構造を採用 • （RoI特徴の）ピクセルごとに単語ベクトルを推論して、セグメンテーションを可能にしている。 backbone RPN Zero-Shot Detector Semantic Mask Head Visual feature 前景－背景の二値分類器 word vector = trainable Sync-bg background word-vector Semantic Mask Headの中身ピクセルごとに単語ベクトルを推論 [Ye Zheng+, Zero-Shot Instance Segmentation", CVPR, 2021]

Slide 35

Slide 35 text

©2021 SenseTime. All Rights Reserved. 34 Semantic Mask Headの中身ピクセルごとに単語ベクトルを推論 Sync-bg Zero-Shot Instance Segmentation Zero-Shotのインスタンスセグメンテーションを行った初の論文。 • BLCと同様に背景の単語ベクトルを学習可能なRPNを利用（同じ作者） • Mask R-CNNの構造を採用 • （RoI特徴の）ピクセルごとに単語ベクトルを推論して、セグメンテーションを可能にしている。 Zero-Shot Detector Semantic Mask Head Visual feature backbone RPN 前景－背景の二値分類器 word vector = trainable background word-vector [Ye Zheng+, Zero-Shot Instance Segmentation", CVPR, 2021]

Slide 36

Slide 36 text

©2021 SenseTime. All Rights Reserved. 35 Zero-Shot Instance Segmentation Zero-Shotのインスタンスセグメンテーションを行った初の論文。 • BLCと同様に背景の単語ベクトルを学習可能なRPNを利用（同じ作者） • Mask R-CNNの構造を採用 • （RoI特徴の）ピクセルごとに単語ベクトルを推論して、セグメンテーションを可能にしている。 backbone RPN Zero-Shot Detector Semantic Mask Head Visual feature background word-vector 前景－背景の二値分類器 word vector = trainable Sync-bg Semantic Mask Headの中身ピクセルごとに単語ベクトルを推論 [Ye Zheng+, Zero-Shot Instance Segmentation", CVPR, 2021]

Slide 37

Slide 37 text

©2021 SenseTime. All Rights Reserved. 36 Zero-Shot Instance Segmentation Zero-Shotのインスタンスセグメンテーションを行った初の論文。 • BLCと同様に背景の単語ベクトルを学習可能なRPNを利用（同じ作者） • Mask R-CNNの構造を採用 • （RoI特徴の）ピクセルごとに単語ベクトルを推論して、セグメンテーションを可能にしている。 backbone RPN Zero-Shot Detector Semantic Mask Head Visual feature 前景－背景の二値分類器 word vector = trainable Sync-bg background word-vector Semantic Mask Headの中身ピクセルごとに単語ベクトルを推論 [Ye Zheng+, Zero-Shot Instance Segmentation", CVPR, 2021]

Slide 38

Slide 38 text

©2021 SenseTime. All Rights Reserved. 37 Zero-Shot Instance Segmentation Zero-Shotのインスタンスセグメンテーションを行った初の論文。 • BLCと同様に背景の単語ベクトルを学習可能なRPNを利用（同じ作者） • Mask R-CNNの構造を採用 • （RoI特徴の）ピクセルごとに単語ベクトルを推論して、セグメンテーションを可能にしている。 backbone RPN Zero-Shot Detector Semantic Mask Head Visual feature 前景－背景の二値分類器 word vector = trainable Sync-bg background word-vector Semantic Mask Headの中身既知/未知クラスの単語ベクトルで初期化1x1 Conv [Ye Zheng+, Zero-Shot Instance Segmentation", CVPR, 2021]

Slide 39

Slide 39 text

©2021 SenseTime. All Rights Reserved. 38 Zero-Shot Instance Segmentation Zero-Shotのインスタンスセグメンテーションを行った初の論文。 • BLCと同様に背景の単語ベクトルを学習可能なRPNを利用（同じ作者） • Mask R-CNNの構造を採用 • （RoI特徴の）ピクセルごとに単語ベクトルを推論して、セグメンテーションを可能にしている。 backbone RPN Zero-Shot Detector Semantic Mask Head Visual feature 前景－背景の二値分類器 word vector = trainable Sync-bg background word-vector Semantic Mask Headの中身単語ベクトルから画像特徴を復元できるか [Ye Zheng+, Zero-Shot Instance Segmentation", CVPR, 2021]

Slide 40

Slide 40 text

©2021 SenseTime. All Rights Reserved. 39 OVD [Alireza Zareian+, "Open-Vocabulary Object Detection Using Captions", CVPR, 2021] Step 1: 画像ーキャプションデータを使って事前学習 Step 2: Fine-tuning キャプションデータを使って事前学習することでZero-Shot Detectionの性能を改善 • 弱教師ありのGrounding（テキスト中の名詞と画像特徴を紐付ける）で事前学習 • 対照学習を利用して、学習を安定化した。 Region Proposal Network V2L

Slide 41

Slide 41 text

©2021 SenseTime. All Rights Reserved. 40 OVD [Alireza Zareian+, "Open-Vocabulary Object Detection Using Captions", CVPR, 2021] Step 1: 画像ーキャプションデータを使って事前学習 Step 2: Fine-tuning キャプションデータを使って事前学習することでZero-Shot Detectionの性能を改善 • 弱教師ありのGrounding（テキスト中の名詞と画像特徴を紐付ける）で事前学習 • 対照学習を利用して、学習を安定化した。対応した画像特徴 𝑒𝑗 𝐼と単語特徴𝑒𝑗 𝐶 との類似度を高める Groundingでやるイメージ [Aishwarya Kamath+, “MDETR - Modulated Detection for End-to-End Multi-Modal Understanding”, ICCV, 2021]より引用して作成 person

Slide 42

Slide 42 text

©2021 SenseTime. All Rights Reserved. 41 OVD [Alireza Zareian+, "Open-Vocabulary Object Detection Using Captions", CVPR, 2021] Step 1: 画像ーキャプションデータを使って事前学習キャプションデータを使って事前学習することでZero-Shot Detectionの性能を改善 • 弱教師ありのGrounding（テキスト中の名詞と画像特徴を紐付ける）で事前学習 • 対照学習を利用して、学習を安定化した。 “A horse playing at a park” Image-Text Matching (ITM) “A student studying at school” 画像ーテキストが対応 → 類似度を上げる↗ 無関係 → 類似度を下げる↘ person

Slide 43

Slide 43 text

©2021 SenseTime. All Rights Reserved. 42 OVD [Alireza Zareian+, "Open-Vocabulary Object Detection Using Captions", CVPR, 2021] Step 1: 画像ーキャプションデータを使って事前学習 Step 2: Fine-tuning キャプションデータを使って事前学習することでZero-Shot Detectionの性能を改善 • 弱教師ありのGrounding（テキスト中の名詞と画像特徴を紐付ける）で事前学習 • 対照学習を利用して、学習を安定化した。 “A horse playing at a park” Image-Text Matching (ITM) “A student studying at school” 画像ーテキストが対応 → 類似度を上げる↗ 無関係 → 類似度を下げる↘ Masked Language Model (MLM) [CLS] a [MASK] is holding a dog [SEP] person [MASK]

Slide 44

Slide 44 text

©2021 SenseTime. All Rights Reserved. 43 OVD [Alireza Zareian+, "Open-Vocabulary Object Detection Using Captions", CVPR, 2021] Step 1: 画像ーキャプションデータを使って事前学習 Step 2: Fine-tuning キャプションデータを使って事前学習することでZero-Shot Detectionの性能を改善 • 弱教師ありのGrounding（テキスト中の名詞と画像特徴を紐付ける）で事前学習 • 対照学習を利用して、学習を安定化した。ダウンストリームタスクでZero-Shot Detectionの学習を行う。 1. 既知のクラス（Base Classes）で学習 2. 推論 1. 未知（Target Classes）のクラスで推論 2. すべてのクラス（All Nouns） Region Proposal Network V2L ダウンストリームタスクでZero-Shot Detectionの学習を行う。 1. 既知のクラス（Base Classes）で学習ダウンストリームタスクでZero-Shot Detectionの学習を行う。 1. 既知のクラス（Base Classes）で学習 2. 推論 1. 未知（Target Classes）のクラスで推論ダウンストリームタスクでZero-Shot Detectionの学習を行う。 1. 既知のクラス（Base Classes）で学習 2. 推論 1. 未知（Target Classes）のクラスで推論 2. すべてのクラス（All Nouns）

Slide 45

Slide 45 text

Slide 46

Slide 46 text

©2021 SenseTime. All Rights Reserved. 45 おわりに Zero-Shot Learning 物体検出 × Zero-Shot Detection word2vec start goal Zero-Shot Learning 物体検出 Zero-Shot Detection Grounding Referring Expression Comprehension 興味を持たれた方は、ビジョン×言語を更に組み合わせたこの分野を見てみると面白いかもしれません。 Visual Grounding Referring Expression Comprehension(REC)