ゼロショット物体検出の研究動向

ゼロショット物体検出の研究動向 @【SenseTime Japan × Sansan】画像処理勉強会 2021/12/03 SenseTime Japan 研究チーム
飯田啄巳

©2021 SenseTime. All Rights Reserved. 1 自己紹介 Confidential 飯田啄巳（たくみ）センスタイムジャパン@京都ラボ
2020年新卒入社 • 業務 [Now] 自動運転向けの（広い意味での）異常検知 • 好きなことアニメ、読書 ARIAが好きでベネチアに行きましたちょうど今日新作映画が公開されたので、みんな見よう！今回の発表内容をテックブログにまとめましたセンスタイムテックブログ『Zero-Shot Detectionの研究まとめ』

©2021 SenseTime. All Rights Reserved. 2 アジェンダ Confidential • Zero-Shot
Detection入門 • Zero-Shot Detectionとは • Zero-Shot Detectionへのロードマップ • Zero-Shot Learning • 物体検出 • Zero-Shot Detection • Zero-Shot Detectionの難しさ • 論文紹介 1. Zero-Shot Object Detection 2. BLC 3. Zero-Shot Instance Segmentation 4. OVD • おわりにテーマ『ゼロショット物体検出の研究動向』

©2021 SenseTime. All Rights Reserved. 3 Zero-Shot Detectionとは馬馬
訓練データ学習時には存在しないクラスの物体検出を行う技術通常の物体検出 Zero-Shot Detection

©2021 SenseTime. All Rights Reserved. 4 Zero-Shot Detectionとは馬馬
訓練データ学習時には存在しないクラスの物体検出を行う技術通常の物体検出 Zero-Shot Detection

©2021 SenseTime. All Rights Reserved. 5 Zero-Shot Detectionとはこれも馬！馬
馬訓練データ馬馬学習時には存在しないクラスの物体検出を行う技術通常の物体検出 Zero-Shot Detection

馬訓練データ馬馬学習時には存在しないクラスの物体検出を行う技術通常の物体検出 Zero-Shot Detection

馬訓練データ × これも馬！馬馬馬学習時には存在しないクラスの物体検出を行う技術通常の物体検出 Zero-Shot Detection

馬訓練データ × これも馬！ ◯ 本当はシマウマ馬馬馬シマウマ学習時には存在しないクラスの物体検出を行う技術通常の物体検出 Zero-Shot Detection

©2021 SenseTime. All Rights Reserved. 9 Zero-Shot Detectionへのロードマップ Zero-Shot Learning
物体検出 × Zero-Shot Learning 物体検出 start goal word2vec Zero-Shot Detection Zero-Shot Detection 未学習のクラスを認識可能にする画像中の物体の位置とそのクラス名を認識する

©2021 SenseTime. All Rights Reserved. 10 Zero-Shot Detection Zero-Shot Detectionへのロードマップ
Zero-Shot Learning 物体検出 × 物体検出 Zero-Shot Learning start goal word2vec まずはクラス分類から！ Zero-Shot Detection

©2021 SenseTime. All Rights Reserved. 11 どのように未知のクラスを分類できるようにするか単語の意味情報を利用する馬縞柄
シマウマ＋＝シマウマ＝縞柄の馬

©2021 SenseTime. All Rights Reserved. 12 Zero-Shot Learning（クラス分類） word2vec コーパスから学習済
シマウマ＝縞柄の馬縞柄馬耳が２つ目が横茶色単語空間馬縞柄単語ベクトルを利用して未知のクラスを補間するシマウマ word2vecからの事前知識

©2021 SenseTime. All Rights Reserved. 13 Zero-Shot Learning（クラス分類） Encoder 画像特徴
訓練データパラメータ固定馬縞柄単語画像 NN 画像ー単語間の橋渡し学習可能耳が２つ目が横茶色馬 word2vec コーパスから学習済シマウマ＝縞柄の馬縞柄馬単語空間単語ベクトルを利用して未知のクラスを補間するシマウマ word2vecからの事前知識アライメント済み馬の単語ベクトルが取れたから馬！縞柄の単語ベクトルが取れたから縞柄！縞柄

訓練データパラメータ固定馬縞柄単語画像 NN 画像ー単語間の橋渡し学習可能耳が２つ目が横茶色馬 word2vec コーパスから学習済シマウマ＝縞柄の馬縞柄馬単語空間 word2vecからの事前知識アライメント済み単語ベクトルを利用して未知のクラスを補間するシマウマ馬の単語ベクトルが取れたから馬！縞柄の単語ベクトルが取れたから縞柄！縞柄

訓練データパラメータ固定馬縞柄 word2vec コーパスから学習済単語画像 NN 画像ー単語間の橋渡し馬の単語ベクトルが取れたから馬！縞柄の単語ベクトルが取れたから縞柄！馬＋縞柄の単語ベクトルが取れたからシマウマ？学習可能シマウマ＝縞柄の馬縞柄馬耳が２つ目が横茶色馬単語空間単語ベクトルを利用して未知のクラスを補間する word2vecからの事前知識アライメント済み縞柄シマウマ

訓練データパラメータ固定馬縞柄 word2vec コーパスから学習済単語画像 NN 画像ー単語間の橋渡し学習可能シマウマ＝縞柄の馬縞柄馬耳が２つ目が横茶色馬単語空間 • Zero-Shot Learningでは、画像特徴と単語特徴のマッピングを行う。 • 単語空間を使うことで、データ点の補間ができる。ポイント縞柄シマウマ単語ベクトルを利用して未知のクラスを補間する word2vecからの事前知識アライメント済み馬の単語ベクトルが取れたから馬！縞柄の単語ベクトルが取れたから縞柄！馬＋縞柄の単語ベクトルが取れたからシマウマ？

©2021 SenseTime. All Rights Reserved. 17 Zero-Shot Detection word2vec Zero-Shot
Detectionへのロードマップ Zero-Shot Learning 物体検出 × start goal Zero-Shot Learning 物体検出 Faster R-CNNを解説します Zero-Shot Detection

©2021 SenseTime. All Rights Reserved. 18 Zero-Shot Learning x 物体検出
Zero-Shot Detectionでは、2ステージの物体検出モデルが主流になっている。

CNN CNN FC FC RPN stage 1 物体? 背景? 座標 (x, y, w, h) Zero-Shot Detectionでは、2ステージの物体検出モデルが主流になっている。物体らしければ領域提案 ※ Faster R-CNNの場合

CNN CNN FC FC FC FC 座標 (x, y, w, h) 固定サイズ化 RoI Pooling RPN stage 1 stage 2 物体? 背景? 座標 (x, y, w, h) 犬シマウマ背景 Zero-Shot Detectionでは、2ステージの物体検出モデルが主流になっている。分類ヘッド回帰ヘッド物体らしき箇所を検出 → クラス分類ポイント物体らしければ領域提案 ※ Faster R-CNNの場合

©2021 SenseTime. All Rights Reserved. 21 word2vec Zero-Shot Detectionへのロードマップ Zero-Shot
Learning 物体検出 × start goal Zero-Shot Learning 物体検出 Zero-Shot Detection Zero-Shot Detection ２つの技術の合わせ方について説明します

CNN CNN FC FC FC FC 座標 (x, y, w, h) 固定サイズ化 RoI Pooling RPN stage 1 stage 2 物体? 背景? 座標 (x, y, w, h) 犬シマウマ背景物体検出のクラスを単語ベクトルにしてやれば良い分類ヘッド回帰ヘッド背景

CNN CNN FC FC FC FC 座標 (x, y, w, h) 固定サイズ化 RoI Pooling RPN stage 1 stage 2 物体? 背景? 座標 (x, y, w, h) 犬猫背景物体検出のクラスを単語ベクトルにしてやれば良い犬シマウマ背景 word2vec 犬、シマウマなどに対応した単語ベクトルを引っ張ってくる分類ヘッド回帰ヘッド背景 Zero-Shot Detectionになると分類ヘッドをセマンティックヘッドと言ったりする

©2021 SenseTime. All Rights Reserved. 24 Zero-Shot Detectionのむずかしさ CNN CNN
FC FC FC FC 座標 (x, y, w, h) 固定サイズ化 RoI Pooling RPN stage 1 stage 2 物体? 背景? 座標 (x, y, w, h) word2vec 犬猫背景「背景」の単語ベクトルなんてしらない… 背景物体検出では、必ずしも候補領域に対象クラスが含まれていない →「背景」として、検出結果を破棄する必要がある →「背景」の単語ベクトルがない分類ヘッド回帰ヘッド Zero-Shot Detectionになると分類ヘッドをセマンティックヘッドと言ったりする犬シマウマ背景背景の単語ベクトルは別途対応が必要ポイント

Learning 物体検出 × start goal Zero-Shot Learning 物体検出 Zero-Shot Detection Zero-Shot Detection 論文紹介！

©2021 SenseTime. All Rights Reserved. 26 Zero-Shot Object Detection Step
1: 既知クラスの特徴紐付け(アライメント)をきっちり行う ResNet 224x224 FC 馬縞柄 300 Step 2: 背景クラスのロバスト化 ResNet 馬縞柄 300 背景 𝐶𝑠𝑒𝑒𝑛 𝑂 パラメータ固定学習可能 𝐶𝑠𝑒𝑒𝑛 FC 𝐶𝑢𝑛𝑠𝑒𝑒𝑛 [Ankan Bansal+, "Zero-shot object detection", ECCV, 2018] Zero-Shot Detectionの火付け論文 ※ R-CNNを利用 “馬” = “背景” = (固定値) “馬” = “時計” = “ピアノ” = “すべり台” = 224x224 既知クラス𝐶𝑠𝑒𝑒𝑛 検出したい未知クラス𝐶𝑢𝑛𝑠𝑒𝑒𝑛 検出しないつもりの未知クラス𝑂 • BBoxのついていないところを、検出する予定のない未知クラスの単語ベクトルに割り当てる。

1: 既知クラスの特徴紐付け(アライメント)をきっちり行う ResNet 224x224 FC 馬縞柄 300 パラメータ固定学習可能 𝐶𝑠𝑒𝑒𝑛 [Ankan Bansal+, "Zero-shot object detection", ECCV, 2018] Zero-Shot Detectionの火付け論文 ※ R-CNNを利用 “馬” = “背景” = (固定値) • BBoxのついていないところを、検出する予定のない未知クラスの単語ベクトルに割り当てる。

1: 既知クラスの特徴紐付け(アライメント)をきっちり行う ResNet 224x224 FC 馬縞柄 300 “馬” = “背景” = (固定値) Step 2: 背景クラスのロバスト化 ResNet 224x224 馬縞柄 300 “馬” = “時計” = “ピアノ” = 背景 𝐶𝑠𝑒𝑒𝑛 𝑂 パラメータ固定学習可能 𝐶𝑠𝑒𝑒𝑛 FC 既知クラス𝐶𝑠𝑒𝑒𝑛 検出したい未知クラス𝐶𝑢𝑛𝑠𝑒𝑒𝑛 検出しないつもりの未知クラス𝑂 “すべり台” = 𝐶𝑢𝑛𝑠𝑒𝑒𝑛 [Ankan Bansal+, "Zero-shot object detection", ECCV, 2018] Zero-Shot Detectionの火付け論文 ※ R-CNNを利用 • BBoxのついていないところを、検出する予定のない未知クラスの単語ベクトルに割り当てる。

©2021 SenseTime. All Rights Reserved. 29 BLC 背景の単語ベクトルを学習可能にしたカスケード構造のモデルを提案 • 学習可能な背景単語ベクトル
1. RPNの部分で前景と背景に対応した単語ベクトルを学習する 2. 学習した背景の単語ベクトルを分類ヘッドの背景単語ベクトルとして利用する。 • カスケード構造（多段）にしたことで、緩やかな候補領域の破棄（背景クラスへの分類）ができる [Ye Zheng+, "Background Learnable Cascade for Zero-Shot Object Detection", ACCV, 2020] RPN I backbone pool pool S1 R1 pool S2 R2 S3 R3 Semantic information flow S Semantic Branch R BBox Regression RoI Align Pool 別で学習前景・背景の2値分類背景人馬 … 車 Semantic Branchの出力 𝑎𝑟𝑔𝑚𝑎𝑥 class 𝑖 前景背景 𝑋𝑏𝑏𝑜𝑥 𝑎𝑟𝑔𝑚𝑎𝑥 0 or 1 学習可能な単語ベクトル RPNの中身 Background aware

©2021 SenseTime. All Rights Reserved. 30 pool R1 S1 BLC
背景の単語ベクトルを学習可能にしたカスケード構造のモデルを提案 • 学習可能な背景単語ベクトル 1. RPNの部分で前景と背景に対応した単語ベクトルを学習する 2. 学習した背景の単語ベクトルを分類ヘッドの背景単語ベクトルとして利用する。 • カスケード構造（多段）にしたことで、緩やかな候補領域の破棄（背景クラスへの分類）ができる [Ye Zheng+, "Background Learnable Cascade for Zero-Shot Object Detection", ACCV, 2020] pool pool S2 R2 S3 R3 Semantic information flow S Semantic Branch R BBox Regression RoI Align Pool RPN Background aware 別で学習前景・背景の2値分類 backbone I 背景人馬 … 車 Semantic Branchの出力 𝑎𝑟𝑔𝑚𝑎𝑥 class 𝑖 前景背景 𝑋𝑏𝑏𝑜𝑥 𝑎𝑟𝑔𝑚𝑎𝑥 0 or 1 学習可能な単語ベクトル RPNの中身

©2021 SenseTime. All Rights Reserved. 31 S2 R2 S3 R3
BLC 背景の単語ベクトルを学習可能にしたカスケード構造のモデルを提案 • 学習可能な背景単語ベクトル 1. RPNの部分で前景と背景に対応した単語ベクトルを学習する 2. 学習した背景の単語ベクトルを分類ヘッドの背景単語ベクトルとして利用する。 • カスケード構造（多段）にしたことで、緩やかな候補領域の破棄（背景クラスへの分類）ができる [Ye Zheng+, "Background Learnable Cascade for Zero-Shot Object Detection", ACCV, 2020] pool pool Semantic information flow S Semantic Branch R BBox Regression RoI Align Pool RPN Background aware 別で学習前景・背景の2値分類 backbone I pool R1 S1 Semantic Branchの出力 𝑎𝑟𝑔𝑚𝑎𝑥 class 𝑖 前景背景 𝑋𝑏𝑏𝑜𝑥 𝑎𝑟𝑔𝑚𝑎𝑥 0 or 1 学習可能な単語ベクトル RPNの中身背景人馬 … 車

©2021 SenseTime. All Rights Reserved. 32 BLC 背景の単語ベクトルを学習可能にしたカスケード構造のモデルを提案 • 学習可能な背景単語ベクトル
1. RPNの部分で前景と背景に対応した単語ベクトルを学習する 2. 学習した背景の単語ベクトルを分類ヘッドの背景単語ベクトルとして利用する。 • カスケード構造（多段）にしたことで、緩やかな候補領域の破棄（背景クラスへの分類）ができる [Ye Zheng+, "Background Learnable Cascade for Zero-Shot Object Detection", ACCV, 2020] RPN I backbone pool pool S1 R1 pool Semantic information flow S Semantic Branch R BBox Regression RoI Align Pool 別で学習前景・背景の2値分類前ステージで出力したセマンティック情報を後段に伝える Semantic information flowの中身 Background aware S2 R2 S3 R3

©2021 SenseTime. All Rights Reserved. 33 Zero-Shot Instance Segmentation Zero-Shotのインスタンスセグメンテーションを行った初の論文
• BLCと同様に背景の単語ベクトルを学習可能なRPNを利用（同じ作者） • Mask R-CNNの構造を採用 • （RoI特徴の）ピクセルごとに単語ベクトルを推論して、セグメンテーションを可能にしている。 backbone RPN Zero-Shot Detector Semantic Mask Head Visual feature 前景－背景の二値分類器 word vector = trainable Sync-bg background word-vector Semantic Mask Headの中身ピクセルごとに単語ベクトルを推論 [Ye Zheng+, Zero-Shot Instance Segmentation", CVPR, 2021]

©2021 SenseTime. All Rights Reserved. 34 Semantic Mask Headの中身ピクセルごとに単語
ベクトルを推論 Sync-bg Zero-Shot Instance Segmentation Zero-Shotのインスタンスセグメンテーションを行った初の論文。 • BLCと同様に背景の単語ベクトルを学習可能なRPNを利用（同じ作者） • Mask R-CNNの構造を採用 • （RoI特徴の）ピクセルごとに単語ベクトルを推論して、セグメンテーションを可能にしている。 Zero-Shot Detector Semantic Mask Head Visual feature backbone RPN 前景－背景の二値分類器 word vector = trainable background word-vector [Ye Zheng+, Zero-Shot Instance Segmentation", CVPR, 2021]

©2021 SenseTime. All Rights Reserved. 35 Zero-Shot Instance Segmentation Zero-Shotのインスタンスセグメンテーションを行った初の論文。
• BLCと同様に背景の単語ベクトルを学習可能なRPNを利用（同じ作者） • Mask R-CNNの構造を採用 • （RoI特徴の）ピクセルごとに単語ベクトルを推論して、セグメンテーションを可能にしている。 backbone RPN Zero-Shot Detector Semantic Mask Head Visual feature background word-vector 前景－背景の二値分類器 word vector = trainable Sync-bg Semantic Mask Headの中身ピクセルごとに単語ベクトルを推論 [Ye Zheng+, Zero-Shot Instance Segmentation", CVPR, 2021]

• BLCと同様に背景の単語ベクトルを学習可能なRPNを利用（同じ作者） • Mask R-CNNの構造を採用 • （RoI特徴の）ピクセルごとに単語ベクトルを推論して、セグメンテーションを可能にしている。 backbone RPN Zero-Shot Detector Semantic Mask Head Visual feature 前景－背景の二値分類器 word vector = trainable Sync-bg background word-vector Semantic Mask Headの中身ピクセルごとに単語ベクトルを推論 [Ye Zheng+, Zero-Shot Instance Segmentation", CVPR, 2021]

• BLCと同様に背景の単語ベクトルを学習可能なRPNを利用（同じ作者） • Mask R-CNNの構造を採用 • （RoI特徴の）ピクセルごとに単語ベクトルを推論して、セグメンテーションを可能にしている。 backbone RPN Zero-Shot Detector Semantic Mask Head Visual feature 前景－背景の二値分類器 word vector = trainable Sync-bg background word-vector Semantic Mask Headの中身既知/未知クラスの単語ベクトルで初期化1x1 Conv [Ye Zheng+, Zero-Shot Instance Segmentation", CVPR, 2021]

• BLCと同様に背景の単語ベクトルを学習可能なRPNを利用（同じ作者） • Mask R-CNNの構造を採用 • （RoI特徴の）ピクセルごとに単語ベクトルを推論して、セグメンテーションを可能にしている。 backbone RPN Zero-Shot Detector Semantic Mask Head Visual feature 前景－背景の二値分類器 word vector = trainable Sync-bg background word-vector Semantic Mask Headの中身単語ベクトルから画像特徴を復元できるか [Ye Zheng+, Zero-Shot Instance Segmentation", CVPR, 2021]

©2021 SenseTime. All Rights Reserved. 39 OVD [Alireza Zareian+, "Open-Vocabulary
Object Detection Using Captions", CVPR, 2021] Step 1: 画像ーキャプションデータを使って事前学習 Step 2: Fine-tuning キャプションデータを使って事前学習することでZero-Shot Detectionの性能を改善 • 弱教師ありのGrounding（テキスト中の名詞と画像特徴を紐付ける）で事前学習 • 対照学習を利用して、学習を安定化した。 Region Proposal Network V2L

Object Detection Using Captions", CVPR, 2021] Step 1: 画像ーキャプションデータを使って事前学習 Step 2: Fine-tuning キャプションデータを使って事前学習することでZero-Shot Detectionの性能を改善 • 弱教師ありのGrounding（テキスト中の名詞と画像特徴を紐付ける）で事前学習 • 対照学習を利用して、学習を安定化した。対応した画像特徴 𝑒𝑗 𝐼と単語特徴𝑒𝑗 𝐶 との類似度を高める Groundingでやるイメージ [Aishwarya Kamath+, “MDETR - Modulated Detection for End-to-End Multi-Modal Understanding”, ICCV, 2021]より引用して作成 person

Object Detection Using Captions", CVPR, 2021] Step 1: 画像ーキャプションデータを使って事前学習キャプションデータを使って事前学習することでZero-Shot Detectionの性能を改善 • 弱教師ありのGrounding（テキスト中の名詞と画像特徴を紐付ける）で事前学習 • 対照学習を利用して、学習を安定化した。 “A horse playing at a park” Image-Text Matching (ITM) “A student studying at school” 画像ーテキストが対応 → 類似度を上げる↗ 無関係 → 類似度を下げる↘ person

Object Detection Using Captions", CVPR, 2021] Step 1: 画像ーキャプションデータを使って事前学習 Step 2: Fine-tuning キャプションデータを使って事前学習することでZero-Shot Detectionの性能を改善 • 弱教師ありのGrounding（テキスト中の名詞と画像特徴を紐付ける）で事前学習 • 対照学習を利用して、学習を安定化した。 “A horse playing at a park” Image-Text Matching (ITM) “A student studying at school” 画像ーテキストが対応 → 類似度を上げる↗ 無関係 → 類似度を下げる↘ Masked Language Model (MLM) [CLS] a [MASK] is holding a dog [SEP] person [MASK]

Object Detection Using Captions", CVPR, 2021] Step 1: 画像ーキャプションデータを使って事前学習 Step 2: Fine-tuning キャプションデータを使って事前学習することでZero-Shot Detectionの性能を改善 • 弱教師ありのGrounding（テキスト中の名詞と画像特徴を紐付ける）で事前学習 • 対照学習を利用して、学習を安定化した。ダウンストリームタスクでZero-Shot Detectionの学習を行う。 1. 既知のクラス（Base Classes）で学習 2. 推論 1. 未知（Target Classes）のクラスで推論 2. すべてのクラス（All Nouns） Region Proposal Network V2L ダウンストリームタスクでZero-Shot Detectionの学習を行う。 1. 既知のクラス（Base Classes）で学習ダウンストリームタスクでZero-Shot Detectionの学習を行う。 1. 既知のクラス（Base Classes）で学習 2. 推論 1. 未知（Target Classes）のクラスで推論ダウンストリームタスクでZero-Shot Detectionの学習を行う。 1. 既知のクラス（Base Classes）で学習 2. 推論 1. 未知（Target Classes）のクラスで推論 2. すべてのクラス（All Nouns）

Learning 物体検出 × start goal Zero-Shot Learning 物体検出 Zero-Shot Detection Zero-Shot Detection

©2021 SenseTime. All Rights Reserved. 45 おわりに Zero-Shot Learning 物体検出
× Zero-Shot Detection word2vec start goal Zero-Shot Learning 物体検出 Zero-Shot Detection Grounding Referring Expression Comprehension 興味を持たれた方は、ビジョン×言語を更に組み合わせたこの分野を見てみると面白いかもしれません。 Visual Grounding Referring Expression Comprehension(REC)

ゼロショット物体検出の研究動向

ゼロショット物体検出の研究動向

More Decks by SenseTime Japan

Other Decks in Technology

Featured

Transcript