Slide 1

Slide 1 text

ゼロショット物体検出の研究動向 @【SenseTime Japan × Sansan】 画像処理勉強会 2021/12/03 SenseTime Japan 研究チーム 飯田啄巳

Slide 2

Slide 2 text

©2021 SenseTime. All Rights Reserved. 1 自己紹介 Confidential 飯田啄巳(たくみ) センスタイムジャパン@京都ラボ 2020年新卒入社 • 業務 [Now] 自動運転向けの(広い意味での)異常検知 • 好きなこと アニメ、読書 ARIAが好きでベネチアに行きました ちょうど今日新作映画が公開されたので、みんな見よう! 今回の発表内容をテックブログにまとめました センスタイム テックブログ 『Zero-Shot Detectionの研究まとめ』

Slide 3

Slide 3 text

©2021 SenseTime. All Rights Reserved. 2 アジェンダ Confidential • Zero-Shot Detection入門 • Zero-Shot Detectionとは • Zero-Shot Detectionへのロードマップ • Zero-Shot Learning • 物体検出 • Zero-Shot Detection • Zero-Shot Detectionの難しさ • 論文紹介 1. Zero-Shot Object Detection 2. BLC 3. Zero-Shot Instance Segmentation 4. OVD • おわりに テーマ 『ゼロショット物体検出の研究動向』

Slide 4

Slide 4 text

©2021 SenseTime. All Rights Reserved. 3 Zero-Shot Detectionとは 馬 馬 訓練データ 学習時には存在しないクラスの物体検出を行う技術 通常の物体検出 Zero-Shot Detection

Slide 5

Slide 5 text

©2021 SenseTime. All Rights Reserved. 4 Zero-Shot Detectionとは 馬 馬 訓練データ 学習時には存在しないクラスの物体検出を行う技術 通常の物体検出 Zero-Shot Detection

Slide 6

Slide 6 text

©2021 SenseTime. All Rights Reserved. 5 Zero-Shot Detectionとは これも馬! 馬 馬 訓練データ 馬 馬 学習時には存在しないクラスの物体検出を行う技術 通常の物体検出 Zero-Shot Detection

Slide 7

Slide 7 text

©2021 SenseTime. All Rights Reserved. 6 Zero-Shot Detectionとは これも馬! 馬 馬 訓練データ 馬 馬 学習時には存在しないクラスの物体検出を行う技術 通常の物体検出 Zero-Shot Detection

Slide 8

Slide 8 text

©2021 SenseTime. All Rights Reserved. 7 Zero-Shot Detectionとは これも馬! 馬 馬 訓練データ × これも馬! 馬 馬 馬 学習時には存在しないクラスの物体検出を行う技術 通常の物体検出 Zero-Shot Detection

Slide 9

Slide 9 text

©2021 SenseTime. All Rights Reserved. 8 Zero-Shot Detectionとは これも馬! 馬 馬 訓練データ × これも馬! ◯ 本当はシマウマ 馬 馬 馬 シマウマ 学習時には存在しないクラスの物体検出を行う技術 通常の物体検出 Zero-Shot Detection

Slide 10

Slide 10 text

©2021 SenseTime. All Rights Reserved. 9 Zero-Shot Detectionへのロードマップ Zero-Shot Learning 物体検出 × Zero-Shot Learning 物体検出 start goal word2vec Zero-Shot Detection Zero-Shot Detection 未学習のクラスを認識可能にする 画像中の物体の位置とそのクラス名を認識する

Slide 11

Slide 11 text

©2021 SenseTime. All Rights Reserved. 10 Zero-Shot Detection Zero-Shot Detectionへのロードマップ Zero-Shot Learning 物体検出 × 物体検出 Zero-Shot Learning start goal word2vec まずはクラス分類から! Zero-Shot Detection

Slide 12

Slide 12 text

©2021 SenseTime. All Rights Reserved. 11 どのように未知のクラスを分類できるようにするか 単語の意味情報を利用する 馬 縞柄 シマウマ + = シマウマ=縞柄の馬

Slide 13

Slide 13 text

©2021 SenseTime. All Rights Reserved. 12 Zero-Shot Learning(クラス分類) word2vec コーパスから学習済 シマウマ=縞柄の馬 縞 柄 馬 耳が2つ 目が横 茶色 単語空間 馬 縞柄 単語ベクトルを利用して未知のクラスを補間する シマウマ word2vecからの事前知識

Slide 14

Slide 14 text

©2021 SenseTime. All Rights Reserved. 13 Zero-Shot Learning(クラス分類) Encoder 画像特徴 訓練データ パラメータ固定 馬 縞 柄 単語 画像 NN 画像ー単語間の橋渡し 学習可能 耳が2つ 目が横 茶色 馬 word2vec コーパスから学習済 シマウマ=縞柄の馬 縞 柄 馬 単語空間 単語ベクトルを利用して未知のクラスを補間する シマウマ word2vecからの事前知識 アライメント済み 馬の単語ベクトルが取れたから馬! 縞柄の単語ベクトルが取れたから縞柄! 縞柄

Slide 15

Slide 15 text

©2021 SenseTime. All Rights Reserved. 14 Zero-Shot Learning(クラス分類) Encoder 画像特徴 訓練データ パラメータ固定 馬 縞 柄 単語 画像 NN 画像ー単語間の橋渡し 学習可能 耳が2つ 目が横 茶色 馬 word2vec コーパスから学習済 シマウマ=縞柄の馬 縞 柄 馬 単語空間 word2vecからの事前知識 アライメント済み 単語ベクトルを利用して未知のクラスを補間する シマウマ 馬の単語ベクトルが取れたから馬! 縞柄の単語ベクトルが取れたから縞柄! 縞柄

Slide 16

Slide 16 text

©2021 SenseTime. All Rights Reserved. 15 Zero-Shot Learning(クラス分類) Encoder 画像特徴 訓練データ パラメータ固定 馬 縞 柄 word2vec コーパスから学習済 単語 画像 NN 画像ー単語間の橋渡し 馬の単語ベクトルが取れたから馬! 縞柄の単語ベクトルが取れたから縞柄! 馬+縞柄の単語ベクトルが取れたからシマウマ? 学習可能 シマウマ=縞柄の馬 縞 柄 馬 耳が2つ 目が横 茶色 馬 単語空間 単語ベクトルを利用して未知のクラスを補間する word2vecからの事前知識 アライメント済み 縞柄 シマウマ

Slide 17

Slide 17 text

©2021 SenseTime. All Rights Reserved. 16 Zero-Shot Learning(クラス分類) Encoder 画像特徴 訓練データ パラメータ固定 馬 縞 柄 word2vec コーパスから学習済 単語 画像 NN 画像ー単語間の橋渡し 学習可能 シマウマ=縞柄の馬 縞 柄 馬 耳が2つ 目が横 茶色 馬 単語空間 • Zero-Shot Learningでは、画像特徴と単語特徴のマッピングを行う。 • 単語空間を使うことで、データ点の補間ができる。 ポイント 縞柄 シマウマ 単語ベクトルを利用して未知のクラスを補間する word2vecからの事前知識 アライメント済み 馬の単語ベクトルが取れたから馬! 縞柄の単語ベクトルが取れたから縞柄! 馬+縞柄の単語ベクトルが取れたからシマウマ?

Slide 18

Slide 18 text

©2021 SenseTime. All Rights Reserved. 17 Zero-Shot Detection word2vec Zero-Shot Detectionへのロードマップ Zero-Shot Learning 物体検出 × start goal Zero-Shot Learning 物体検出 Faster R-CNNを解説します Zero-Shot Detection

Slide 19

Slide 19 text

©2021 SenseTime. All Rights Reserved. 18 Zero-Shot Learning x 物体検出 Zero-Shot Detectionでは、2ステージの物体検出モデルが主流になっている。

Slide 20

Slide 20 text

©2021 SenseTime. All Rights Reserved. 19 Zero-Shot Learning x 物体検出 CNN CNN FC FC RPN stage 1 物体? 背景? 座標 (x, y, w, h) Zero-Shot Detectionでは、2ステージの物体検出モデルが主流になっている。 物体らしければ領域提案 ※ Faster R-CNNの場合

Slide 21

Slide 21 text

©2021 SenseTime. All Rights Reserved. 20 Zero-Shot Learning x 物体検出 CNN CNN FC FC FC FC 座標 (x, y, w, h) 固定サイズ化 RoI Pooling RPN stage 1 stage 2 物体? 背景? 座標 (x, y, w, h) 犬 シマウマ 背景 Zero-Shot Detectionでは、2ステージの物体検出モデルが主流になっている。 分類ヘッド 回帰ヘッド 物体らしき箇所を検出 → クラス分類 ポイント 物体らしければ領域提案 ※ Faster R-CNNの場合

Slide 22

Slide 22 text

©2021 SenseTime. All Rights Reserved. 21 word2vec Zero-Shot Detectionへのロードマップ Zero-Shot Learning 物体検出 × start goal Zero-Shot Learning 物体検出 Zero-Shot Detection Zero-Shot Detection 2つの技術の合わせ方について説明します

Slide 23

Slide 23 text

©2021 SenseTime. All Rights Reserved. 22 Zero-Shot Learning x 物体検出 CNN CNN FC FC FC FC 座標 (x, y, w, h) 固定サイズ化 RoI Pooling RPN stage 1 stage 2 物体? 背景? 座標 (x, y, w, h) 犬 シマウマ 背景 物体検出のクラスを単語ベクトルにしてやれば良い 分類ヘッド 回帰ヘッド 背景

Slide 24

Slide 24 text

©2021 SenseTime. All Rights Reserved. 23 Zero-Shot Learning x 物体検出 CNN CNN FC FC FC FC 座標 (x, y, w, h) 固定サイズ化 RoI Pooling RPN stage 1 stage 2 物体? 背景? 座標 (x, y, w, h) 犬 猫 背景 物体検出のクラスを単語ベクトルにしてやれば良い 犬 シマウマ 背景 word2vec 犬、シマウマなどに対応した 単語ベクトルを引っ張ってくる 分類ヘッド 回帰ヘッド 背景 Zero-Shot Detectionになると 分類ヘッドをセマンティックヘッドと言ったりする

Slide 25

Slide 25 text

©2021 SenseTime. All Rights Reserved. 24 Zero-Shot Detectionのむずかしさ CNN CNN FC FC FC FC 座標 (x, y, w, h) 固定サイズ化 RoI Pooling RPN stage 1 stage 2 物体? 背景? 座標 (x, y, w, h) word2vec 犬 猫 背景 「背景」の単語ベクトル なんてしらない… 背景 物体検出では、必ずしも候補領域に対象クラスが含まれていない →「背景」として、検出結果を破棄する必要がある →「背景」の単語ベクトルがない 分類ヘッド 回帰ヘッド Zero-Shot Detectionになると 分類ヘッドをセマンティックヘッドと言ったりする 犬 シマウマ 背景 背景の単語ベクトルは別途対応が必要 ポイント

Slide 26

Slide 26 text

©2021 SenseTime. All Rights Reserved. 25 word2vec Zero-Shot Detectionへのロードマップ Zero-Shot Learning 物体検出 × start goal Zero-Shot Learning 物体検出 Zero-Shot Detection Zero-Shot Detection 論文紹介!

Slide 27

Slide 27 text

©2021 SenseTime. All Rights Reserved. 26 Zero-Shot Object Detection Step 1: 既知クラスの特徴紐付け(アライメント)をきっちり行う ResNet 224x224 FC 馬 縞 柄 300 Step 2: 背景クラスのロバスト化 ResNet 馬 縞 柄 300 背景 𝐶𝑠𝑒𝑒𝑛 𝑂 パラメータ固定 学習可能 𝐶𝑠𝑒𝑒𝑛 FC 𝐶𝑢𝑛𝑠𝑒𝑒𝑛 [Ankan Bansal+, "Zero-shot object detection", ECCV, 2018] Zero-Shot Detectionの火付け論文 ※ R-CNNを利用 “馬” = “背景” = (固定値) “馬” = “時計” = “ピアノ” = “すべり台” = 224x224 既知クラス𝐶𝑠𝑒𝑒𝑛 検出したい未知クラス𝐶𝑢𝑛𝑠𝑒𝑒𝑛 検出しないつもりの未知クラス𝑂 • BBoxのついていないところを、検出する予定のない未知クラスの単語ベクトルに割り当てる。

Slide 28

Slide 28 text

©2021 SenseTime. All Rights Reserved. 27 Zero-Shot Object Detection Step 1: 既知クラスの特徴紐付け(アライメント)をきっちり行う ResNet 224x224 FC 馬 縞 柄 300 パラメータ固定 学習可能 𝐶𝑠𝑒𝑒𝑛 [Ankan Bansal+, "Zero-shot object detection", ECCV, 2018] Zero-Shot Detectionの火付け論文 ※ R-CNNを利用 “馬” = “背景” = (固定値) • BBoxのついていないところを、検出する予定のない未知クラスの単語ベクトルに割り当てる。

Slide 29

Slide 29 text

©2021 SenseTime. All Rights Reserved. 28 Zero-Shot Object Detection Step 1: 既知クラスの特徴紐付け(アライメント)をきっちり行う ResNet 224x224 FC 馬 縞 柄 300 “馬” = “背景” = (固定値) Step 2: 背景クラスのロバスト化 ResNet 224x224 馬 縞 柄 300 “馬” = “時計” = “ピアノ” = 背景 𝐶𝑠𝑒𝑒𝑛 𝑂 パラメータ固定 学習可能 𝐶𝑠𝑒𝑒𝑛 FC 既知クラス𝐶𝑠𝑒𝑒𝑛 検出したい未知クラス𝐶𝑢𝑛𝑠𝑒𝑒𝑛 検出しないつもりの未知クラス𝑂 “すべり台” = 𝐶𝑢𝑛𝑠𝑒𝑒𝑛 [Ankan Bansal+, "Zero-shot object detection", ECCV, 2018] Zero-Shot Detectionの火付け論文 ※ R-CNNを利用 • BBoxのついていないところを、検出する予定のない未知クラスの単語ベクトルに割り当てる。

Slide 30

Slide 30 text

©2021 SenseTime. All Rights Reserved. 29 BLC 背景の単語ベクトルを学習可能にしたカスケード構造のモデルを提案 • 学習可能な背景単語ベクトル 1. RPNの部分で前景と背景に対応した単語ベクトルを学習する 2. 学習した背景の単語ベクトルを分類ヘッドの背景単語ベクトルとして利用する。 • カスケード構造(多段)にしたことで、緩やかな候補領域の破棄(背景クラスへの分類)ができる [Ye Zheng+, "Background Learnable Cascade for Zero-Shot Object Detection", ACCV, 2020] RPN I backbone pool pool S1 R1 pool S2 R2 S3 R3 Semantic information flow S Semantic Branch R BBox Regression RoI Align Pool 別で学習 前景・背景の2値分類 背景 人 馬 … 車 Semantic Branchの出力 𝑎𝑟𝑔𝑚𝑎𝑥 class 𝑖 前景 背景 𝑋𝑏𝑏𝑜𝑥 𝑎𝑟𝑔𝑚𝑎𝑥 0 or 1 学習可能な単語ベクトル RPNの中身 Background aware

Slide 31

Slide 31 text

©2021 SenseTime. All Rights Reserved. 30 pool R1 S1 BLC 背景の単語ベクトルを学習可能にしたカスケード構造のモデルを提案 • 学習可能な背景単語ベクトル 1. RPNの部分で前景と背景に対応した単語ベクトルを学習する 2. 学習した背景の単語ベクトルを分類ヘッドの背景単語ベクトルとして利用する。 • カスケード構造(多段)にしたことで、緩やかな候補領域の破棄(背景クラスへの分類)ができる [Ye Zheng+, "Background Learnable Cascade for Zero-Shot Object Detection", ACCV, 2020] pool pool S2 R2 S3 R3 Semantic information flow S Semantic Branch R BBox Regression RoI Align Pool RPN Background aware 別で学習 前景・背景の2値分類 backbone I 背景 人 馬 … 車 Semantic Branchの出力 𝑎𝑟𝑔𝑚𝑎𝑥 class 𝑖 前景 背景 𝑋𝑏𝑏𝑜𝑥 𝑎𝑟𝑔𝑚𝑎𝑥 0 or 1 学習可能な単語ベクトル RPNの中身

Slide 32

Slide 32 text

©2021 SenseTime. All Rights Reserved. 31 S2 R2 S3 R3 BLC 背景の単語ベクトルを学習可能にしたカスケード構造のモデルを提案 • 学習可能な背景単語ベクトル 1. RPNの部分で前景と背景に対応した単語ベクトルを学習する 2. 学習した背景の単語ベクトルを分類ヘッドの背景単語ベクトルとして利用する。 • カスケード構造(多段)にしたことで、緩やかな候補領域の破棄(背景クラスへの分類)ができる [Ye Zheng+, "Background Learnable Cascade for Zero-Shot Object Detection", ACCV, 2020] pool pool Semantic information flow S Semantic Branch R BBox Regression RoI Align Pool RPN Background aware 別で学習 前景・背景の2値分類 backbone I pool R1 S1 Semantic Branchの出力 𝑎𝑟𝑔𝑚𝑎𝑥 class 𝑖 前景 背景 𝑋𝑏𝑏𝑜𝑥 𝑎𝑟𝑔𝑚𝑎𝑥 0 or 1 学習可能な単語ベクトル RPNの中身 背景 人 馬 … 車

Slide 33

Slide 33 text

©2021 SenseTime. All Rights Reserved. 32 BLC 背景の単語ベクトルを学習可能にしたカスケード構造のモデルを提案 • 学習可能な背景単語ベクトル 1. RPNの部分で前景と背景に対応した単語ベクトルを学習する 2. 学習した背景の単語ベクトルを分類ヘッドの背景単語ベクトルとして利用する。 • カスケード構造(多段)にしたことで、緩やかな候補領域の破棄(背景クラスへの分類)ができる [Ye Zheng+, "Background Learnable Cascade for Zero-Shot Object Detection", ACCV, 2020] RPN I backbone pool pool S1 R1 pool Semantic information flow S Semantic Branch R BBox Regression RoI Align Pool 別で学習 前景・背景の2値分類 前ステージで出力したセマンティック情報を後段に伝える Semantic information flowの中身 Background aware S2 R2 S3 R3

Slide 34

Slide 34 text

©2021 SenseTime. All Rights Reserved. 33 Zero-Shot Instance Segmentation Zero-Shotのインスタンスセグメンテーションを行った初の論文 • BLCと同様に背景の単語ベクトルを学習可能なRPNを利用(同じ作者) • Mask R-CNNの構造を採用 • (RoI特徴の)ピクセルごとに単語ベクトルを推論して、セグメンテーションを可能にしている。 backbone RPN Zero-Shot Detector Semantic Mask Head Visual feature 前景-背景の二値分類器 word vector = trainable Sync-bg background word-vector Semantic Mask Headの中身 ピクセルごとに単語 ベクトルを推論 [Ye Zheng+, Zero-Shot Instance Segmentation", CVPR, 2021]

Slide 35

Slide 35 text

©2021 SenseTime. All Rights Reserved. 34 Semantic Mask Headの中身 ピクセルごとに単語 ベクトルを推論 Sync-bg Zero-Shot Instance Segmentation Zero-Shotのインスタンスセグメンテーションを行った初の論文。 • BLCと同様に背景の単語ベクトルを学習可能なRPNを利用(同じ作者) • Mask R-CNNの構造を採用 • (RoI特徴の)ピクセルごとに単語ベクトルを推論して、セグメンテーションを可能にしている。 Zero-Shot Detector Semantic Mask Head Visual feature backbone RPN 前景-背景の二値分類器 word vector = trainable background word-vector [Ye Zheng+, Zero-Shot Instance Segmentation", CVPR, 2021]

Slide 36

Slide 36 text

©2021 SenseTime. All Rights Reserved. 35 Zero-Shot Instance Segmentation Zero-Shotのインスタンスセグメンテーションを行った初の論文。 • BLCと同様に背景の単語ベクトルを学習可能なRPNを利用(同じ作者) • Mask R-CNNの構造を採用 • (RoI特徴の)ピクセルごとに単語ベクトルを推論して、セグメンテーションを可能にしている。 backbone RPN Zero-Shot Detector Semantic Mask Head Visual feature background word-vector 前景-背景の二値分類器 word vector = trainable Sync-bg Semantic Mask Headの中身 ピクセルごとに単語 ベクトルを推論 [Ye Zheng+, Zero-Shot Instance Segmentation", CVPR, 2021]

Slide 37

Slide 37 text

©2021 SenseTime. All Rights Reserved. 36 Zero-Shot Instance Segmentation Zero-Shotのインスタンスセグメンテーションを行った初の論文。 • BLCと同様に背景の単語ベクトルを学習可能なRPNを利用(同じ作者) • Mask R-CNNの構造を採用 • (RoI特徴の)ピクセルごとに単語ベクトルを推論して、セグメンテーションを可能にしている。 backbone RPN Zero-Shot Detector Semantic Mask Head Visual feature 前景-背景の二値分類器 word vector = trainable Sync-bg background word-vector Semantic Mask Headの中身 ピクセルごとに単語 ベクトルを推論 [Ye Zheng+, Zero-Shot Instance Segmentation", CVPR, 2021]

Slide 38

Slide 38 text

©2021 SenseTime. All Rights Reserved. 37 Zero-Shot Instance Segmentation Zero-Shotのインスタンスセグメンテーションを行った初の論文。 • BLCと同様に背景の単語ベクトルを学習可能なRPNを利用(同じ作者) • Mask R-CNNの構造を採用 • (RoI特徴の)ピクセルごとに単語ベクトルを推論して、セグメンテーションを可能にしている。 backbone RPN Zero-Shot Detector Semantic Mask Head Visual feature 前景-背景の二値分類器 word vector = trainable Sync-bg background word-vector Semantic Mask Headの中身 既知/未知クラスの単語ベクトルで 初期化1x1 Conv [Ye Zheng+, Zero-Shot Instance Segmentation", CVPR, 2021]

Slide 39

Slide 39 text

©2021 SenseTime. All Rights Reserved. 38 Zero-Shot Instance Segmentation Zero-Shotのインスタンスセグメンテーションを行った初の論文。 • BLCと同様に背景の単語ベクトルを学習可能なRPNを利用(同じ作者) • Mask R-CNNの構造を採用 • (RoI特徴の)ピクセルごとに単語ベクトルを推論して、セグメンテーションを可能にしている。 backbone RPN Zero-Shot Detector Semantic Mask Head Visual feature 前景-背景の二値分類器 word vector = trainable Sync-bg background word-vector Semantic Mask Headの中身 単語ベクトルから画像特徴を復元できるか [Ye Zheng+, Zero-Shot Instance Segmentation", CVPR, 2021]

Slide 40

Slide 40 text

©2021 SenseTime. All Rights Reserved. 39 OVD [Alireza Zareian+, "Open-Vocabulary Object Detection Using Captions", CVPR, 2021] Step 1: 画像ーキャプションデータを使って事前学習 Step 2: Fine-tuning キャプションデータを使って事前学習することでZero-Shot Detectionの性能を改善 • 弱教師ありのGrounding(テキスト中の名詞と画像特徴を紐付ける)で事前学習 • 対照学習を利用して、学習を安定化した。 Region Proposal Network V2L

Slide 41

Slide 41 text

©2021 SenseTime. All Rights Reserved. 40 OVD [Alireza Zareian+, "Open-Vocabulary Object Detection Using Captions", CVPR, 2021] Step 1: 画像ーキャプションデータを使って事前学習 Step 2: Fine-tuning キャプションデータを使って事前学習することでZero-Shot Detectionの性能を改善 • 弱教師ありのGrounding(テキスト中の名詞と画像特徴を紐付ける)で事前学習 • 対照学習を利用して、学習を安定化した。 対応した画像特徴 𝑒𝑗 𝐼と単語特徴𝑒𝑗 𝐶 との類似度を高める Groundingでやるイメージ [Aishwarya Kamath+, “MDETR - Modulated Detection for End-to-End Multi-Modal Understanding”, ICCV, 2021]より引用して作成 person

Slide 42

Slide 42 text

©2021 SenseTime. All Rights Reserved. 41 OVD [Alireza Zareian+, "Open-Vocabulary Object Detection Using Captions", CVPR, 2021] Step 1: 画像ーキャプションデータを使って事前学習 キャプションデータを使って事前学習することでZero-Shot Detectionの性能を改善 • 弱教師ありのGrounding(テキスト中の名詞と画像特徴を紐付ける)で事前学習 • 対照学習を利用して、学習を安定化した。 “A horse playing at a park” Image-Text Matching (ITM) “A student studying at school” 画像ーテキストが 対応 → 類似度を上げる↗ 無関係 → 類似度を下げる↘ person

Slide 43

Slide 43 text

©2021 SenseTime. All Rights Reserved. 42 OVD [Alireza Zareian+, "Open-Vocabulary Object Detection Using Captions", CVPR, 2021] Step 1: 画像ーキャプションデータを使って事前学習 Step 2: Fine-tuning キャプションデータを使って事前学習することでZero-Shot Detectionの性能を改善 • 弱教師ありのGrounding(テキスト中の名詞と画像特徴を紐付ける)で事前学習 • 対照学習を利用して、学習を安定化した。 “A horse playing at a park” Image-Text Matching (ITM) “A student studying at school” 画像ーテキストが 対応 → 類似度を上げる↗ 無関係 → 類似度を下げる↘ Masked Language Model (MLM) [CLS] a [MASK] is holding a dog [SEP] person [MASK]

Slide 44

Slide 44 text

©2021 SenseTime. All Rights Reserved. 43 OVD [Alireza Zareian+, "Open-Vocabulary Object Detection Using Captions", CVPR, 2021] Step 1: 画像ーキャプションデータを使って事前学習 Step 2: Fine-tuning キャプションデータを使って事前学習することでZero-Shot Detectionの性能を改善 • 弱教師ありのGrounding(テキスト中の名詞と画像特徴を紐付ける)で事前学習 • 対照学習を利用して、学習を安定化した。 ダウンストリームタスクでZero-Shot Detectionの学習を行う。 1. 既知のクラス(Base Classes)で学習 2. 推論 1. 未知(Target Classes)のクラスで推論 2. すべてのクラス(All Nouns) Region Proposal Network V2L ダウンストリームタスクでZero-Shot Detectionの学習を行う。 1. 既知のクラス(Base Classes)で学習 ダウンストリームタスクでZero-Shot Detectionの学習を行う。 1. 既知のクラス(Base Classes)で学習 2. 推論 1. 未知(Target Classes)のクラスで推論 ダウンストリームタスクでZero-Shot Detectionの学習を行う。 1. 既知のクラス(Base Classes)で学習 2. 推論 1. 未知(Target Classes)のクラスで推論 2. すべてのクラス(All Nouns)

Slide 45

Slide 45 text

©2021 SenseTime. All Rights Reserved. 44 word2vec Zero-Shot Detectionへのロードマップ Zero-Shot Learning 物体検出 × start goal Zero-Shot Learning 物体検出 Zero-Shot Detection Zero-Shot Detection

Slide 46

Slide 46 text

©2021 SenseTime. All Rights Reserved. 45 おわりに Zero-Shot Learning 物体検出 × Zero-Shot Detection word2vec start goal Zero-Shot Learning 物体検出 Zero-Shot Detection Grounding Referring Expression Comprehension 興味を持たれた方は、ビジョン×言語を更に組み合わせたこの分野を見てみると面白いかもしれません。 Visual Grounding Referring Expression Comprehension(REC)

Slide 47

Slide 47 text

©2021 SenseTime. All Rights Reserved. 46 あと2, 3本テックブログで紹介しています センスタイム テックブログ 『Zero-Shot Detectionの研究まとめ』