Slide 1

Slide 1 text

技術研究開発本部 先進技術研究所 CPSアーキテクチャー研究室 瀬戸口 直輝 【ECCV2022】論文解説 Dense Siamese Network for Dense Unsupervised Learning 2022.11.22

Slide 2

Slide 2 text

2 ©️ Panasonic Connect Co., Ltd. 2022 • セマセグ等の”密な予測”が必要なタスクはアノテーションが大変 • 各ピクセルにラベルづけが必要 ⇒ 教師なし学習したい • “密な予測”が必要なタスクでは教師なし学習手法が未成熟 • 画像分類などの”密な予測”のいらないタスクばかりで発展 • 提案されている一部の手法はK-meansベースのクラスタリング手法で技術発展が緩やか • ”密な予測”に適した表現学習フレームワークとしてDenseSiamを提案 • シンプルかつ汎用的,高精度なSiamese Network 物体検出,セマセグなどの”密な予測”に必要な特徴表現を 教師なし学習する新たなSiamese Networkを提案 どんなもの?

Slide 3

Slide 3 text

3 ©️ Panasonic Connect Co., Ltd. 2022 • 表現学習の王道である対照学習は学習コスト大 シンプルかつ汎用的 先行研究と比べてどこがすごい? 対照学習 似たサンプル(正のペア) ⇒ 近くする 異なるサンプル(負のペア) ⇒ 遠くする [2] Fig.2より引用 正のペアよりも多くの負のペアが必要 ⇒ 学習に時間がかかる ⇒ バッチサイズ大(教師なし学習の場合)

Slide 4

Slide 4 text

4 ©️ Panasonic Connect Co., Ltd. 2022 • 表現学習の王道である対照学習は学習コスト大 シンプルかつ汎用的 先行研究と比べてどこがすごい? 対照学習 似たサンプル(正のペア) ⇒ 近くする 異なるサンプル(負のペア) ⇒ 遠くする [2] Fig.2より引用 正のペアよりも多くの負のペアが必要 ⇒ 学習に時間がかかる ⇒ バッチサイズ大(教師なし学習の場合) DenseSiamは正のペアのみで教師なし学習可能

Slide 5

Slide 5 text

5 ©️ Panasonic Connect Co., Ltd. 2022 • 教師なし対照学習にはMomentum Encoderが必要 シンプルかつ汎用的 先行研究と比べてどこがすごい? [3] Fig.1より引用 Momentum Encoder 低計算量,低バッチサイズで 対照学習を可能にする機構 教師なし対照学習特有の「崩壊*」を防ぐとさ れていたが,必ずしもそうでないことが[3]で 明らかにされている *モデルが異なるサンプル同士を 同じベクトルとして埋め込んでしまう現象

Slide 6

Slide 6 text

6 ©️ Panasonic Connect Co., Ltd. 2022 • 対照学習にはMomentum Encoderが必要 シンプルかつ汎用的 先行研究と比べてどこがすごい? [3] Fig.1より引用 Momentum Encoder 低計算量,低バッチサイズで 対照学習を可能にする機構 対照学習特有の「崩壊」を防ぐとされていた が,必ずしもそうでないことが[4]で明らかに されている *モデルが異なるサンプル同士を 同じベクトルに埋め込んでしまう現象 DenseSiamはSimSiam[3]の構造を踏襲 Momentum Encoderも不要 (ここまでは厳密にはSimSiamの貢献 )

Slide 7

Slide 7 text

7 ©️ Panasonic Connect Co., Ltd. 2022 • 同じ枠組みで表現学習と様々なタスク固有の学習を同時に最適化 シンプルかつ汎用的 先行研究と比べてどこがすごい? [1] Fig.1より引用 従来の教師なし表現学習のパターン 基本の 知識表現の 獲得 タスクの学習 基本の知識表現と タスク固有の知識を同時に獲得 タスクの学習 2ステップだが,様々なタスクに転用可能 1ステップだが,特定のタスクしか学習できない DenseSiam 左図は セマセグの例 従来の表現学習 パターンの両方 に同じ枠組みで 対応可能

Slide 8

Slide 8 text

8 ©️ Panasonic Connect Co., Ltd. 2022 PixSimで画素単位,RegionSimで領域単位で2枚の画像の一貫性を学習 技術や手法のキモはどこ? “密な予測”では画素単位や,領域単位での意味的情報の獲得が必要 例:セマセグ⇒画素レベル,物体検出⇒領域レベル [1] Fig.2より引用

Slide 9

Slide 9 text

9 ©️ Panasonic Connect Co., Ltd. 2022 画像xに対して異なるデータ拡張を施した2枚の画像x1, x2を生成 処理フロー 例では位置,色が異なる2枚の画像を生成 [1] Fig.2より引用した図に加筆

Slide 10

Slide 10 text

10 ©️ Panasonic Connect Co., Ltd. 2022 ResNet-50ベースのEncoderで画像から密な特徴マップを抽出 処理フロー 空間情報を保持するために ResNetの処理に含まれるGlobal Average Poolingは使わない [1] Fig.2より引用した図に加筆

Slide 11

Slide 11 text

11 ©️ Panasonic Connect Co., Ltd. 2022 Projectorで画素単位のラベル空間(セマセグの場合)に写像 処理フロー Projector gは3層の1x1畳み込みで構成(チャンネル数を柔軟に変更可能) Predictor hでz1をz2に近づけるように変換 [1] Fig.2より引用した図に加筆

Slide 12

Slide 12 text

12 ©️ Panasonic Connect Co., Ltd. 2022 GridSampleで重複領域から比較する画素を抽出 処理フロー [1] Fig.2より引用した図に加筆

Slide 13

Slide 13 text

13 ©️ Panasonic Connect Co., Ltd. 2022 GridSampleで重複領域から比較する画素を抽出 処理フロー [1] Fig.3より引用 GridSample 左図はK=3の場合 重複領域の中心を基準として 3x3の9点をサンプリングして比較

Slide 14

Slide 14 text

14 ©️ Panasonic Connect Co., Ltd. 2022 抽出された点の類似度をもとにloss計算 処理フロー [1] Fig.2より引用した図に加筆 Predictor hを経由する手続き以外は勾配計算しない ⇒ 同じ位置の画素が特徴空間上で近い位置に写像されるための制約

Slide 15

Slide 15 text

15 ©️ Panasonic Connect Co., Ltd. 2022 抽出された点の類似度をもとにloss計算 処理フロー [1] 式(1)より引用 Symmetrical loss 異なるviewをもつ 2サンプルで損失計算 Dは様々な距離関数 負のCos類似度 [1] 式(2)より引用 類似度計算の関数例 Cross-entropy類似度 [1] 式(3)より引用

Slide 16

Slide 16 text

16 ©️ Panasonic Connect Co., Ltd. 2022 領域単位での推論のためにEncoder fの出力とProjector gの出力を積算 処理フロー [1] Fig.2より引用した図に加筆 後段のResionSimで同じ領域に対する表現が学習されることを強制

Slide 17

Slide 17 text

17 ©️ Panasonic Connect Co., Ltd. 2022 PixSimと同様にProjectorで領域単位の特徴空間に写像 処理フロー [1] Fig.2より引用した図に加筆 Projector g’は3層のMLPで構成

Slide 18

Slide 18 text

18 ©️ Panasonic Connect Co., Ltd. 2022 抽出された領域の類似度をもとにloss計算 処理フロー [1] 式(5)より引用 PixSimと同様の定式化が適用可能 [1] 式(6)より引用 同じviewでも異なる領域どうしが 特徴空間上で離れるように強制

Slide 19

Slide 19 text

19 ©️ Panasonic Connect Co., Ltd. 2022 モデル全体の損失関数の定義 [1] 式(7)より引用 単に教師なし表現学習だけを行う場合, 画素レベル,領域レベルの他に画像レベルでも 異なるviewの画像の一貫性を保つためのloss(L sim )を計算する 画像の一貫性を計算する処理は論文中ではGlobal branchと表現されている, 処理や損失の定義はSimSiam[3]と同様であるとされているため説明は割愛 教師なし表現学習の損失関数

Slide 20

Slide 20 text

20 ©️ Panasonic Connect Co., Ltd. 2022 教師なしセマンティックセグメンテーションのための定式化 [1] Fig.1より引用した図に加筆 PixSimのProjector gの出力zに対して損失関数を設定することで対応可能 Cross-entropy類似度 ➀Projector gの出力のチャンネル数を分類 したいカテゴリ数に合わせて変更 ②Cross-entropy類似度を用いて損失計算 (表現学習,セマセグ学習を同時に最適化) [1] 式(3)より引用 出力zにsoftmax変換を加えた値は 推論したいカテゴリの尤度とみなせる

Slide 21

Slide 21 text

21 ©️ Panasonic Connect Co., Ltd. 2022 教師なしセマンティックセグメンテーションのための定式化 精度向上のために2つの損失関数とProjector, PredictorをPixSimに追加 [1] 式(8)より引用 過去の研究で予測値は小さいEntropyをもつことが推奨されている, そこで疑似ラベルとみなせるProjector gの出力argmax(z1)に対して z2とのCross-entropy誤差を計算 教師無しセマセグではカテゴリ数が少ないと学習が安定しない, Over-clustering strategyに従って多くの疑似カテゴリを生成 ⇒ 疑似カテゴリの生成用にPixSimにPrejectorとPredictorを追加 それらの出力に対して,L dense に従って追加で損失計算

Slide 22

Slide 22 text

22 ©️ Panasonic Connect Co., Ltd. 2022 “密な予測”のための教師なし表現学習手法と比較 どうやって有効だと検証した? [1] Table.1より引用 画素レベル ⇒ セマンティックセグメンテーション, 領域レベル ⇒ 物体検出 で比較

Slide 23

Slide 23 text

23 ©️ Panasonic Connect Co., Ltd. 2022 ImageNet-1kで表現学習後,特定タスクの転移学習 (DenseSiamは従来の2ステップの表現学習も可能) どうやって有効だと検証した? [1] Table.2より引用 タスク 転移モデル COCO Instance Seg. Mask R-CNN COCO Detection Mask R-CNN Cityscapes Seg. Fully Convolutional Networks VOC Detection Faster R-CNN DenseSiamのBack-bornにFPNを用いていないVOCのみ劣後 Back-bornにFPNがあるCOCOではSoTAであるため,加えて, 実質FPNがない構造となるDetCoも同様に精度が落ちているため

Slide 24

Slide 24 text

24 ©️ Panasonic Connect Co., Ltd. 2022 教師なしセマンティックセグメンテーションタスクの直接学習 どうやって有効だと検証した? クラスタリングベースの過去手法と比較し,大きな精度向上を達成 深層学習を用いたPiCIEと比較すると学習時間も約72%削減 [1] Table.3より引用

Slide 25

Slide 25 text

25 ©️ Panasonic Connect Co., Ltd. 2022 Ablation study:COCO,VOCでの事前学習 議論はある? GridSampleサイズ,PixSimの損失関数の重み, RegionSimの損失関数の重みについて最適なパラメータを検証 [1] Table.4より引用

Slide 26

Slide 26 text

26 ©️ Panasonic Connect Co., Ltd. 2022 Ablation study:COCO,VOCでの事前学習 議論はある? GridSampleを適用する順番, Global branchで画像レベルの類似度学習を全体 or 重複領域で行うか, RegionSimの学習をどの時点で開始するかを検証 [1] Table.4より引用 2行目 画像全体に対して類似度学習 しないと崩壊が発生 学習の中盤から RegionSimの学習を開始 するのが良い

Slide 27

Slide 27 text

27 ©️ Panasonic Connect Co., Ltd. 2022 Ablation study:教師なしセマセグで各処理の効果を検証 議論はある? セマセグ時にCross-entropy誤差(CE), 疑似カテゴリ生成による追加の類似度誤差(Aux.)など全部入りが良い [1] Table.5より引用 [1] 式(8)より引用

Slide 28

Slide 28 text

28 ©️ Panasonic Connect Co., Ltd. 2022 学習時のStrategyについて検証 議論はある? PixSimをベースに,従来研究で提案された学習ポリシーを適用 画素単位,領域単位の最適化を同時におこなう本研究の戦略が最も有効 [1] Table.A1より引用

Slide 29

Slide 29 text

29 ©️ Panasonic Connect Co., Ltd. 2022 教師なしセマンティックセグメンテーション結果の可視化 議論はある? [1] Fig.A1より引用

Slide 30

Slide 30 text

30 ©️ Panasonic Connect Co., Ltd. 2022 • RegionCL: Exploring Contrastive Region Pairs for Self-Supervised Representation Learning[4] • Dense Teacher: Dense Pseudo-Labels for Semi-Supervised Object Detection[5] • Dense Cross-Query-and-Support Attention Weighted Mask Aggregation for Few-Shot Segmentation[6] • ConCL: Concept Contrastive Learning for Dense Prediction Pre- training in Pathology Images[7] • Dense Gaussian Processes for Few-Shot Segmentation[8] • Understanding Collapse in Non-Contrastive Siamese Representation Learning[9] 関連がありそうなECCV2022 採択論文 次によむべき論文は?

Slide 31

Slide 31 text

31 ©️ Panasonic Connect Co., Ltd. 2022 [1] Dense Siamese Network for Dense Unsupervised Learning [Author]: Wenwei Zhang, Jiangmiao Pang, Kai Chen, Chen Change Loy [Source]: https://arxiv.org/pdf/2203.11075.pdf [2] A SURVEY ON CONTRASTIVE SELF-SUPERVISED LEARNING [Author]: Ashish Jaiswal, Ashwin Ramesh Babu, Mohammad Zaki Zadeh, Debapriya Banerjee, Fillia Makedon [Source]: https://arxiv.org/pdf/2011.00362.pdf [3] Momentum Contrast for Unsupervised Visual Representation Learning [Author]: Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, Ross Girshick [Source]: https://arxiv.org/pdf/1911.05722.pdf [4] RegionCL: Exploring Contrastive Region Pairs for Self-Supervised Representation Learning [Author]: Yufei Xu, Qiming Zhang, Jing Zhang, Dacheng Tao [Source]: https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136930468.pdf [5] Dense Teacher: Dense Pseudo-Labels for Semi-Supervised Object Detection [Author]: Hongyu Zhou, Zheng Ge, Songtao Liu, Weixin Mao, Zeming Li, Haiyan Yu, Jian Sun [Source]: https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136690036.pdf [6] Dense Cross-Query-and-Support Attention Weighted Mask Aggregation for Few-Shot Segmentation [Author]: Xinyu Shi, Dong Wei, Yu Zhang, Donghuan Lu, Munan Ning, Jiashun Chen, Kai Ma, Yefeng Zheng [Source]: https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136800142.pdf [7] ConCL: Concept Contrastive Learning for Dense Prediction Pre-training in Pathology Images [Author]: Jiawei Yang, Hanbo Chen, Yuan Liang, Junzhou Huang, Lei He, Jianhua Yao [Source]: https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136810516.pdf [8] Dense Gaussian Processes for Few-Shot Segmentation [Author]: Joakim Johnander, Johan Edstedt, Michael Felsberg, Fahad Shahbaz Khan, Martin Danelljan [Source]: https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136890215.pdf [9] Understanding Collapse in Non-Contrastive Siamese Representation Learning [Author]: Alexander C. Li, Alexei A. Efros, Deepak Pathak [Source]: https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136910476.pdf 参考文献

Slide 32

Slide 32 text

No content