Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【ECCV2022】Dense_Siamese_Network_for_Dense_Unsupervised_Learning 解説

seto
December 06, 2022

【ECCV2022】Dense_Siamese_Network_for_Dense_Unsupervised_Learning 解説

対照学習を必要としない自己教師あり学習手法であるSimSiamの拡張版として
DenseSiamを提案するという内容の論文で,"密な予測"が必要となるタスクを教師なし学習(自己教師のみ)で解くタイプのものです

キーワード:表現学習,対照学習,セマンティックセグメンテーション,物体検出,Siamese Network

seto

December 06, 2022
Tweet

More Decks by seto

Other Decks in Technology

Transcript

  1. 技術研究開発本部 先進技術研究所 CPSアーキテクチャー研究室 瀬戸口 直輝 【ECCV2022】論文解説 Dense Siamese Network for

    Dense Unsupervised Learning 2022.11.22
  2. 2 ©️ Panasonic Connect Co., Ltd. 2022 • セマセグ等の”密な予測”が必要なタスクはアノテーションが大変 •

    各ピクセルにラベルづけが必要 ⇒ 教師なし学習したい • “密な予測”が必要なタスクでは教師なし学習手法が未成熟 • 画像分類などの”密な予測”のいらないタスクばかりで発展 • 提案されている一部の手法はK-meansベースのクラスタリング手法で技術発展が緩やか • ”密な予測”に適した表現学習フレームワークとしてDenseSiamを提案 • シンプルかつ汎用的,高精度なSiamese Network 物体検出,セマセグなどの”密な予測”に必要な特徴表現を 教師なし学習する新たなSiamese Networkを提案 どんなもの?
  3. 3 ©️ Panasonic Connect Co., Ltd. 2022 • 表現学習の王道である対照学習は学習コスト大 シンプルかつ汎用的

    先行研究と比べてどこがすごい? 対照学習 似たサンプル(正のペア) ⇒ 近くする 異なるサンプル(負のペア) ⇒ 遠くする [2] Fig.2より引用 正のペアよりも多くの負のペアが必要 ⇒ 学習に時間がかかる ⇒ バッチサイズ大(教師なし学習の場合)
  4. 4 ©️ Panasonic Connect Co., Ltd. 2022 • 表現学習の王道である対照学習は学習コスト大 シンプルかつ汎用的

    先行研究と比べてどこがすごい? 対照学習 似たサンプル(正のペア) ⇒ 近くする 異なるサンプル(負のペア) ⇒ 遠くする [2] Fig.2より引用 正のペアよりも多くの負のペアが必要 ⇒ 学習に時間がかかる ⇒ バッチサイズ大(教師なし学習の場合) DenseSiamは正のペアのみで教師なし学習可能
  5. 5 ©️ Panasonic Connect Co., Ltd. 2022 • 教師なし対照学習にはMomentum Encoderが必要

    シンプルかつ汎用的 先行研究と比べてどこがすごい? [3] Fig.1より引用 Momentum Encoder 低計算量,低バッチサイズで 対照学習を可能にする機構 教師なし対照学習特有の「崩壊*」を防ぐとさ れていたが,必ずしもそうでないことが[3]で 明らかにされている *モデルが異なるサンプル同士を 同じベクトルとして埋め込んでしまう現象
  6. 6 ©️ Panasonic Connect Co., Ltd. 2022 • 対照学習にはMomentum Encoderが必要

    シンプルかつ汎用的 先行研究と比べてどこがすごい? [3] Fig.1より引用 Momentum Encoder 低計算量,低バッチサイズで 対照学習を可能にする機構 対照学習特有の「崩壊」を防ぐとされていた が,必ずしもそうでないことが[4]で明らかに されている *モデルが異なるサンプル同士を 同じベクトルに埋め込んでしまう現象 DenseSiamはSimSiam[3]の構造を踏襲 Momentum Encoderも不要 (ここまでは厳密にはSimSiamの貢献 )
  7. 7 ©️ Panasonic Connect Co., Ltd. 2022 • 同じ枠組みで表現学習と様々なタスク固有の学習を同時に最適化 シンプルかつ汎用的

    先行研究と比べてどこがすごい? [1] Fig.1より引用 従来の教師なし表現学習のパターン 基本の 知識表現の 獲得 タスクの学習 基本の知識表現と タスク固有の知識を同時に獲得 タスクの学習 2ステップだが,様々なタスクに転用可能 1ステップだが,特定のタスクしか学習できない DenseSiam 左図は セマセグの例 従来の表現学習 パターンの両方 に同じ枠組みで 対応可能
  8. 8 ©️ Panasonic Connect Co., Ltd. 2022 PixSimで画素単位,RegionSimで領域単位で2枚の画像の一貫性を学習 技術や手法のキモはどこ? “密な予測”では画素単位や,領域単位での意味的情報の獲得が必要

    例:セマセグ⇒画素レベル,物体検出⇒領域レベル [1] Fig.2より引用
  9. 9 ©️ Panasonic Connect Co., Ltd. 2022 画像xに対して異なるデータ拡張を施した2枚の画像x1, x2を生成 処理フロー

    例では位置,色が異なる2枚の画像を生成 [1] Fig.2より引用した図に加筆
  10. 10 ©️ Panasonic Connect Co., Ltd. 2022 ResNet-50ベースのEncoderで画像から密な特徴マップを抽出 処理フロー 空間情報を保持するために

    ResNetの処理に含まれるGlobal Average Poolingは使わない [1] Fig.2より引用した図に加筆
  11. 11 ©️ Panasonic Connect Co., Ltd. 2022 Projectorで画素単位のラベル空間(セマセグの場合)に写像 処理フロー Projector

    gは3層の1x1畳み込みで構成(チャンネル数を柔軟に変更可能) Predictor hでz1をz2に近づけるように変換 [1] Fig.2より引用した図に加筆
  12. 12 ©️ Panasonic Connect Co., Ltd. 2022 GridSampleで重複領域から比較する画素を抽出 処理フロー [1]

    Fig.2より引用した図に加筆
  13. 13 ©️ Panasonic Connect Co., Ltd. 2022 GridSampleで重複領域から比較する画素を抽出 処理フロー [1]

    Fig.3より引用 GridSample 左図はK=3の場合 重複領域の中心を基準として 3x3の9点をサンプリングして比較
  14. 14 ©️ Panasonic Connect Co., Ltd. 2022 抽出された点の類似度をもとにloss計算 処理フロー [1]

    Fig.2より引用した図に加筆 Predictor hを経由する手続き以外は勾配計算しない ⇒ 同じ位置の画素が特徴空間上で近い位置に写像されるための制約
  15. 15 ©️ Panasonic Connect Co., Ltd. 2022 抽出された点の類似度をもとにloss計算 処理フロー [1]

    式(1)より引用 Symmetrical loss 異なるviewをもつ 2サンプルで損失計算 Dは様々な距離関数 負のCos類似度 [1] 式(2)より引用 類似度計算の関数例 Cross-entropy類似度 [1] 式(3)より引用
  16. 16 ©️ Panasonic Connect Co., Ltd. 2022 領域単位での推論のためにEncoder fの出力とProjector gの出力を積算

    処理フロー [1] Fig.2より引用した図に加筆 後段のResionSimで同じ領域に対する表現が学習されることを強制
  17. 17 ©️ Panasonic Connect Co., Ltd. 2022 PixSimと同様にProjectorで領域単位の特徴空間に写像 処理フロー [1]

    Fig.2より引用した図に加筆 Projector g’は3層のMLPで構成
  18. 18 ©️ Panasonic Connect Co., Ltd. 2022 抽出された領域の類似度をもとにloss計算 処理フロー [1]

    式(5)より引用 PixSimと同様の定式化が適用可能 [1] 式(6)より引用 同じviewでも異なる領域どうしが 特徴空間上で離れるように強制
  19. 19 ©️ Panasonic Connect Co., Ltd. 2022 モデル全体の損失関数の定義 [1] 式(7)より引用

    単に教師なし表現学習だけを行う場合, 画素レベル,領域レベルの他に画像レベルでも 異なるviewの画像の一貫性を保つためのloss(L sim )を計算する 画像の一貫性を計算する処理は論文中ではGlobal branchと表現されている, 処理や損失の定義はSimSiam[3]と同様であるとされているため説明は割愛 教師なし表現学習の損失関数
  20. 20 ©️ Panasonic Connect Co., Ltd. 2022 教師なしセマンティックセグメンテーションのための定式化 [1] Fig.1より引用した図に加筆

    PixSimのProjector gの出力zに対して損失関数を設定することで対応可能 Cross-entropy類似度 ➀Projector gの出力のチャンネル数を分類 したいカテゴリ数に合わせて変更 ②Cross-entropy類似度を用いて損失計算 (表現学習,セマセグ学習を同時に最適化) [1] 式(3)より引用 出力zにsoftmax変換を加えた値は 推論したいカテゴリの尤度とみなせる
  21. 21 ©️ Panasonic Connect Co., Ltd. 2022 教師なしセマンティックセグメンテーションのための定式化 精度向上のために2つの損失関数とProjector, PredictorをPixSimに追加

    [1] 式(8)より引用 過去の研究で予測値は小さいEntropyをもつことが推奨されている, そこで疑似ラベルとみなせるProjector gの出力argmax(z1)に対して z2とのCross-entropy誤差を計算 教師無しセマセグではカテゴリ数が少ないと学習が安定しない, Over-clustering strategyに従って多くの疑似カテゴリを生成 ⇒ 疑似カテゴリの生成用にPixSimにPrejectorとPredictorを追加 それらの出力に対して,L dense に従って追加で損失計算
  22. 22 ©️ Panasonic Connect Co., Ltd. 2022 “密な予測”のための教師なし表現学習手法と比較 どうやって有効だと検証した? [1]

    Table.1より引用 画素レベル ⇒ セマンティックセグメンテーション, 領域レベル ⇒ 物体検出 で比較
  23. 23 ©️ Panasonic Connect Co., Ltd. 2022 ImageNet-1kで表現学習後,特定タスクの転移学習 (DenseSiamは従来の2ステップの表現学習も可能) どうやって有効だと検証した?

    [1] Table.2より引用 タスク 転移モデル COCO Instance Seg. Mask R-CNN COCO Detection Mask R-CNN Cityscapes Seg. Fully Convolutional Networks VOC Detection Faster R-CNN DenseSiamのBack-bornにFPNを用いていないVOCのみ劣後 Back-bornにFPNがあるCOCOではSoTAであるため,加えて, 実質FPNがない構造となるDetCoも同様に精度が落ちているため
  24. 24 ©️ Panasonic Connect Co., Ltd. 2022 教師なしセマンティックセグメンテーションタスクの直接学習 どうやって有効だと検証した? クラスタリングベースの過去手法と比較し,大きな精度向上を達成

    深層学習を用いたPiCIEと比較すると学習時間も約72%削減 [1] Table.3より引用
  25. 25 ©️ Panasonic Connect Co., Ltd. 2022 Ablation study:COCO,VOCでの事前学習 議論はある?

    GridSampleサイズ,PixSimの損失関数の重み, RegionSimの損失関数の重みについて最適なパラメータを検証 [1] Table.4より引用
  26. 26 ©️ Panasonic Connect Co., Ltd. 2022 Ablation study:COCO,VOCでの事前学習 議論はある?

    GridSampleを適用する順番, Global branchで画像レベルの類似度学習を全体 or 重複領域で行うか, RegionSimの学習をどの時点で開始するかを検証 [1] Table.4より引用 2行目 画像全体に対して類似度学習 しないと崩壊が発生 学習の中盤から RegionSimの学習を開始 するのが良い
  27. 27 ©️ Panasonic Connect Co., Ltd. 2022 Ablation study:教師なしセマセグで各処理の効果を検証 議論はある?

    セマセグ時にCross-entropy誤差(CE), 疑似カテゴリ生成による追加の類似度誤差(Aux.)など全部入りが良い [1] Table.5より引用 [1] 式(8)より引用
  28. 28 ©️ Panasonic Connect Co., Ltd. 2022 学習時のStrategyについて検証 議論はある? PixSimをベースに,従来研究で提案された学習ポリシーを適用

    画素単位,領域単位の最適化を同時におこなう本研究の戦略が最も有効 [1] Table.A1より引用
  29. 29 ©️ Panasonic Connect Co., Ltd. 2022 教師なしセマンティックセグメンテーション結果の可視化 議論はある? [1]

    Fig.A1より引用
  30. 30 ©️ Panasonic Connect Co., Ltd. 2022 • RegionCL: Exploring

    Contrastive Region Pairs for Self-Supervised Representation Learning[4] • Dense Teacher: Dense Pseudo-Labels for Semi-Supervised Object Detection[5] • Dense Cross-Query-and-Support Attention Weighted Mask Aggregation for Few-Shot Segmentation[6] • ConCL: Concept Contrastive Learning for Dense Prediction Pre- training in Pathology Images[7] • Dense Gaussian Processes for Few-Shot Segmentation[8] • Understanding Collapse in Non-Contrastive Siamese Representation Learning[9] 関連がありそうなECCV2022 採択論文 次によむべき論文は?
  31. 31 ©️ Panasonic Connect Co., Ltd. 2022 [1] Dense Siamese

    Network for Dense Unsupervised Learning [Author]: Wenwei Zhang, Jiangmiao Pang, Kai Chen, Chen Change Loy [Source]: https://arxiv.org/pdf/2203.11075.pdf [2] A SURVEY ON CONTRASTIVE SELF-SUPERVISED LEARNING [Author]: Ashish Jaiswal, Ashwin Ramesh Babu, Mohammad Zaki Zadeh, Debapriya Banerjee, Fillia Makedon [Source]: https://arxiv.org/pdf/2011.00362.pdf [3] Momentum Contrast for Unsupervised Visual Representation Learning [Author]: Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, Ross Girshick [Source]: https://arxiv.org/pdf/1911.05722.pdf [4] RegionCL: Exploring Contrastive Region Pairs for Self-Supervised Representation Learning [Author]: Yufei Xu, Qiming Zhang, Jing Zhang, Dacheng Tao [Source]: https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136930468.pdf [5] Dense Teacher: Dense Pseudo-Labels for Semi-Supervised Object Detection [Author]: Hongyu Zhou, Zheng Ge, Songtao Liu, Weixin Mao, Zeming Li, Haiyan Yu, Jian Sun [Source]: https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136690036.pdf [6] Dense Cross-Query-and-Support Attention Weighted Mask Aggregation for Few-Shot Segmentation [Author]: Xinyu Shi, Dong Wei, Yu Zhang, Donghuan Lu, Munan Ning, Jiashun Chen, Kai Ma, Yefeng Zheng [Source]: https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136800142.pdf [7] ConCL: Concept Contrastive Learning for Dense Prediction Pre-training in Pathology Images [Author]: Jiawei Yang, Hanbo Chen, Yuan Liang, Junzhou Huang, Lei He, Jianhua Yao [Source]: https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136810516.pdf [8] Dense Gaussian Processes for Few-Shot Segmentation [Author]: Joakim Johnander, Johan Edstedt, Michael Felsberg, Fahad Shahbaz Khan, Martin Danelljan [Source]: https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136890215.pdf [9] Understanding Collapse in Non-Contrastive Siamese Representation Learning [Author]: Alexander C. Li, Alexei A. Efros, Deepak Pathak [Source]: https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136910476.pdf 参考文献
  32. None