Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【ECCV2022】Dense_Siamese_Network_for_Dense_Unsup...

seto
December 06, 2022

【ECCV2022】Dense_Siamese_Network_for_Dense_Unsupervised_Learning 解説

対照学習を必要としない自己教師あり学習手法であるSimSiamの拡張版として
DenseSiamを提案するという内容の論文で,"密な予測"が必要となるタスクを教師なし学習(自己教師のみ)で解くタイプのものです

キーワード:表現学習,対照学習,セマンティックセグメンテーション,物体検出,Siamese Network

seto

December 06, 2022
Tweet

More Decks by seto

Other Decks in Technology

Transcript

  1. 2 ©️ Panasonic Connect Co., Ltd. 2022 • セマセグ等の”密な予測”が必要なタスクはアノテーションが大変 •

    各ピクセルにラベルづけが必要 ⇒ 教師なし学習したい • “密な予測”が必要なタスクでは教師なし学習手法が未成熟 • 画像分類などの”密な予測”のいらないタスクばかりで発展 • 提案されている一部の手法はK-meansベースのクラスタリング手法で技術発展が緩やか • ”密な予測”に適した表現学習フレームワークとしてDenseSiamを提案 • シンプルかつ汎用的,高精度なSiamese Network 物体検出,セマセグなどの”密な予測”に必要な特徴表現を 教師なし学習する新たなSiamese Networkを提案 どんなもの?
  2. 3 ©️ Panasonic Connect Co., Ltd. 2022 • 表現学習の王道である対照学習は学習コスト大 シンプルかつ汎用的

    先行研究と比べてどこがすごい? 対照学習 似たサンプル(正のペア) ⇒ 近くする 異なるサンプル(負のペア) ⇒ 遠くする [2] Fig.2より引用 正のペアよりも多くの負のペアが必要 ⇒ 学習に時間がかかる ⇒ バッチサイズ大(教師なし学習の場合)
  3. 4 ©️ Panasonic Connect Co., Ltd. 2022 • 表現学習の王道である対照学習は学習コスト大 シンプルかつ汎用的

    先行研究と比べてどこがすごい? 対照学習 似たサンプル(正のペア) ⇒ 近くする 異なるサンプル(負のペア) ⇒ 遠くする [2] Fig.2より引用 正のペアよりも多くの負のペアが必要 ⇒ 学習に時間がかかる ⇒ バッチサイズ大(教師なし学習の場合) DenseSiamは正のペアのみで教師なし学習可能
  4. 5 ©️ Panasonic Connect Co., Ltd. 2022 • 教師なし対照学習にはMomentum Encoderが必要

    シンプルかつ汎用的 先行研究と比べてどこがすごい? [3] Fig.1より引用 Momentum Encoder 低計算量,低バッチサイズで 対照学習を可能にする機構 教師なし対照学習特有の「崩壊*」を防ぐとさ れていたが,必ずしもそうでないことが[3]で 明らかにされている *モデルが異なるサンプル同士を 同じベクトルとして埋め込んでしまう現象
  5. 6 ©️ Panasonic Connect Co., Ltd. 2022 • 対照学習にはMomentum Encoderが必要

    シンプルかつ汎用的 先行研究と比べてどこがすごい? [3] Fig.1より引用 Momentum Encoder 低計算量,低バッチサイズで 対照学習を可能にする機構 対照学習特有の「崩壊」を防ぐとされていた が,必ずしもそうでないことが[4]で明らかに されている *モデルが異なるサンプル同士を 同じベクトルに埋め込んでしまう現象 DenseSiamはSimSiam[3]の構造を踏襲 Momentum Encoderも不要 (ここまでは厳密にはSimSiamの貢献 )
  6. 7 ©️ Panasonic Connect Co., Ltd. 2022 • 同じ枠組みで表現学習と様々なタスク固有の学習を同時に最適化 シンプルかつ汎用的

    先行研究と比べてどこがすごい? [1] Fig.1より引用 従来の教師なし表現学習のパターン 基本の 知識表現の 獲得 タスクの学習 基本の知識表現と タスク固有の知識を同時に獲得 タスクの学習 2ステップだが,様々なタスクに転用可能 1ステップだが,特定のタスクしか学習できない DenseSiam 左図は セマセグの例 従来の表現学習 パターンの両方 に同じ枠組みで 対応可能
  7. 9 ©️ Panasonic Connect Co., Ltd. 2022 画像xに対して異なるデータ拡張を施した2枚の画像x1, x2を生成 処理フロー

    例では位置,色が異なる2枚の画像を生成 [1] Fig.2より引用した図に加筆
  8. 11 ©️ Panasonic Connect Co., Ltd. 2022 Projectorで画素単位のラベル空間(セマセグの場合)に写像 処理フロー Projector

    gは3層の1x1畳み込みで構成(チャンネル数を柔軟に変更可能) Predictor hでz1をz2に近づけるように変換 [1] Fig.2より引用した図に加筆
  9. 13 ©️ Panasonic Connect Co., Ltd. 2022 GridSampleで重複領域から比較する画素を抽出 処理フロー [1]

    Fig.3より引用 GridSample 左図はK=3の場合 重複領域の中心を基準として 3x3の9点をサンプリングして比較
  10. 14 ©️ Panasonic Connect Co., Ltd. 2022 抽出された点の類似度をもとにloss計算 処理フロー [1]

    Fig.2より引用した図に加筆 Predictor hを経由する手続き以外は勾配計算しない ⇒ 同じ位置の画素が特徴空間上で近い位置に写像されるための制約
  11. 15 ©️ Panasonic Connect Co., Ltd. 2022 抽出された点の類似度をもとにloss計算 処理フロー [1]

    式(1)より引用 Symmetrical loss 異なるviewをもつ 2サンプルで損失計算 Dは様々な距離関数 負のCos類似度 [1] 式(2)より引用 類似度計算の関数例 Cross-entropy類似度 [1] 式(3)より引用
  12. 16 ©️ Panasonic Connect Co., Ltd. 2022 領域単位での推論のためにEncoder fの出力とProjector gの出力を積算

    処理フロー [1] Fig.2より引用した図に加筆 後段のResionSimで同じ領域に対する表現が学習されることを強制
  13. 18 ©️ Panasonic Connect Co., Ltd. 2022 抽出された領域の類似度をもとにloss計算 処理フロー [1]

    式(5)より引用 PixSimと同様の定式化が適用可能 [1] 式(6)より引用 同じviewでも異なる領域どうしが 特徴空間上で離れるように強制
  14. 19 ©️ Panasonic Connect Co., Ltd. 2022 モデル全体の損失関数の定義 [1] 式(7)より引用

    単に教師なし表現学習だけを行う場合, 画素レベル,領域レベルの他に画像レベルでも 異なるviewの画像の一貫性を保つためのloss(L sim )を計算する 画像の一貫性を計算する処理は論文中ではGlobal branchと表現されている, 処理や損失の定義はSimSiam[3]と同様であるとされているため説明は割愛 教師なし表現学習の損失関数
  15. 20 ©️ Panasonic Connect Co., Ltd. 2022 教師なしセマンティックセグメンテーションのための定式化 [1] Fig.1より引用した図に加筆

    PixSimのProjector gの出力zに対して損失関数を設定することで対応可能 Cross-entropy類似度 ➀Projector gの出力のチャンネル数を分類 したいカテゴリ数に合わせて変更 ②Cross-entropy類似度を用いて損失計算 (表現学習,セマセグ学習を同時に最適化) [1] 式(3)より引用 出力zにsoftmax変換を加えた値は 推論したいカテゴリの尤度とみなせる
  16. 21 ©️ Panasonic Connect Co., Ltd. 2022 教師なしセマンティックセグメンテーションのための定式化 精度向上のために2つの損失関数とProjector, PredictorをPixSimに追加

    [1] 式(8)より引用 過去の研究で予測値は小さいEntropyをもつことが推奨されている, そこで疑似ラベルとみなせるProjector gの出力argmax(z1)に対して z2とのCross-entropy誤差を計算 教師無しセマセグではカテゴリ数が少ないと学習が安定しない, Over-clustering strategyに従って多くの疑似カテゴリを生成 ⇒ 疑似カテゴリの生成用にPixSimにPrejectorとPredictorを追加 それらの出力に対して,L dense に従って追加で損失計算
  17. 22 ©️ Panasonic Connect Co., Ltd. 2022 “密な予測”のための教師なし表現学習手法と比較 どうやって有効だと検証した? [1]

    Table.1より引用 画素レベル ⇒ セマンティックセグメンテーション, 領域レベル ⇒ 物体検出 で比較
  18. 23 ©️ Panasonic Connect Co., Ltd. 2022 ImageNet-1kで表現学習後,特定タスクの転移学習 (DenseSiamは従来の2ステップの表現学習も可能) どうやって有効だと検証した?

    [1] Table.2より引用 タスク 転移モデル COCO Instance Seg. Mask R-CNN COCO Detection Mask R-CNN Cityscapes Seg. Fully Convolutional Networks VOC Detection Faster R-CNN DenseSiamのBack-bornにFPNを用いていないVOCのみ劣後 Back-bornにFPNがあるCOCOではSoTAであるため,加えて, 実質FPNがない構造となるDetCoも同様に精度が落ちているため
  19. 25 ©️ Panasonic Connect Co., Ltd. 2022 Ablation study:COCO,VOCでの事前学習 議論はある?

    GridSampleサイズ,PixSimの損失関数の重み, RegionSimの損失関数の重みについて最適なパラメータを検証 [1] Table.4より引用
  20. 26 ©️ Panasonic Connect Co., Ltd. 2022 Ablation study:COCO,VOCでの事前学習 議論はある?

    GridSampleを適用する順番, Global branchで画像レベルの類似度学習を全体 or 重複領域で行うか, RegionSimの学習をどの時点で開始するかを検証 [1] Table.4より引用 2行目 画像全体に対して類似度学習 しないと崩壊が発生 学習の中盤から RegionSimの学習を開始 するのが良い
  21. 27 ©️ Panasonic Connect Co., Ltd. 2022 Ablation study:教師なしセマセグで各処理の効果を検証 議論はある?

    セマセグ時にCross-entropy誤差(CE), 疑似カテゴリ生成による追加の類似度誤差(Aux.)など全部入りが良い [1] Table.5より引用 [1] 式(8)より引用
  22. 28 ©️ Panasonic Connect Co., Ltd. 2022 学習時のStrategyについて検証 議論はある? PixSimをベースに,従来研究で提案された学習ポリシーを適用

    画素単位,領域単位の最適化を同時におこなう本研究の戦略が最も有効 [1] Table.A1より引用
  23. 30 ©️ Panasonic Connect Co., Ltd. 2022 • RegionCL: Exploring

    Contrastive Region Pairs for Self-Supervised Representation Learning[4] • Dense Teacher: Dense Pseudo-Labels for Semi-Supervised Object Detection[5] • Dense Cross-Query-and-Support Attention Weighted Mask Aggregation for Few-Shot Segmentation[6] • ConCL: Concept Contrastive Learning for Dense Prediction Pre- training in Pathology Images[7] • Dense Gaussian Processes for Few-Shot Segmentation[8] • Understanding Collapse in Non-Contrastive Siamese Representation Learning[9] 関連がありそうなECCV2022 採択論文 次によむべき論文は?
  24. 31 ©️ Panasonic Connect Co., Ltd. 2022 [1] Dense Siamese

    Network for Dense Unsupervised Learning [Author]: Wenwei Zhang, Jiangmiao Pang, Kai Chen, Chen Change Loy [Source]: https://arxiv.org/pdf/2203.11075.pdf [2] A SURVEY ON CONTRASTIVE SELF-SUPERVISED LEARNING [Author]: Ashish Jaiswal, Ashwin Ramesh Babu, Mohammad Zaki Zadeh, Debapriya Banerjee, Fillia Makedon [Source]: https://arxiv.org/pdf/2011.00362.pdf [3] Momentum Contrast for Unsupervised Visual Representation Learning [Author]: Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, Ross Girshick [Source]: https://arxiv.org/pdf/1911.05722.pdf [4] RegionCL: Exploring Contrastive Region Pairs for Self-Supervised Representation Learning [Author]: Yufei Xu, Qiming Zhang, Jing Zhang, Dacheng Tao [Source]: https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136930468.pdf [5] Dense Teacher: Dense Pseudo-Labels for Semi-Supervised Object Detection [Author]: Hongyu Zhou, Zheng Ge, Songtao Liu, Weixin Mao, Zeming Li, Haiyan Yu, Jian Sun [Source]: https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136690036.pdf [6] Dense Cross-Query-and-Support Attention Weighted Mask Aggregation for Few-Shot Segmentation [Author]: Xinyu Shi, Dong Wei, Yu Zhang, Donghuan Lu, Munan Ning, Jiashun Chen, Kai Ma, Yefeng Zheng [Source]: https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136800142.pdf [7] ConCL: Concept Contrastive Learning for Dense Prediction Pre-training in Pathology Images [Author]: Jiawei Yang, Hanbo Chen, Yuan Liang, Junzhou Huang, Lei He, Jianhua Yao [Source]: https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136810516.pdf [8] Dense Gaussian Processes for Few-Shot Segmentation [Author]: Joakim Johnander, Johan Edstedt, Michael Felsberg, Fahad Shahbaz Khan, Martin Danelljan [Source]: https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136890215.pdf [9] Understanding Collapse in Non-Contrastive Siamese Representation Learning [Author]: Alexander C. Li, Alexei A. Efros, Deepak Pathak [Source]: https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136910476.pdf 参考文献