Slide 1

Slide 1 text

1 Copyright © Acroquest Technology Co., Ltd. All rights reserved. Erasing Integrated Learning : A Simple yet Effective Approach for Weakly Supervised Object Localization 2020/07/04(⼟) Acroquest Technology株式会社 ⼭本 ⼤輝(@tereka114)

Slide 2

Slide 2 text

⼭本 ⼤輝 (@tereka114) 1. Acroquest Technology株式会社 ① 画像処理・⾃然⾔語処理の研究開発 2. のんびりしているエンジニアの⽇記 http://nonbiri-tereka.hatenablog.com/ 3. Kaggle Master ① Home Credit Default Risk 2nd ② IEEE Signal Processing 10th 4. 雑誌Interface 2018年12⽉号 AIひょっこり猫カメラ 雑誌Interface 2020年2⽉号 組み込みコンピュータ技 術512 雑誌Interface 2020年8⽉号マイコン⼈⼯知能で測る

Slide 3

Slide 3 text

Acroquestの事業内容 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 3 IoT⾰新事業 ⼈々の⽣活基盤を 変⾰する事業 あらゆるモノからリアルタイムな データ分析を実現する 顧客価値創造事業 企業のビジネスを 変⾰する事業 あらゆるデータをビジネス活⽤し 新たな価値創造を実現する AIソリューション事業 業務のありかたを 変⾰する事業 あらゆる産業で映像解析によって ⾃動化・効率化を実現する プラットフォーム 開発事業 ビジネスを 加速させる 開発事業 マイクロサービスアーキテクチャによる開発や DevOps実践などの活動を通して ビジネスを強化するITシステムの構築を⾏う

Slide 4

Slide 4 text

日本でいちばん大切に したい会社大賞 審査委員会特別賞 健康経営優良法人2018/2019 はばたく中小企業・ 小規模事業者300社 よこはまグッドバランス賞 3年連続受賞 50/114,000社 3度日本1位受賞 働きがいのある会社 ランキング 横浜健康経営認証AAA 5/114,000社 企業視察 470社 会社における取組や社⾵に関して 多数の賞を頂いております

Slide 5

Slide 5 text

組織の取り組みが書籍として出版されています Copyright © Acroquest Technology Co., Ltd. All rights reserved. 5 会社を元気にする 「いきいき実践勉強会」 を開催し、多くの経営者様に ご参加いただいております。

Slide 6

Slide 6 text

Outline Copyright © Acroquest Technology Co., Ltd. All rights reserved. 6 1. 本発表の⽬的 2. 論⽂概要 3. 関連研究 4. 提案⼿法 5. 実験 6. 結論 7. 感想

Slide 7

Slide 7 text

1. 本発表の⽬的 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 7 1. 位置情報を⼊⼒データに含めない画像を学習し、物体の位置を推定 する「WSOL」の問題について知る。 2. WSOLの⼀つのアプローチであるAdversarial Erasing Approach の概要を知る。 3. 本提案⼿法のEILをWSOLの問題を解く⼿法の選択肢の⼀つに選べ るようになる。

Slide 8

Slide 8 text

2. 論⽂概要 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 8 1. Erasing Integrated Learning : A Simple yet Effective Approach for Weakly Supervised Object Localization 2. Oral, Transfer/Low-Shot/Semi/Unsupervised Learning 3. 概要 ① 位置情報を⼊⼒データに含めない画像を学習し、物体の位置を推定する「WSOL」の問題を解く⼿法の 提案 – 従来⼿法よりも精度が⾼く、パラメータの削減ができた。 ü CUB-200-2011︓57.46(+4.42, Loc) ü ILSVIRC2016︓49.48(+0.71 Loc), 73.88(+1.38% Clsss) 4. 私の紹介動機 ① WSOL⾃体に興味があり、応⽤範囲が広いと感じたこと。

Slide 9

Slide 9 text

2. Weakly Supervised Object Localization(WSOL) Copyright © Acroquest Technology Co., Ltd. All rights reserved. 9 1. 画像とラベルを学習とし、その物体が画像中のどこに位置している のかを推定する問題。 モデル モデル 学習 推論 Horned Puffin Black footed Albatross

Slide 10

Slide 10 text

2. 前提知識︓Class Activation Mapping(CAM) Copyright © Acroquest Technology Co., Ltd. All rights reserved. 10 1. 画像中である物体を検知したとき、画像のどの部分を⾒てその物体だと判断し たのか説明する⼿法。 ① 畳み込みの出⼒結果と全結合の重みを⽤いる。 ※Learning Deep Features for Discriminative Localization[Zhou 2017]

Slide 11

Slide 11 text

3. 論⽂のベースになるアプローチ Copyright © Acroquest Technology Co., Ltd. All rights reserved. 11 1. Adversarial Erasing Approach ① クラス識別のための重要な領域を削除(Erasing)した上で、残りの領域で識別し、 Localizationを⾏う⼿法 既存手法 提案手法

Slide 12

Slide 12 text

3. 既存⼿法1:Object Region Mining with Adversarial Erasing: A Simple Classification to Semantic Segmentation Approach[Wei 2017](a) Copyright © Acroquest Technology Co., Ltd. All rights reserved. 12 1. CNNで⼊⼒画像のCAMを求めて、判別可能な領域を推定する。 2. Erasing Operationで削除したあと、再度推論し、CAMの結果を統合する。 3. 何度も推論するため、推論回数分の計算時間がかかる。

Slide 13

Slide 13 text

3. 既存⼿法2:Adversarial Complementary Learning for Weakly Supervised Object Localization[Zhang 2018](ACoL, b) Copyright © Acroquest Technology Co., Ltd. All rights reserved. 13 1. ErasingなしとErasingした画像を⼊⼒するCNNのブランチのCAMの結果を結 合する⽅式でLocalizationを推定する。 2. 通常のCNNと⽐較して、パラメータが増える。(追加ブランチ分)

Slide 14

Slide 14 text

3. 既存⼿法3:Attention-based Dropout Layer for Weakly Supervised Object Localization[Choe 2019](ADL, c) Copyright © Acroquest Technology Co., Ltd. All rights reserved. 14 1. Self-Attention mapに対して、2種のどちらか処理を適⽤する。 ① Drop mask(分類に重要な箇所を消す)or Importance map(分類に重要な箇所を残す) 2. Localizationの精度は向上しているが、分類に重要な領域を削除しているため、分類精度が低 くなる傾向がある。

Slide 15

Slide 15 text

3. 既存⼿法の課題と提案⼿法の貢献 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 15 1. 推論回数分の計算時間のオーバーヘッドがかかる。 2. 通常のCNNと⽐較してパラメータが増える。 3. Localizationの精度が向上する代わりに、分類の精度が下がる。 1. 本提案⼿法「Erasing integrated learning」では、上記3つの問 題を改善した。

Slide 16

Slide 16 text

4. 提案⼿法の概要 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 16 1. WSOLを解く学習法Erasing integrated learning(EIL)を提案、 追加ブランチやステップがないため、従来と⽐較して効率的 ① Erasingあり/なし画像を処理する際に、同じパラメータのネットワークを 利⽤する。 – ACoLのErasingあり/なしの画像を予測する層分のパラメータの削減が可能。 ② ACoLと⽐較して計算時間も増えないので、効率的に学習できる。 2. 更にmulti-EIL(MEIL)と呼ばれる異なるスケールの特徴マップ を⽤いた⽅式も提案し、精度を改善した。 ① CUB-200-2011︓57.46(+4.42, Loc) ② ILSVIRC2016︓49.48(+0.71 Loc), 73.88(+1.38% Clsss)

Slide 17

Slide 17 text

4. EILの概要 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 17 ・画像の重要な領域を 削除し、学習するブランチ ・領域を削除せず、 学習するブランチ ・重みは共有する。 ・特徴マップより、 重要な領域を検出する。

Slide 18

Slide 18 text

4. EILの疑似コード Copyright © Acroquest Technology Co., Ltd. All rights reserved. 18 1. マスクで利用する特徴マップの計算 2. 特徴マップからマスクを作成する。 4. 各ブランチでの予測 5. 誤差の計算 6. パラメータの更新 3. マスク適用後の特徴マップ作成

Slide 19

Slide 19 text

4. EILのCAM可視化 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 19 • 横軸は学習の進み具合を示す。 • 縦軸はVGGの層名 • 分類に重要な特徴マップの領域 を削除する前と後で異なる箇所を 見ていることがわかる。

Slide 20

Slide 20 text

4. MEILの構造と結果 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 20 Erasing Operation Erasing Operation 重量な領域の 削除なしの出力 重量な領域の 削除ありの出力 重量な領域の 削除ありの出力

Slide 21

Slide 21 text

5. 実験 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 21 No. 項⽬名 内容 1 データセット • CUB-200-2011 • ILSVRC2016 2 評価指標 • Classification Accuracy • Localization Accuracy IoU 50% 超えたか • GT-Loc Classification + Localization Accuracy 3 モデル • VGG16 • InceptionV3 4 最適化⼿法 • SGD • lr 0.001 • Momentum 0.9 • Weight decay 0.0005

Slide 22

Slide 22 text

5. CUB-200-2011/ILSVRC 2016 Sample Copyright © Acroquest Technology Co., Ltd. All rights reserved. 22

Slide 23

Slide 23 text

5. EILの適⽤位置 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 23 • 高レベル特徴(conv5-3) Upsamplingした後がファジーな ガイダンス(CAM)の結果になる。 • 低レベル特徴(pool1-3) 一般的な特徴を獲得しており、特定の 物体の特徴よりも全体の特徴が強調される。

Slide 24

Slide 24 text

5. EILのハイパーパラメータ Copyright © Acroquest Technology Co., Ltd. All rights reserved. 24 γ:領域削除の閾値 σ:Erased Loss側のWeightの値 • ハイパーパラメータの調整は必須 • γの値 低すぎると物体の全てが消える。 高すぎると識別に重要な領域が消えない。 • σの値 高いほうがLocalizationの精度が 上がる。 →識別で重要ではない領域のほうが広い。

Slide 25

Slide 25 text

5. MEILの構造 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 25

Slide 26

Slide 26 text

5. SoTA⼿法との⽐較 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 26

Slide 27

Slide 27 text

6. 結論 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 27 1. シンプルで効率的なAdversarial Erasing ApproachであるEILを 提案した。 ① 追加のパラメータなしで、分類するのに重要な領域を消した特徴マップを利 ⽤する⽅式を取り込んだ。 ② 更に、マルチスケールな特徴マップを統合するMEILを提案した。 2. EIL、MEILともにWSOLの問題でSoTAを達成した。

Slide 28

Slide 28 text

7. 感想 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 28 1. WSOL⼿法そのものが、⾮常に応⽤範囲が広く応⽤性が⾼い。 2. EILは⾮常にシンプルな構造でパラメータも増えないので使い勝⼿ が良さそう。 3. 構造に制限がなく、EfficientNetやResNetに組み込むことが可能 なため、汎⽤性が⾼い。 4. WSOLの問題を解くときの選択肢の⼀つにありだと思います。

Slide 29

Slide 29 text

Evolve the Earth with Emotion of Technology Copyright © Acroquest Technology Co., Ltd. All rights reserved. 29 ご清聴ありがとうございました。