Slide 1

Slide 1 text

1 Copyright © Acroquest Technology Co., Ltd. All rights reserved. DER: Dynamically Expandable Representation for Class Incremental Learning 2021/07/11(⽇) ⼭本 ⼤輝(@tereka114)

Slide 2

Slide 2 text

⼭本 ⼤輝 (@tereka114) 1. Acroquest Technology株式会社 ① 画像処理・⾃然⾔語処理の研究開発 2. のんびりしているエンジニアの⽇記 http://nonbiri-tereka.hatenablog.com/ 3. Kaggle Master ① Home Credit Default Risk 2nd ② Global Wheat Detection 5th ③ Shopee – Price Match Guarantee 5th ④ IEEE Signal Processing 10th 4. 雑誌Interface 2018年12⽉号 AIひょっこり猫カメラ 雑誌Interface 2020年2⽉号 組み込みコンピュータ技 術512 雑誌Interface 2020年8⽉号マイコン⼈⼯知能で測る

Slide 3

Slide 3 text

Acroquestの事業内容 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 3 IoT⾰新事業 ⼈々の⽣活基盤を 変⾰する事業 あらゆるモノからリアルタイムな データ分析を実現する 顧客価値創造事業 企業のビジネスを 変⾰する事業 あらゆるデータをビジネス活⽤し 新たな価値創造を実現する AIソリューション事業 業務のありかたを 変⾰する事業 あらゆる産業で映像解析によって ⾃動化・効率化を実現する プラットフォーム 開発事業 ビジネスを 加速させる 開発事業 マイクロサービスアーキテクチャによる開発や DevOps実践などの活動を通して ビジネスを強化するITシステムの構築を⾏う

Slide 4

Slide 4 text

日本でいちばん大切に したい会社大賞 審査委員会特別賞 健康経営優良法人2018/2019 はばたく中小企業・ 小規模事業者300社 よこはまグッドバランス賞 3年連続受賞 50/114,000社 3度日本1位受賞 働きがいのある会社 ランキング 横浜健康経営認証AAA 5/114,000社 企業視察 500社 会社における取組や社⾵に関して 多数の賞を頂いております

Slide 5

Slide 5 text

組織の取り組みが書籍として出版されています Copyright © Acroquest Technology Co., Ltd. All rights reserved. 5 会社を元気にする 「いきいき実践勉強会」 を開催し、多くの経営者様に ご参加いただいております。

Slide 6

Slide 6 text

Outline Copyright © Acroquest Technology Co., Ltd. All rights reserved. 6 1. 本発表の⽬的 2. 論⽂概要 3. 先⾏研究 4. 提案⼿法 5. 実験 6. 結論 7. 感想

Slide 7

Slide 7 text

1. 本発表の⽬的 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 7 1. タスクを追加で学習していく増分学習(Incremental Learning) およびその分野の⼀つ、Class Incremental Learningのことを知 る。 2. 本提案⼿法の内容とそのメリットを知る。

Slide 8

Slide 8 text

2. 論⽂概要 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 8 1. タイトル︓DER: Dynamically Expandable Representation for Class Incremental Learning ① Oral Paper 2. 執筆者の所属︓ShanghaiTech University 3. 論⽂概要︓増分学習の中でクラス数が増加していくClass Incremental Learningの新規⼿法の提案、従来より⾼精度、パラメータ数も減少。 4. 紹介動機︓Class Incremental Learningは業務でも応⽤ができそうなため。

Slide 9

Slide 9 text

2. Class Incremental Learning Copyright © Acroquest Technology Co., Ltd. All rights reserved. 9 ・新しいデータとクラスが時刻tに登場する。 ・過去の一部のデータセットは保存し、将来の時刻(t+1,t+2…)に利用できる。 ・課題として破滅的忘却といわれるCatastrophic Forgettingがある。(詳細は次P) 未来 過去 データ メモリ ラベル ※メモリは過去のデータを一部保存する領域のこと、tを学習するときはt-1のメモリを利用する。 タスクt-1 タスクt タスクt+1

Slide 10

Slide 10 text

2. Catastrophic Forgetting Copyright © Acroquest Technology Co., Ltd. All rights reserved. 10 1. 破滅的忘却。学習済のモデルに対し、新しいタスクを学習させたと きに、学習済モデルを学習させたタスクを忘れ、そのタスクに関連 する判定の精度が下がること。 2. Incremental Learningで頻繁に議論される問題の⼀つ。

Slide 11

Slide 11 text

2. (Class)Incremental Learningのメリット Copyright © Acroquest Technology Co., Ltd. All rights reserved. 11 1. 事前学習済モデルで利⽤したデータが利⽤できる数が少ない状態であっても⼀ つのモデルで分類可能 ① (何も考えなければ)全てのデータで学習することになる。 ② 事前学習のデータがほぼ使えない場合、新しいデータの精度が⾼くなり、事前学習のデータ に対する精度が劇的に悪化する(Catastrophic Forgetting) ③ Incremental Learningの場合、事前学習済で利⽤したものはデータの⼀部のみ利⽤すれば よいため、ストレージやメモリの節約になる。 2. 学習済モデルに追加で新しいデータを学習させることで⼀から学習するよりも ⾼精度なモデルを構築できる。

Slide 12

Slide 12 text

3. 先⾏研究 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 12 1. PODNet: Pooled Outputs Distillation for Small-Tasks Incremental Learning 2. Maintaining Discrimination and Fairness in Class Incremental Learning

Slide 13

Slide 13 text

3-①. PODNet: Pooled Outputs Distillation for Small-Tasks Incremental Learning Copyright © Acroquest Technology Co., Ltd. All rights reserved. 13 1. 過去のモデルとのDistillationを⽤いて、学習し、破滅的忘却を防ぐ。 ① 最終の出⼒だけでなく、モデルの途中の出⼒をPoolする。 2. 新旧のデータ量のアンバランスさを解消するためのLSC(Local Similarity Classifier)を提案

Slide 14

Slide 14 text

3-②. Maintaining Discrimination and Fairness in Class Incremental Learning Copyright © Acroquest Technology Co., Ltd. All rights reserved. 14 1. データに対してKnowledge Distillationとクロスエントロピー誤差を⽤いて学 習する。 2. 不均衡になるFCを調整するWeight Aligningを提案した。

Slide 15

Slide 15 text

3. 先⾏研究の課題 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 15 事前学習したデータに対する特徴が徐々に忘却される。 先行研究はDistillationの手法が適用されることがあるがや はり過去のを忘れるため、安定性と可逆性が不足する。 事前学習した分類器を残して活用することで、古い特徴 の本質的な構造を残しつつ、新しいデータの特徴をも獲 得できる方式を提案した。

Slide 16

Slide 16 text

4. 提案⼿法 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 16 1. (⼀⾔でいえば、)新しいタスクを学習させる際に、新しい特徴抽出機を学習 させ、古い特徴抽出機も利⽤する⼿法 2. 学習は2Stage⽅式 ① Representation Learning – 新規データの表現を主に学習する。 ② Classifier Learning – 最終層のHeadを温度付きSoftmaxで再学習して不均衡なデータへの対策をする。 3. 従来⼿法はモデルを学習させるため、過去の特徴が徐々に忘却される。 ① 本提案⼿法はタスクが追加されるたびに新しい特徴抽出機を追加する⽅式なので、古いタス クの特徴を残せる。 ② 新しい特徴抽出機にAuxiliary Lossを⽤いることで追加タスクの特徴を 獲得しやすいようにした。

Slide 17

Slide 17 text

4-①. Representation Learning Copyright © Acroquest Technology Co., Ltd. All rights reserved. 17 ・過去の特徴抽出機と新しい特徴抽出機の出力を結合して、分類機を作る。 ・タスク追加時に新しい特徴抽出機を追加する。

Slide 18

Slide 18 text

4-①. Representation Learning Copyright © Acroquest Technology Co., Ltd. All rights reserved. 18 1. 学習の流れは次の通り ① タスクが⼀つ追加されるたびに、⼀つの特徴抽出機を作成する。 – 過去の学習済パラメータは凍結し、学習中も変化がない。 ② 特徴抽出機の出⼒を結合し、分類する。 – Training LossはClassification Loss, Auxiliary Loss, Sparsity Lossの3つに区分され る。(詳細は次のP) 2. Pruning ① Channel-levelでの学習可能なマスクを⽤いてパラメータ数を削減する。

Slide 19

Slide 19 text

4-①. Training Loss Copyright © Acroquest Technology Co., Ltd. All rights reserved. 19 Sparsity Loss 最小限の性能低下で、 最大限にパラメータ数を削る。 (パラメータの利用率が反映) Auxiliary Loss ・LossはClassificationと同じ Classification Loss

Slide 20

Slide 20 text

4-①. Pruning Copyright © Acroquest Technology Co., Ltd. All rights reserved. 20 1. モデルの冗⻑性を取り除き、コンパクトな表現を核とk数る。 2. 微分可能なマスクを適⽤し、不要なパラメータを削除する。 • 学習時︓Softなマスクとして利⽤ • 推論時︓マスクが⾼い値を⽰す場合に、Pruneする。 Sigmoid Function Scale 学習可能なパラメータ Maskを適用する式 学習回数に基づいて スケールを調整

Slide 21

Slide 21 text

4-②. Classifier Learning Copyright © Acroquest Technology Co., Ltd. All rights reserved. 21 1. 分類器の不均衡バイアスを減らすために、最終層のHeadを固定化 する。過去のデータ保持数が少ないため、不均衡バイアスが発⽣す る。 2. 学習⼿順 ① Headをランダムな重みで再初期化する。 ② クラス数のバランスが取れたデータの部分集合を作成する。 ③ Headのみを温度付きSoftmaxを使って学習する。 (残りはFreezeして更新させない。)

Slide 22

Slide 22 text

5. 実験内容 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 22 1. Incremental Learningについて、3つのデータセットで検証 ① CIFAR100 ② ImageNet100 ③ ImageNet1000 2. これらのデータセットを各種条件で⽐較 ① 学習なし、50クラス学習済のモデルを利⽤したIncremental Learningの学 習開始時の条件設定 ② Step数によるIncremental Learningのタスク数の⽐較 3. 考察に提案⼿法のAblation Studyがある。

Slide 23

Slide 23 text

5. 実験のパターン Copyright © Acroquest Technology Co., Ltd. All rights reserved. 23 No. 実験パターン 説明 1 CIFAR100-B0 32x32の画像、100クラス 学習されていない状態から開始する。 2 CIFAR100-B50 32x32の画像、100クラス 最初の学習がクラス50学習済モデルから開始 する。 3 ImageNet100-B0 ImageNetから100クラス 学習されていない状態から開始する。 4 ImageNet100-B50 ImageNetから100クラス B50は、最初の学習はクラス50学習済モデル から開始する。 5 ImageNet1000-B0 ImageNet1000クラスを利⽤ 学習されていない状態から開始する。

Slide 24

Slide 24 text

5. 実験結果 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 24 ・従来の手法と比較して 高精度 ・Pruning手法により パラメータ数が削減 (精度は従来よりも高い) ・Boundは全学習、 理論上の最大値 Stepは増分クラス数とIncremental Learningの回数に影響 例えば、CIFAR100-B0、5stepsの場合1Step 20クラス学習する。

Slide 25

Slide 25 text

5. 実験結果 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 25 ・ステップを追うことに精度は下がっているが、提案手法は減少を抑えている。 →提案手法が最も良い

Slide 26

Slide 26 text

5. 実験結果 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 26 ・パラメータ数が先行研究より少なく、精度も高い。

Slide 27

Slide 27 text

5. Ablation Study and Analysis Copyright © Acroquest Technology Co., Ltd. All rights reserved. 27 Expandable representationの 手法が特に有効 E.R.: Expandable representation Aux.: Auxiliary Loss Backward Transfer for Representation Forward Transfer for Representation 過去学習したものの精度が 後退していないかの指標 Analysis 過去の特徴が先のタスクで 有効に働いているか Ablation Study 提案手法が他手法よりも 有効であることを示した

Slide 28

Slide 28 text

6. 結論 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 28 1. 本提案⼿法により、既存タスクにおいて、Class Incremental Learningの精度が向上した。 2. 提案⼿法のポイントは次の通り ① 過去の特徴抽出機を固定化して利⽤する。 ② Channel-maskを⽤いてPruningし、少量のパラメータでも⾼精度を実現。

Slide 29

Slide 29 text

7. 感想 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 29 1. モデルを実業務で運営するにあたり、Class Incremental Learningの活⽤は、便利そうであった。 2. 特徴量抽出機が増えていくのでタスクの実⾏回数により計算量が増 えていくのがネックになりそうなので、利⽤時には⼯夫が必要に⾒ える。(例えば、毎⽇追加は難しそう)

Slide 30

Slide 30 text

Evolve the Earth with Emotion of Technology Copyright © Acroquest Technology Co., Ltd. All rights reserved. 30 ご清聴ありがとうございました!