DER: Dynamically Expandable Representation for Class Incremental Learning

1 Copyright © Acroquest Technology Co., Ltd. All rights reserved.
DER: Dynamically Expandable Representation for Class Incremental Learning 2021/07/11(⽇) ⼭本⼤輝（@tereka114）

⼭本⼤輝（@tereka114） 1. Acroquest Technology株式会社 ① 画像処理・⾃然⾔語処理の研究開発 2. のんびりしているエンジニアの⽇記
http://nonbiri-tereka.hatenablog.com/ 3. Kaggle Master ① Home Credit Default Risk 2nd ② Global Wheat Detection 5th ③ Shopee – Price Match Guarantee 5th ④ IEEE Signal Processing 10th 4. 雑誌Interface 2018年12⽉号 AIひょっこり猫カメラ雑誌Interface 2020年2⽉号組み込みコンピュータ技術512 雑誌Interface 2020年8⽉号マイコン⼈⼯知能で測る

Acroquestの事業内容 Copyright © Acroquest Technology Co., Ltd. All rights reserved.
3 IoT⾰新事業⼈々の⽣活基盤を変⾰する事業あらゆるモノからリアルタイムなデータ分析を実現する顧客価値創造事業企業のビジネスを変⾰する事業あらゆるデータをビジネス活⽤し新たな価値創造を実現する AIソリューション事業業務のありかたを変⾰する事業あらゆる産業で映像解析によって⾃動化・効率化を実現するプラットフォーム開発事業ビジネスを加速させる開発事業マイクロサービスアーキテクチャによる開発や DevOps実践などの活動を通してビジネスを強化するITシステムの構築を⾏う

日本でいちばん大切にしたい会社大賞審査委員会特別賞健康経営優良法人2018/2019 はばたく中小企業・小規模事業者300社よこはまグッドバランス賞 3年連続受賞 50／114,000社３度日本１位受賞
働きがいのある会社ランキング横浜健康経営認証AAA 5／114,000社企業視察 500社会社における取組や社⾵に関して多数の賞を頂いております

組織の取り組みが書籍として出版されています Copyright © Acroquest Technology Co., Ltd. All rights reserved.
5 会社を元気にする「いきいき実践勉強会」を開催し、多くの経営者様にご参加いただいております。

Outline Copyright © Acroquest Technology Co., Ltd. All rights reserved.
6 1. 本発表の⽬的 2. 論⽂概要 3. 先⾏研究 4. 提案⼿法 5. 実験 6. 結論 7. 感想

1. 本発表の⽬的 Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 7 1. タスクを追加で学習していく増分学習（Incremental Learning）およびその分野の⼀つ、Class Incremental Learningのことを知る。 2. 本提案⼿法の内容とそのメリットを知る。

2. 論⽂概要 Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 8 1. タイトル︓DER: Dynamically Expandable Representation for Class Incremental Learning ① Oral Paper 2. 執筆者の所属︓ShanghaiTech University 3. 論⽂概要︓増分学習の中でクラス数が増加していくClass Incremental Learningの新規⼿法の提案、従来より⾼精度、パラメータ数も減少。 4. 紹介動機︓Class Incremental Learningは業務でも応⽤ができそうなため。

2. Class Incremental Learning Copyright © Acroquest Technology Co., Ltd.
All rights reserved. 9 ・新しいデータとクラスが時刻tに登場する。・過去の一部のデータセットは保存し、将来の時刻（t+1,t+2…）に利用できる。・課題として破滅的忘却といわれるCatastrophic Forgettingがある。（詳細は次P）未来過去データメモリラベル ※メモリは過去のデータを一部保存する領域のこと、tを学習するときはt-1のメモリを利用する。タスクt-1 タスクt タスクt+1

2. Catastrophic Forgetting Copyright © Acroquest Technology Co., Ltd. All
rights reserved. 10 1. 破滅的忘却。学習済のモデルに対し、新しいタスクを学習させたときに、学習済モデルを学習させたタスクを忘れ、そのタスクに関連する判定の精度が下がること。 2. Incremental Learningで頻繁に議論される問題の⼀つ。

2. （Class）Incremental Learningのメリット Copyright © Acroquest Technology Co., Ltd. All
rights reserved. 11 1. 事前学習済モデルで利⽤したデータが利⽤できる数が少ない状態であっても⼀つのモデルで分類可能 ① （何も考えなければ）全てのデータで学習することになる。 ② 事前学習のデータがほぼ使えない場合、新しいデータの精度が⾼くなり、事前学習のデータに対する精度が劇的に悪化する（Catastrophic Forgetting） ③ Incremental Learningの場合、事前学習済で利⽤したものはデータの⼀部のみ利⽤すればよいため、ストレージやメモリの節約になる。 2. 学習済モデルに追加で新しいデータを学習させることで⼀から学習するよりも⾼精度なモデルを構築できる。

3. 先⾏研究 Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 12 1. PODNet: Pooled Outputs Distillation for Small-Tasks Incremental Learning 2. Maintaining Discrimination and Fairness in Class Incremental Learning

3-①. PODNet: Pooled Outputs Distillation for Small-Tasks Incremental Learning Copyright
© Acroquest Technology Co., Ltd. All rights reserved. 13 1. 過去のモデルとのDistillationを⽤いて、学習し、破滅的忘却を防ぐ。 ① 最終の出⼒だけでなく、モデルの途中の出⼒をPoolする。 2. 新旧のデータ量のアンバランスさを解消するためのLSC（Local Similarity Classifier）を提案

3-②. Maintaining Discrimination and Fairness in Class Incremental Learning Copyright
© Acroquest Technology Co., Ltd. All rights reserved. 14 1. データに対してKnowledge Distillationとクロスエントロピー誤差を⽤いて学習する。 2. 不均衡になるFCを調整するWeight Aligningを提案した。

3. 先⾏研究の課題 Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 15 事前学習したデータに対する特徴が徐々に忘却される。先行研究はDistillationの手法が適用されることがあるがやはり過去のを忘れるため、安定性と可逆性が不足する。事前学習した分類器を残して活用することで、古い特徴の本質的な構造を残しつつ、新しいデータの特徴をも獲得できる方式を提案した。

4. 提案⼿法 Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 16 1. （⼀⾔でいえば、）新しいタスクを学習させる際に、新しい特徴抽出機を学習させ、古い特徴抽出機も利⽤する⼿法 2. 学習は2Stage⽅式 ① Representation Learning – 新規データの表現を主に学習する。 ② Classifier Learning – 最終層のHeadを温度付きSoftmaxで再学習して不均衡なデータへの対策をする。 3. 従来⼿法はモデルを学習させるため、過去の特徴が徐々に忘却される。 ① 本提案⼿法はタスクが追加されるたびに新しい特徴抽出機を追加する⽅式なので、古いタスクの特徴を残せる。 ② 新しい特徴抽出機にAuxiliary Lossを⽤いることで追加タスクの特徴を獲得しやすいようにした。

4-①. Representation Learning Copyright © Acroquest Technology Co., Ltd. All
rights reserved. 17 ・過去の特徴抽出機と新しい特徴抽出機の出力を結合して、分類機を作る。・タスク追加時に新しい特徴抽出機を追加する。

4-①. Representation Learning Copyright © Acroquest Technology Co., Ltd. All
rights reserved. 18 1. 学習の流れは次の通り ① タスクが⼀つ追加されるたびに、⼀つの特徴抽出機を作成する。 – 過去の学習済パラメータは凍結し、学習中も変化がない。 ② 特徴抽出機の出⼒を結合し、分類する。 – Training LossはClassification Loss, Auxiliary Loss, Sparsity Lossの3つに区分される。（詳細は次のP） 2. Pruning ① Channel-levelでの学習可能なマスクを⽤いてパラメータ数を削減する。

4-①. Training Loss Copyright © Acroquest Technology Co., Ltd. All
rights reserved. 19 Sparsity Loss 最小限の性能低下で、最大限にパラメータ数を削る。（パラメータの利用率が反映） Auxiliary Loss ・LossはClassificationと同じ Classification Loss

4-①. Pruning Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 20 1. モデルの冗⻑性を取り除き、コンパクトな表現を核とk数る。 2. 微分可能なマスクを適⽤し、不要なパラメータを削除する。 • 学習時︓Softなマスクとして利⽤ • 推論時︓マスクが⾼い値を⽰す場合に、Pruneする。 Sigmoid Function Scale 学習可能なパラメータ Maskを適用する式学習回数に基づいてスケールを調整

4-②. Classifier Learning Copyright © Acroquest Technology Co., Ltd. All
rights reserved. 21 1. 分類器の不均衡バイアスを減らすために、最終層のHeadを固定化する。過去のデータ保持数が少ないため、不均衡バイアスが発⽣する。 2. 学習⼿順 ① Headをランダムな重みで再初期化する。 ② クラス数のバランスが取れたデータの部分集合を作成する。 ③ Headのみを温度付きSoftmaxを使って学習する。（残りはFreezeして更新させない。）

5. 実験内容 Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 22 1. Incremental Learningについて、3つのデータセットで検証 ① CIFAR100 ② ImageNet100 ③ ImageNet1000 2. これらのデータセットを各種条件で⽐較 ① 学習なし、50クラス学習済のモデルを利⽤したIncremental Learningの学習開始時の条件設定 ② Step数によるIncremental Learningのタスク数の⽐較 3. 考察に提案⼿法のAblation Studyがある。

5. 実験のパターン Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 23 No. 実験パターン説明 1 CIFAR100-B0 32x32の画像、100クラス学習されていない状態から開始する。 2 CIFAR100-B50 32x32の画像、100クラス最初の学習がクラス50学習済モデルから開始する。 3 ImageNet100-B0 ImageNetから100クラス学習されていない状態から開始する。 4 ImageNet100-B50 ImageNetから100クラス B50は、最初の学習はクラス50学習済モデルから開始する。 5 ImageNet1000-B0 ImageNet1000クラスを利⽤学習されていない状態から開始する。

5. 実験結果 Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 24 ・従来の手法と比較して高精度・Pruning手法によりパラメータ数が削減（精度は従来よりも高い）・Boundは全学習、理論上の最大値 Stepは増分クラス数とIncremental Learningの回数に影響例えば、CIFAR100-B0、5stepsの場合1Step 20クラス学習する。

reserved. 25 ・ステップを追うことに精度は下がっているが、提案手法は減少を抑えている。 →提案手法が最も良い

reserved. 26 ・パラメータ数が先行研究より少なく、精度も高い。

5. Ablation Study and Analysis Copyright © Acroquest Technology Co.,
Ltd. All rights reserved. 27 Expandable representationの手法が特に有効 E.R.: Expandable representation Aux.: Auxiliary Loss Backward Transfer for Representation Forward Transfer for Representation 過去学習したものの精度が後退していないかの指標 Analysis 過去の特徴が先のタスクで有効に働いているか Ablation Study 提案手法が他手法よりも有効であることを示した

6. 結論 Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 28 1. 本提案⼿法により、既存タスクにおいて、Class Incremental Learningの精度が向上した。 2. 提案⼿法のポイントは次の通り ① 過去の特徴抽出機を固定化して利⽤する。 ② Channel-maskを⽤いてPruningし、少量のパラメータでも⾼精度を実現。

7. 感想 Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 29 1. モデルを実業務で運営するにあたり、Class Incremental Learningの活⽤は、便利そうであった。 2. 特徴量抽出機が増えていくのでタスクの実⾏回数により計算量が増えていくのがネックになりそうなので、利⽤時には⼯夫が必要に⾒える。（例えば、毎⽇追加は難しそう）

DER: Dynamically Expandable Representation for ...

DER: Dynamically Expandable Representation for Class Incremental Learning

tereka114

More Decks by tereka114

Other Decks in Programming

Featured

Transcript

1 Copyright © Acroquest Technology Co., Ltd. All rights reserved.

⼭本⼤輝（@tereka114） 1. Acroquest Technology株式会社 ① 画像処理・⾃然⾔語処理の研究開発 2. のんびりしているエンジニアの⽇記

Acroquestの事業内容 Copyright © Acroquest Technology Co., Ltd. All rights reserved.

日本でいちばん大切にしたい会社大賞審査委員会特別賞健康経営優良法人2018/2019 はばたく中小企業・小規模事業者300社よこはまグッドバランス賞 3年連続受賞 50／114,000社３度日本１位受賞

組織の取り組みが書籍として出版されています Copyright © Acroquest Technology Co., Ltd. All rights reserved.

Outline Copyright © Acroquest Technology Co., Ltd. All rights reserved.

1. 本発表の⽬的 Copyright © Acroquest Technology Co., Ltd. All rights

2. 論⽂概要 Copyright © Acroquest Technology Co., Ltd. All rights

2. Class Incremental Learning Copyright © Acroquest Technology Co., Ltd.

2. Catastrophic Forgetting Copyright © Acroquest Technology Co., Ltd. All

2. （Class）Incremental Learningのメリット Copyright © Acroquest Technology Co., Ltd. All

3. 先⾏研究 Copyright © Acroquest Technology Co., Ltd. All rights

3-①. PODNet: Pooled Outputs Distillation for Small-Tasks Incremental Learning Copyright

3-②. Maintaining Discrimination and Fairness in Class Incremental Learning Copyright

3. 先⾏研究の課題 Copyright © Acroquest Technology Co., Ltd. All rights

4. 提案⼿法 Copyright © Acroquest Technology Co., Ltd. All rights

4-①. Representation Learning Copyright © Acroquest Technology Co., Ltd. All

4-①. Representation Learning Copyright © Acroquest Technology Co., Ltd. All

4-①. Training Loss Copyright © Acroquest Technology Co., Ltd. All

4-①. Pruning Copyright © Acroquest Technology Co., Ltd. All rights

4-②. Classifier Learning Copyright © Acroquest Technology Co., Ltd. All

5. 実験内容 Copyright © Acroquest Technology Co., Ltd. All rights

5. 実験のパターン Copyright © Acroquest Technology Co., Ltd. All rights

5. 実験結果 Copyright © Acroquest Technology Co., Ltd. All rights

5. 実験結果 Copyright © Acroquest Technology Co., Ltd. All rights

5. 実験結果 Copyright © Acroquest Technology Co., Ltd. All rights

5. Ablation Study and Analysis Copyright © Acroquest Technology Co.,

6. 結論 Copyright © Acroquest Technology Co., Ltd. All rights

7. 感想 Copyright © Acroquest Technology Co., Ltd. All rights

Evolve the Earth with Emotion of Technology Copyright © Acroquest