Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Mobile-Former: Bridging MobileNet and Transformer

Mobile-Former: Bridging MobileNet and Transformer

第11回 全日本コンピュータビジョン勉強会(後編) 発表資料
https://kantocv.connpass.com/event/253626/

tereka114

August 21, 2022
Tweet

More Decks by tereka114

Other Decks in Programming

Transcript

  1. 1 Copyright © Acroquest Technology Co., Ltd. All rights reserved.

    Mobile-Former: Bridging MobileNet and Transformer 2022/8/21 Acroquest Technology株式会社 山本 大輝
  2. 山本 大輝 (@tereka114) 1. Acroquest Technology株式会社 ① 画像処理・自然言語処理の研究開発 2. のんびりしているエンジニアの日記

    http://nonbiri-tereka.hatenablog.com/ 3. Kaggle Competitions Grandmaster ① Sartorius – Cell Instance Segmentation 4th ② Google Landmark Retrieval 2021 5th ③ Happywhale – Whale and Dolphin Identification 11th 4. CQ出版 Interface ML/AI関連記事を 複数寄稿 Kaggle Grandmaster
  3. Acroquestの事業内容 Copyright © Acroquest Technology Co., Ltd. All rights reserved.

    3 IoT革新事業 人々の生活基盤を 変革する事業 あらゆるモノからリアルタイムな データ分析を実現する 顧客価値創造事業 企業のビジネスを 変革する事業 あらゆるデータをビジネス活用し 新たな価値創造を実現する AIソリューション事業 業務のありかたを 変革する事業 あらゆる産業で映像解析によって 自動化・効率化を実現する プラットフォーム 開発事業 ビジネスを 加速させる 開発事業 マイクロサービスアーキテクチャによる開発や DevOps実践などの活動を通して ビジネスを強化するITシステムの構築を行う
  4. 機械学習分野における豊富な経験 Copyright © Acroquest Technology Co., Ltd. All rights reserved.

    4 Acroquest社内で発足した データサイエンスチームYAMALEX プロジェクトの高度な 問題解決に取り組んでいます。 AWS Machine Learning コンピテンシーの パートナーとして 認定されています。 様々な分野・規模での、AI/MLを活用した開発・導入実績があります <小売> <農業> <製造業> AI/ML分野での実力を、 対外的にも認められています 多種多様な課題をAIで解決する データサイエンティストチーム
  5. 組織の取り組みが書籍として出版されています Copyright © Acroquest Technology Co., Ltd. All rights reserved.

    6 会社を元気にする 「いきいき実践勉強会」 を開催し、多くの経営者様に ご参加いただいております。
  6. 目次 Copyright © Acroquest Technology Co., Ltd. All rights reserved.

    7 1. 論文概要 2. 関連研究 3. 論文手法紹介 4. 実験 5. その他提案手法の考察 6. まとめ
  7. 1. 今回の論文のポイント Copyright © Acroquest Technology Co., Ltd. All rights

    reserved. 9 Mobile-Former: Bridging MobileNet and Transformer 執筆者 • Microsoft所属の研究者が執筆 発表 • Oral 論文の ポイント • MobileNetとTransformerを組み 合わせた軽量、かつ、高精度な ネットワーク、Mobile-Formerの 提案 • MobileNetで利用されるLocalと Transformerで獲得されるGlobal な特徴を結合する。 個人的に 面白いと思った ポイント • Transformer+Convolutionのモ デルで高精度、軽量化したところ。 この組み合わせは次に流行すると 考えています。
  8. 2. 関連研究①:Searching for MobileNetV3 Copyright © Acroquest Technology Co., Ltd.

    All rights reserved. 11 計量モデルで有名なMobileNetのV3。 V2からの精度改善のために、 Squeeze-and-ExciteやNASの手法を取り入れ、モデルの構造を改善した。 同じ 同じぐらいの精度 で計算量が少ない。
  9. 2. 関連研究②:An Image is Worth 16x16 Words: Transformers for Image

    Recognition at Scale Copyright © Acroquest Technology Co., Ltd. All rights reserved. 12 Transformerでの高精度画像認識をするモデル「ViT」。 画像からパッチを作り、そのパッチをTransformerで解析することで 今までのCNNモデルを越えた。
  10. 2. 関連研究③:Early Convolutions Help Transformers See Better Copyright © Acroquest

    Technology Co., Ltd. All rights reserved. 13 ViTは収束に対するLRをはじめとするハイパラの選択がセンシティブで安定性に欠けるが、 Convolutionは安定する。ViTより前にConvolutionを入れることで、 収束を安定させ、精度を向上させた。
  11. 2. 関連研究④:End-to-End Object Detection with Transformers Copyright © Acroquest Technology

    Co., Ltd. All rights reserved. 14 画像から特徴量 を抽出する。 抽出した特徴量とObject Queries(パラメータは学 習する)を使う。 得られた特徴量を 分類・回帰する。 DETRと呼ばれる初のTransformerで構成されたObject Detectionのアーキテクチャ。 通常のObject Detectionで必要なnmsなどのハイパラ群を 不要とするような学習を実施するのが特徴
  12. 3-1. 今回の論文のポイント(再掲) Copyright © Acroquest Technology Co., Ltd. All rights

    reserved. 16 Mobile-Former: Bridging MobileNet and Transformer 執筆者 • Microsoft所属の研究者が執筆 発表 • Oral 論文の ポイント • MobileNetとTransformerを組み 合わせた軽量、かつ、高精度な ネットワーク、Mobile-Formerの 提案 • MobileNetで利用されるLocalと Transformerで獲得されるGlobal な特徴を結合する。 個人的に 面白いと思った ポイント • Transformer+Convolutionのモ デルで高精度、軽量化したところ この組み合わせは次に流行すると 考えています。
  13. 3-2. Mobile-Formerについて:Mobile-Formerの全体像 Copyright © Acroquest Technology Co., Ltd. All rights

    reserved. 17 最も高精度かつ計算量 が少ない Mobile-Former Block の繰り返し ZのTokenも入力する。 学習するAttention用に利用 するパラメータを指す。 MobileNetとTransformerを参考にした構造であるMobileとFormer。 そして、それらを相互に連結するAttention構造である Cross AttentionのMobile←FormerとMobile→Formerの組み合わせである Mobile-Former Blockを重ねたもの
  14. 3-2. Mobile-Formerについて:他のモデルとの比較 Copyright © Acroquest Technology Co., Ltd. All rights

    reserved. 18 精度が最も高く他の計算回数と同等なモデルより精度が高い。
  15. 3-2. Mobile-Formerについて:Mobile-Formerの構造 Copyright © Acroquest Technology Co., Ltd. All rights

    reserved. 19 ②Former Block Transformerの Multi-Head AttentionとFFN を利用。 ①Mobile->Former Local FeatureとGlobal Featureの組み合わせ ③Mobile MobileNetの構造 主にLocalFeatureを取得 ④Mobile<-Former Global FeatureとLocal Featureの組み合わせ 前の入力 (特徴マップor画像) Globalな特徴を示すtoken ※説明順にナンバリングしています。 Mobile-Formerは4つのブロックで構成されている
  16. 3-2. Mobile-Formerについて:計算順序 Copyright © Acroquest Technology Co., Ltd. All rights

    reserved. 20 • MobileNetで利用される Inverted bottle neck構造を採用 • ただし、活性化関数が ReLU->Dynamic ReLUに 変化しており、Z’の値をパラメータに 利用する。 • Mobileで得られた特徴とFormerの 結果とのAttention • 一般的なAttentionに含まれるQKVの うち、KVのみ。 これは計算コストの削減に 貢献している。 • Transformerでおなじみの Multi-Head AttentionとFFNを 組み合わせた構造 • 出力結果として次の入力で利用される 新しいtoken Z’が得られる • 入力画像XとTokenであるZのAttention • 一般的なAttentionに含まれるQKVのうち、 Qのみ。 これは計算コストの削減に貢献している。 ① ② ③ ④ ① ② ③ ④ ※①~④は計算順に記載 Mobile-Formerは4つのブロックで構成されている 前の入力 (特徴マップor画像) Globalな特徴を示すtoken
  17. 3-2. Mobile-Formerの要素:Dynamic ReLU Copyright © Acroquest Technology Co., Ltd. All

    rights reserved. 21 inpeng Chen, Xiyang Dai, Mengchen Liu, Dongdong Chen, Lu Yuan, Zicheng Liu Dynamic ReLU https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123640341.pdf 入力データに従ってハイパラを生成するReLU 1. パラメータを活性化関数の入力から推定する。 2. 次式にて出力を計算する。 精度は従来のReLUよりも高いが パラメータや計算コストは推定分増える。 推定パラメータ 入力からの 推定パラメータ Dynamic ReLUの 精度が高い
  18. 3-3. 物体検出におけるMobile-Formerの応用 Copyright © Acroquest Technology Co., Ltd. All rights

    reserved. 22 DETRは1/16まで、Mobile- FormerはDETRと比較して 計算コストが低いため一層多い。 Position embeddingsの追加 空間方向に制限をかけ るSpatial-aware dynamic ReLUに置き 換える Transformerを利用する物体検出モデルDETRと概ね同じだが、異なる点がある。
  19. 3-3. 物体検出の要素:Spatial-aware Dynamic ReLU Copyright © Acroquest Technology Co., Ltd.

    All rights reserved. 23 同じ位置のTokenの重みの 合計が1になるような制約を設定する。 (i=位置、j=token) Mobile-Formerの物体検出において利用される活性化関数 空間単位で制約をかけるのが従来のDynamic ReLUと異なる点 画像分類では効果がなかったが物体検出(COCO)のmAP向上に貢献した。 (予想だが、位置情報が重要になる物体検出だから精度が向上した・・?)
  20. 4-1. 実験 Copyright © Acroquest Technology Co., Ltd. All rights

    reserved. 25 項目 値 Dataset ImageNet Image Size 224 Optimizer AdamW (記載なし) Epoch 450 Batch size 1024 Scheduler Cosine learning rate decay Augmentation Mixup, auto-augmentation, random erasing ▪画像分類 ▪物体検出 画像分類と物体検出の2種類でMobile-Formerの実験を行った。 項目 値 Dataset COCO2017 ImageSize 800 x 1333 Optimizer AdamW (lr1e-4, wd 1e-4) Epoch 300 Batch size 2 x 8GPUs Scheduler 200epでlrを0.1倍 Augmentation (記載なし) BNLayer Frozen (Pretrained imagenet)
  21. 4-2. 画像分類:実験結果 Copyright © Acroquest Technology Co., Ltd. All rights

    reserved. 26 計算量の大幅な削減と精度向上を実現 性能が同程度のCNNと比較して Mobile-Formerの精度が上回る。
  22. 4-2. 画像分類:Ablation Study Copyright © Acroquest Technology Co., Ltd. All

    rights reserved. 27 +Former(Transformer)と Dynamic ReLUの効果がある。 Transformerで利用される Multi Head Attention+FFNが良い Tokenの数は6が最も良く、Mobile-Formerでは その値を採用している。 Tokenの次元数192が最も良い。 Mobile-Formerのパラメータに関する比較を実施
  23. 4-3. 物体検出:実験結果 Copyright © Acroquest Technology Co., Ltd. All rights

    reserved. 28 物体検出で提案された手法 Spatial Dynamic ReLU,MFHead, AdaptPE それぞれ効果あり DETRと精度は同等だが、計算量と パラメータ数も少ない。 同程度の規模のアーキテクチャの精度であれば、 Mobile-Formerの計算量が最も少ない 計算量が低い 計算量が低い 計算量が低い 計算量が低い 全ての手法が 乗っているもの 精度が同等で計算量が DETRと比較して1/4ほど
  24. 4-4. 実験結果のまとめ Copyright © Acroquest Technology Co., Ltd. All rights

    reserved. 29 No. 項目 説明 1 精度 物体検出/物体検出共に、同程度の計算量/パラメータ量 における精度が高い。 2 性能 本提案手法は、物体検出/物体検出共に同系統の有名な手 法であるMobileNetV3より計算量が少ない。 また、物体検出ではDETRと同等の精度であり、かつ、 計算量が抑えられている。 3 効果のあった 取り組み 提案手法において、次の手法の効果があった 画像分類:Former+Bridge/Dynamic ReLU/MHA+FFN 物体検出:Spatial Dynamic ReLU,MFHead, AdaptPE
  25. 5-1. その他手法の考察 Copyright © Acroquest Technology Co., Ltd. All rights

    reserved. 31 No. 項目 内容 1 Cross Attentionの可視化 Attention構造であるMobile→Former, Mobile←Former構造を可視化した結果。それぞ れの構造でモデルが得ている特徴がわかる 2 Mobile-Former vs MobileNetV3の性能 本提案手法であるMobile-Formerと CNNベースの手法であるMobileNetV3の比較。 実際に利用する上で性能を重視する場合、どちら のモデルをいつ利用すべきかの判断が可能 精度に関連する実験の他にMobile-Formerに 関する手法の考察を実施している。
  26. 5-2. Cross Attentionの可視化 Copyright © Acroquest Technology Co., Ltd. All

    rights reserved. 32 主にGlobalな特徴 を獲得している。 主にLocalな特徴を 獲得している。 低レイヤー:エッジや コーナ―を中心 高レイヤー:広い 領域を見る Mobile→Former、Mobile←Formerの可視化 Global/Localな特徴を別々にとらえていることがわかる
  27. 5-3. Mobile-Former vs MobileNetV3の性能 Copyright © Acroquest Technology Co., Ltd.

    All rights reserved. 33  Mobile-FormerとMobileNetV3では、ほぼ同じFLOPSを持つモデル。 画像が大きい場合は、Mobile-Formerの性能が良い。  ただし、PyTorchの実装はConvolutionの効率が最も良いため、 解像度が低い場合、MobileNetV3の方が高速になる。 800付近で逆転
  28. 6-1. まとめ Copyright © Acroquest Technology Co., Ltd. All rights

    reserved. 35  Mobile-Formerと呼ばれる高精度、高性能なモデルを提案した。 特に、Cross AttentionによるConvolution/Transformerの組み 合わせが精度に貢献した。  画像分類、物体検出において同系統のMobileNetV3/DETRなどと 比較して、精度向上・性能向上を確認できた。
  29. 6-2. 感想 Copyright © Acroquest Technology Co., Ltd. All rights

    reserved. 36  Mobile-Formerは高速であるため、ラズパイなどに配置でき、 モデルの最適化することでCPUで計算が可能かもしれない。  Transformer+Convolutionを組み合わせたモデルで使いやすいの が、SoTAとして1年以内に登場しそう。
  30. Evolve the Earth with Emotion of Technology Copyright © Acroquest

    Technology Co., Ltd. All rights reserved. 37 ご清聴ありがとうございました。