Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Mobile-Former: Bridging MobileNet and Transformer

tereka114
August 21, 2022

Mobile-Former: Bridging MobileNet and Transformer

第11回 全日本コンピュータビジョン勉強会(後編) 発表資料
https://kantocv.connpass.com/event/253626/

tereka114

August 21, 2022
Tweet

More Decks by tereka114

Other Decks in Programming

Transcript

  1. 1
    Copyright © Acroquest Technology Co., Ltd. All rights reserved.
    Mobile-Former:
    Bridging MobileNet and Transformer
    2022/8/21
    Acroquest Technology株式会社
    山本 大輝

    View Slide

  2. 山本 大輝
    (@tereka114)
    1. Acroquest Technology株式会社
    ① 画像処理・自然言語処理の研究開発
    2. のんびりしているエンジニアの日記
    http://nonbiri-tereka.hatenablog.com/
    3. Kaggle Competitions Grandmaster
    ① Sartorius – Cell Instance Segmentation 4th
    ② Google Landmark Retrieval 2021 5th
    ③ Happywhale – Whale and Dolphin
    Identification 11th
    4. CQ出版 Interface
    ML/AI関連記事を
    複数寄稿
    Kaggle
    Grandmaster

    View Slide

  3. Acroquestの事業内容
    Copyright © Acroquest Technology Co., Ltd. All rights reserved. 3
    IoT革新事業
    人々の生活基盤を
    変革する事業
    あらゆるモノからリアルタイムな
    データ分析を実現する
    顧客価値創造事業
    企業のビジネスを
    変革する事業
    あらゆるデータをビジネス活用し
    新たな価値創造を実現する
    AIソリューション事業
    業務のありかたを
    変革する事業
    あらゆる産業で映像解析によって
    自動化・効率化を実現する
    プラットフォーム
    開発事業
    ビジネスを
    加速させる
    開発事業
    マイクロサービスアーキテクチャによる開発や
    DevOps実践などの活動を通して
    ビジネスを強化するITシステムの構築を行う

    View Slide

  4. 機械学習分野における豊富な経験
    Copyright © Acroquest Technology Co., Ltd. All rights reserved. 4
    Acroquest社内で発足した
    データサイエンスチームYAMALEX
    プロジェクトの高度な
    問題解決に取り組んでいます。
    AWS Machine Learning
    コンピテンシーの
    パートナーとして
    認定されています。
    様々な分野・規模での、AI/MLを活用した開発・導入実績があります


    AI/ML分野での実力を、
    対外的にも認められています
    多種多様な課題をAIで解決する
    データサイエンティストチーム

    View Slide

  5. Evolve the Earth with Emotion of Technology
    「働きがいのある会社(GPTW)」
    ランキング(従業員25~99人部門)
    1位 を
    3回 受 賞
    1位 1位 1位

    View Slide

  6. 組織の取り組みが書籍として出版されています
    Copyright © Acroquest Technology Co., Ltd. All rights reserved. 6
    会社を元気にする
    「いきいき実践勉強会」
    を開催し、多くの経営者様に
    ご参加いただいております。

    View Slide

  7. 目次
    Copyright © Acroquest Technology Co., Ltd. All rights reserved. 7
    1. 論文概要
    2. 関連研究
    3. 論文手法紹介
    4. 実験
    5. その他提案手法の考察
    6. まとめ

    View Slide

  8. 1. 論文概要

    View Slide

  9. 1. 今回の論文のポイント
    Copyright © Acroquest Technology Co., Ltd. All rights reserved. 9
    Mobile-Former: Bridging MobileNet and Transformer
    執筆者 • Microsoft所属の研究者が執筆
    発表 • Oral
    論文の
    ポイント
    • MobileNetとTransformerを組み
    合わせた軽量、かつ、高精度な
    ネットワーク、Mobile-Formerの
    提案
    • MobileNetで利用されるLocalと
    Transformerで獲得されるGlobal
    な特徴を結合する。
    個人的に
    面白いと思った
    ポイント
    • Transformer+Convolutionのモ
    デルで高精度、軽量化したところ。
    この組み合わせは次に流行すると
    考えています。

    View Slide

  10. 2. 関連研究

    View Slide

  11. 2. 関連研究①:Searching for MobileNetV3
    Copyright © Acroquest Technology Co., Ltd. All rights reserved. 11
    計量モデルで有名なMobileNetのV3。
    V2からの精度改善のために、
    Squeeze-and-ExciteやNASの手法を取り入れ、モデルの構造を改善した。
    同じ
    同じぐらいの精度
    で計算量が少ない。

    View Slide

  12. 2. 関連研究②:An Image is Worth 16x16 Words:
    Transformers for Image Recognition at Scale
    Copyright © Acroquest Technology Co., Ltd. All rights reserved. 12
    Transformerでの高精度画像認識をするモデル「ViT」。
    画像からパッチを作り、そのパッチをTransformerで解析することで
    今までのCNNモデルを越えた。

    View Slide

  13. 2. 関連研究③:Early Convolutions Help
    Transformers See Better
    Copyright © Acroquest Technology Co., Ltd. All rights reserved. 13
    ViTは収束に対するLRをはじめとするハイパラの選択がセンシティブで安定性に欠けるが、
    Convolutionは安定する。ViTより前にConvolutionを入れることで、
    収束を安定させ、精度を向上させた。

    View Slide

  14. 2. 関連研究④:End-to-End Object Detection
    with Transformers
    Copyright © Acroquest Technology Co., Ltd. All rights reserved. 14
    画像から特徴量
    を抽出する。
    抽出した特徴量とObject
    Queries(パラメータは学
    習する)を使う。
    得られた特徴量を
    分類・回帰する。
    DETRと呼ばれる初のTransformerで構成されたObject Detectionのアーキテクチャ。
    通常のObject Detectionで必要なnmsなどのハイパラ群を
    不要とするような学習を実施するのが特徴

    View Slide

  15. 3. 論文手法紹介

    View Slide

  16. 3-1. 今回の論文のポイント(再掲)
    Copyright © Acroquest Technology Co., Ltd. All rights reserved. 16
    Mobile-Former: Bridging MobileNet and Transformer
    執筆者 • Microsoft所属の研究者が執筆
    発表 • Oral
    論文の
    ポイント
    • MobileNetとTransformerを組み
    合わせた軽量、かつ、高精度な
    ネットワーク、Mobile-Formerの
    提案
    • MobileNetで利用されるLocalと
    Transformerで獲得されるGlobal
    な特徴を結合する。
    個人的に
    面白いと思った
    ポイント
    • Transformer+Convolutionのモ
    デルで高精度、軽量化したところ
    この組み合わせは次に流行すると
    考えています。

    View Slide

  17. 3-2. Mobile-Formerについて:Mobile-Formerの全体像
    Copyright © Acroquest Technology Co., Ltd. All rights reserved. 17
    最も高精度かつ計算量
    が少ない
    Mobile-Former Block
    の繰り返し
    ZのTokenも入力する。
    学習するAttention用に利用
    するパラメータを指す。
    MobileNetとTransformerを参考にした構造であるMobileとFormer。
    そして、それらを相互に連結するAttention構造である
    Cross AttentionのMobile←FormerとMobile→Formerの組み合わせである
    Mobile-Former Blockを重ねたもの

    View Slide

  18. 3-2. Mobile-Formerについて:他のモデルとの比較
    Copyright © Acroquest Technology Co., Ltd. All rights reserved. 18
    精度が最も高く他の計算回数と同等なモデルより精度が高い。

    View Slide

  19. 3-2. Mobile-Formerについて:Mobile-Formerの構造
    Copyright © Acroquest Technology Co., Ltd. All rights reserved. 19
    ②Former Block
    Transformerの
    Multi-Head AttentionとFFN
    を利用。
    ①Mobile->Former
    Local FeatureとGlobal
    Featureの組み合わせ
    ③Mobile
    MobileNetの構造
    主にLocalFeatureを取得
    ④MobileGlobal FeatureとLocal
    Featureの組み合わせ
    前の入力
    (特徴マップor画像)
    Globalな特徴を示すtoken
    ※説明順にナンバリングしています。
    Mobile-Formerは4つのブロックで構成されている

    View Slide

  20. 3-2. Mobile-Formerについて:計算順序
    Copyright © Acroquest Technology Co., Ltd. All rights reserved. 20
    • MobileNetで利用される
    Inverted bottle neck構造を採用
    • ただし、活性化関数が
    ReLU->Dynamic ReLUに
    変化しており、Z’の値をパラメータに
    利用する。
    • Mobileで得られた特徴とFormerの
    結果とのAttention
    • 一般的なAttentionに含まれるQKVの
    うち、KVのみ。
    これは計算コストの削減に
    貢献している。
    • Transformerでおなじみの
    Multi-Head AttentionとFFNを
    組み合わせた構造
    • 出力結果として次の入力で利用される
    新しいtoken Z’が得られる
    • 入力画像XとTokenであるZのAttention
    • 一般的なAttentionに含まれるQKVのうち、
    Qのみ。
    これは計算コストの削減に貢献している。








    ※①~④は計算順に記載
    Mobile-Formerは4つのブロックで構成されている
    前の入力
    (特徴マップor画像)
    Globalな特徴を示すtoken

    View Slide

  21. 3-2. Mobile-Formerの要素:Dynamic ReLU
    Copyright © Acroquest Technology Co., Ltd. All rights reserved. 21
    inpeng Chen, Xiyang Dai, Mengchen Liu, Dongdong Chen, Lu Yuan, Zicheng Liu Dynamic ReLU
    https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123640341.pdf
    入力データに従ってハイパラを生成するReLU
    1. パラメータを活性化関数の入力から推定する。
    2. 次式にて出力を計算する。
    精度は従来のReLUよりも高いが
    パラメータや計算コストは推定分増える。 推定パラメータ
    入力からの
    推定パラメータ
    Dynamic ReLUの
    精度が高い

    View Slide

  22. 3-3. 物体検出におけるMobile-Formerの応用
    Copyright © Acroquest Technology Co., Ltd. All rights reserved. 22
    DETRは1/16まで、Mobile-
    FormerはDETRと比較して
    計算コストが低いため一層多い。
    Position embeddingsの追加
    空間方向に制限をかけ
    るSpatial-aware
    dynamic ReLUに置き
    換える
    Transformerを利用する物体検出モデルDETRと概ね同じだが、異なる点がある。

    View Slide

  23. 3-3. 物体検出の要素:Spatial-aware Dynamic ReLU
    Copyright © Acroquest Technology Co., Ltd. All rights reserved. 23
    同じ位置のTokenの重みの
    合計が1になるような制約を設定する。
    (i=位置、j=token)
    Mobile-Formerの物体検出において利用される活性化関数
    空間単位で制約をかけるのが従来のDynamic ReLUと異なる点
    画像分類では効果がなかったが物体検出(COCO)のmAP向上に貢献した。
    (予想だが、位置情報が重要になる物体検出だから精度が向上した・・?)

    View Slide

  24. 4. 実験

    View Slide

  25. 4-1. 実験
    Copyright © Acroquest Technology Co., Ltd. All rights reserved. 25
    項目 値
    Dataset ImageNet
    Image Size 224
    Optimizer AdamW
    (記載なし)
    Epoch 450
    Batch size 1024
    Scheduler Cosine learning rate decay
    Augmentation Mixup, auto-augmentation,
    random erasing
    ■画像分類 ■物体検出
    画像分類と物体検出の2種類でMobile-Formerの実験を行った。
    項目 値
    Dataset COCO2017
    ImageSize 800 x 1333
    Optimizer AdamW
    (lr1e-4, wd 1e-4)
    Epoch 300
    Batch size 2 x 8GPUs
    Scheduler 200epでlrを0.1倍
    Augmentation (記載なし)
    BNLayer Frozen
    (Pretrained imagenet)

    View Slide

  26. 4-2. 画像分類:実験結果
    Copyright © Acroquest Technology Co., Ltd. All rights reserved. 26
    計算量の大幅な削減と精度向上を実現
    性能が同程度のCNNと比較して
    Mobile-Formerの精度が上回る。

    View Slide

  27. 4-2. 画像分類:Ablation Study
    Copyright © Acroquest Technology Co., Ltd. All rights reserved. 27
    +Former(Transformer)と
    Dynamic ReLUの効果がある。
    Transformerで利用される
    Multi Head Attention+FFNが良い
    Tokenの数は6が最も良く、Mobile-Formerでは
    その値を採用している。
    Tokenの次元数192が最も良い。
    Mobile-Formerのパラメータに関する比較を実施

    View Slide

  28. 4-3. 物体検出:実験結果
    Copyright © Acroquest Technology Co., Ltd. All rights reserved. 28
    物体検出で提案された手法
    Spatial Dynamic ReLU,MFHead, AdaptPE
    それぞれ効果あり
    DETRと精度は同等だが、計算量と
    パラメータ数も少ない。
    同程度の規模のアーキテクチャの精度であれば、
    Mobile-Formerの計算量が最も少ない
    計算量が低い
    計算量が低い
    計算量が低い
    計算量が低い
    全ての手法が
    乗っているもの
    精度が同等で計算量が
    DETRと比較して1/4ほど

    View Slide

  29. 4-4. 実験結果のまとめ
    Copyright © Acroquest Technology Co., Ltd. All rights reserved. 29
    No. 項目 説明
    1 精度 物体検出/物体検出共に、同程度の計算量/パラメータ量
    における精度が高い。
    2 性能 本提案手法は、物体検出/物体検出共に同系統の有名な手
    法であるMobileNetV3より計算量が少ない。
    また、物体検出ではDETRと同等の精度であり、かつ、
    計算量が抑えられている。
    3 効果のあった
    取り組み
    提案手法において、次の手法の効果があった
    画像分類:Former+Bridge/Dynamic ReLU/MHA+FFN
    物体検出:Spatial Dynamic ReLU,MFHead, AdaptPE

    View Slide

  30. 5. その他提案手法の考察

    View Slide

  31. 5-1. その他手法の考察
    Copyright © Acroquest Technology Co., Ltd. All rights reserved. 31
    No. 項目 内容
    1 Cross Attentionの可視化 Attention構造であるMobile→Former,
    Mobile←Former構造を可視化した結果。それぞ
    れの構造でモデルが得ている特徴がわかる
    2 Mobile-Former vs
    MobileNetV3の性能
    本提案手法であるMobile-Formerと
    CNNベースの手法であるMobileNetV3の比較。
    実際に利用する上で性能を重視する場合、どちら
    のモデルをいつ利用すべきかの判断が可能
    精度に関連する実験の他にMobile-Formerに
    関する手法の考察を実施している。

    View Slide

  32. 5-2. Cross Attentionの可視化
    Copyright © Acroquest Technology Co., Ltd. All rights reserved. 32
    主にGlobalな特徴
    を獲得している。
    主にLocalな特徴を
    獲得している。
    低レイヤー:エッジや
    コーナ―を中心
    高レイヤー:広い
    領域を見る
    Mobile→Former、Mobile←Formerの可視化
    Global/Localな特徴を別々にとらえていることがわかる

    View Slide

  33. 5-3. Mobile-Former vs MobileNetV3の性能
    Copyright © Acroquest Technology Co., Ltd. All rights reserved. 33
     Mobile-FormerとMobileNetV3では、ほぼ同じFLOPSを持つモデル。
    画像が大きい場合は、Mobile-Formerの性能が良い。
     ただし、PyTorchの実装はConvolutionの効率が最も良いため、
    解像度が低い場合、MobileNetV3の方が高速になる。
    800付近で逆転

    View Slide

  34. 6. まとめ

    View Slide

  35. 6-1. まとめ
    Copyright © Acroquest Technology Co., Ltd. All rights reserved. 35
     Mobile-Formerと呼ばれる高精度、高性能なモデルを提案した。
    特に、Cross AttentionによるConvolution/Transformerの組み
    合わせが精度に貢献した。
     画像分類、物体検出において同系統のMobileNetV3/DETRなどと
    比較して、精度向上・性能向上を確認できた。

    View Slide

  36. 6-2. 感想
    Copyright © Acroquest Technology Co., Ltd. All rights reserved. 36
     Mobile-Formerは高速であるため、ラズパイなどに配置でき、
    モデルの最適化することでCPUで計算が可能かもしれない。
     Transformer+Convolutionを組み合わせたモデルで使いやすいの
    が、SoTAとして1年以内に登場しそう。

    View Slide

  37. Evolve the Earth with Emotion of Technology
    Copyright © Acroquest Technology Co., Ltd. All rights reserved. 37
    ご清聴ありがとうございました。

    View Slide