ML_Loft_4_エッジ推論.pdf

岡田真太郎 - Preferred Networks エンジニアエッジ推論の前にやること

エッジ推論の速度を決定する3つの要素入力画像サイズデバイスモデル FPN BboxHead MaskHead ResNet50

モデル INPUT 計算量入力画像サイズ

モデル INPUT モデル INPUT INPUT 計算量 0.7倍モデルそのままタテ・ヨコ 0.7倍
するだけで入力画像サイズ

INPUT INPUT INPUT 計算量 0.7倍計算量半分！モデルそのままタテ・ヨコ 0.7倍
するだけで入力画像サイズモデルモデル

入力画像サイズ INPUT INPUT INPUT 0.7倍精度は大丈夫？計算量半分！

逆に聞くけどそのタスクに精度と速度はどれくらい必要なんですか？？？？？？？？？？？エッジ推論の前に，さっさとハイエンドのデバイス（例えばNVIDIAのGPU）使ってわざと精度落としたり速度遅くしてモデルの必要性能の下限を明らかにしましょう!!

精度と速度はトレードオフエッジ推論は原則として精度か速度が落ちるどれくらいの精度と速度が必要なのかを見極めるのが重要精度速度タスクに必要な精度と速度

精度速度精度と速度はトレードオフエッジ推論は原則として精度か速度が落ちるどれくらいの精度と速度が必要なのかを見極めるのが重要

この領域にあればタスクがこなせる精度速度精度と速度はトレードオフエッジ推論は原則として精度か速度が落ちるどれくらいの精度と速度が必要なのかを見極めるのが重要

精度速度オリジナルのモデル on NVIDIA GPU 精度と速度はトレードオフエッジ推論は原則として精度か速度が落ちるどれくらいの精度と速度が必要なのかを見極めるのが重要

精度速度デバイスを変えると速度が落ちる精度と速度はトレードオフエッジ推論は原則として精度か速度が落ちるどれくらいの精度と速度が必要なのかを見極めるのが重要

精度速度入力画像サイズで精度と速度を調整精度と速度はトレードオフエッジ推論は原則として精度か速度が落ちるどれくらいの精度と速度が必要なのかを見極めるのが重要

精度速度入力画像サイズで精度と速度を調整精度と速度はトレードオフエッジ推論は原則として精度か速度が落ちるどれくらいの精度と速度が必要なのかを見極めるのが重要再学習の必要なし手軽

精度速度精度と速度はトレードオフエッジ推論は原則として精度か速度が落ちるどれくらいの精度と速度が必要なのかを見極めるのが重要モデルを修正するとグラフが全体的に右下に移動する

モデル

モデル ChainerCVの MaskRCNNFPNResNet50 （＝インスタンスセグメンテーションのモデル）

ChainerCVの MaskRCNNFPNResNet50 （＝インスタンスセグメンテーションのモデル）画像は https://www.oreilly.com/ideas/introducing-capsule-networks から引用

モデル

拡大

拡大 FPN BboxHead MaskHead ResNet50

FPN BboxHead 拡大 MaskHead ResNet50 どの部分の計算量が多いのか？

モデル拡大 FPN BboxHead MaskHead ResNet50 どの部分の計算量が多いのか？掛け算の総量と考えればOK

モデルの計算量を算出してくれる Chainer Computational Cost https://github.com/belltailjp/chainer_computational_cost import chainer import numpy as
np from chainer_computational_cost import ComputationalCostHook net = chainer.links.VGG16Layers() x = np.random.random((1, 3, 224, 224)).astype(np.float32) with chainer.no_backprop_mode(), chainer.using_config('train', False): with ComputationalCostHook(fma_1flop=True) as cch: y = net(x) cch.show_report(unit='G', mode='md')

https://github.com/belltailjp/chainer_computational_cost import chainer import numpy as np from chainer_computational_cost import
ComputationalCostHook net = chainer.links.VGG16Layers() x = np.random.random((1, 3, 224, 224)).astype(np.float32) with chainer.no_backprop_mode(), chainer.using_config('train', False): with ComputationalCostHook(fma_1flop=True) as cch: y = net(x) cch.show_report(unit='G', mode='md') Markdown形式で表を出してくれるモデルの計算量を算出してくれる Chainer Computational Cost

計算量

計算量 Convolutionがモデル全体の計算量を決めることが分かる

Convの中でも一部が多くの計算量を占めているたった２つのConvがモデル全体の計算量の 1/3以上を占めている MaskHead FPN ResNet50

Convolution Layerの計算量入力チャンネル数: N 出力チャンネル数： N kernelサイズ： k 入出力特徴マップサイズ：（H,
W）

W）入力画像サイズが効いてくる部分

W）約0.7倍

W）計算量半分！約0.7倍

拡大 FPN BboxHead MaskHead ResNet50

拡大 FPN BboxHead MaskHead ResNet50 軽量化全体からすると約25%の削減もちろん精度は変わる
軽量化

モデルまとめモデルのConvのチャンネル数を減らすと計算量が減る重たいConvはChainer-computational-costで調べられる入力画像サイズの調整と比べると労力がかかる

デバイス • NVIDIA GPUは計算量が多いなら効率が良い • Intel GPUがわりと速い • QualcommのSnapdragonはGPUと
DSPが使えて，DSPはint8化が必須

DSPが使えて，DSPはint8化が必須計算量/秒のことモデルによって異なることに注意

DSPが使えて，DSPはint8化が必須計算量/秒のことモデルによって異なることに注意モデルの選定では計算量だけでなく対象のデバイスで実行した場合の効率にも注意する必要がある

DSPが使えて，DSPはint8化が必須つまり，入力画像サイズやバッチサイズが大きい / Convのチャンネル数が大きいモデルの場合

DSPが使えて，DSPはint8化が必須裏を返すと，計算量が少ない場合は演算器が無駄になる特にメモリ転送の比率が大きいモデルでは効率が悪い (ShuffleNet, MobileNet系)

DSPが使えて，DSPはint8化が必須いわゆるIntel Graphics Intel CPUにたいてい付属しているIntel製のGPU Intel製の推論フレームワークOpenVINOが使える

DSPが使えて，DSPはint8化が必須複数のチップ，ARMのCPUと GPUとDSPが載ったSoC CPUでも推論はできるが非力

DSPが使えて，DSPではint8化が必須いわゆる量子化，精度が保てるかはモデル次第単純なモデルではほぼ問題ない量子化用のツールはSNPEに付属

使いたいチップのメーカーが出しているものを使えば大抵OK • NVIDIAならTensorRT • IntelならOpenVINO（a.k.a opencv/dldt） • QualcommならSNPE オペレータ間を埋める必要があれば
Menoh/Chainer-Compilerを使う推論用のフレームワークは？

使いたいチップのメーカーが出しているものを使えば大抵OK • NVIDIAならTensorRT • IntelならOpenVINO（a.k.a opencv/dldt） • QualcommならSNPE オペレータ間を埋める必要があれば
Menoh/Chainer-Compilerを使う推論用のフレームワークは？チップの性能を一番引き出せるのはそのチップメーカー手元でやる小手先の最適化はほぼ無意味

• カンタンにできて効果のあることから始めよう • 入力サイズの調整は手軽に精度と速度の調節がしやすい • モデルはConvのチャンネルを減らすと計算量が減る • モデルによって実行効率が異なることに注意
• 些細な最適化にこだわるな（フットワークが重くなる，製品の価値に結びつかない，どうせ無駄になる）全体のまとめ

ML_Loft_4_エッジ推論.pdf

ML_Loft_4_エッジ推論.pdf

Other Decks in Technology

Featured

Transcript