TensorRT化のワークフロー事例紹介 / CUDA Acceleration Seminar 4 20220825

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Copyright © Fixstars Group ● CUDAに関連する様々な技術情報を、CUDA高速化セミナーとして発信しています ● 今回は、深層学習を題材とし、学習済みモデルをGPU向けに最適化するための標準ツールになっている TensorRT について、ワークフローの事例を紹介します ● こんな方に向いています ○ これから TensorRT を使ってみようと考えている ○ 普段使用しているが最新の情報をキャッチアップしたい本講演の位置づけ 4 https://speakerdeck.com/fixstars/cudagao-su- hua-seminavol-dot-1-hua-xiang-chu-li- arugorizumufalsegao-su-hua https://speakerdeck.com/fixstars/cudagao-su- hua-seminavol-dot-2-cudaakitekutiyafalsejin- hua https://speakerdeck.com/fixstars/cudagao-su- hua-seminavol-dot-3-sohutoueagao-su-hua- toshen-ceng-xue-xi vol.1 画像処理アルゴリズムの高速化 vol.2 CUDAアーキテクチャの進化 vol.3 ソフトウェア高速化と深層学習

Slide 5

Slide 5 text

Copyright © Fixstars Group 発表者紹介冨田明彦ソリューションカンパニー執行役員 2008年に入社。金融、医療業界において、ソフトウェア高速化業務に携わる。その後、新規事業企画、半導体業界の事業を担当し、現職。 5 前川利紀ソリューション第3事業部シニアエンジニア 2017年入社。元は組み込みエンジニアだが現在はAI関連製品の開発に従事。仕事でも趣味でも ONNXモデルを使うことが多い。

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Copyright © Fixstars Group フィックスターズの強みコンピュータの性能を最大限に引き出す、ソフトウェア高速化のエキスパート集団ハードウェアの知見アルゴリズム実装力各産業・研究分野の知見 7 目的の製品に最適なハードウェアを見抜き、その性能をフル活用するソフトウェアを開発します。ハードウェアの特徴と製品要求仕様に合わせて、アルゴリズムを改良して高速化を実現します。開発したい製品に使える技術を見抜き、実際に動作する実装までトータルにサポートします。

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Copyright © Fixstars Group サービス提供分野 9 半導体自動車産業機器生命科学金融 ●NAND型フラッシュメモリ向けファームウェア開発 ●次世代AIチップの開発環境基盤 ●自動運転の高性能化、実用化 ●次世代パーソナルモビリティの研究開発 ●Smart Factory実現への支援 ●マシンビジョンシステムの高速化 ●ゲノム解析の高速化 ●医用画像処理の高速化 ●AI画像診断システムの研究開発 ●デリバティブシステムの高速化 ●HFT(アルゴリズムトレード)の高速化

Slide 10

Slide 10 text

Copyright © Fixstars Group サービス領域様々な領域でソフトウェア開発サービスを提供しています。大量データの高速処理は、お客様の製品競争力の源泉となっています。 10 組込み高速化画像処理・アルゴリズム開発分散並列システム開発 GPU向け高速化 FPGAを活用したシステム開発量子コンピューティング AI・深層学習自動車向けソフトウェア開発フラッシュメモリ向けファームウェア開発

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Copyright © Fixstars Group 画像処理アルゴリズム開発高速な画像処理需要に対して、経験豊富なエンジニアが責任を持って製品開発をご支援します。お客様の課題高度な画像処理や深層学習等のアルゴリズムを開発できる人材が社内に限られている機能要件は満たせそうだが、ターゲット機器上で性能要件までクリアできるか不安製品化に結びつくような研究ができていないご支援内容深層学習ネットワーク精度の改善様々な手法を駆使して深層学習ネットワークの精度を改善論文調査・改善活動論文調査から最先端の手法の探索性能向上に向けた改善活動を継続アルゴリズム調査・改変課題に合ったアルゴリズム・実装手法を調査製品実装に向けて適切な改変を実施

Slide 13

Slide 13 text

Copyright © Fixstars Group GPU向け高速化高性能なGPUの本来の性能を十分に引き出し、ソフトウェアの高速化を実現します。お客様の課題 GPUで計算してみたが期待した性能が出ない GPU/CPUを組み合わせた全体として最適な設計がしたいご支援内容 GPU高速化に関するコンサルティング CPU・GPU混在環境でのシステム設計アルゴリズムのGPU向け移植 GPUプログラム高速化継続的な精度向上原価を維持したまま機能を追加するため、もう少し処理を速くしたい品質確保のため、精度を上げたく演算量は増えるが性能は維持したい

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Copyright © Fixstars Group TensorRT 15 ※画像引用元：https://developer.nvidia.com/tensorrt ● TensorRT ○ DNNモデルをNVIDIAハードウェア向けに変換して推論処理を高速化してくれる ● やってくれること ○ 量子化（INT8化、fp16化） ○ 複数レイヤの結合 ○ チューニングパラメータの自動選択 ○ 実行ハードの自動選択 ■ CUDA Core/TensorCore ○ メモリ管理、最適な実行方法など

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Copyright © Fixstars Group ONNX ● DNNモデルをフレームワーク間で交換するためのフォーマット 17 入力出力・モデル入力・グラフ構造 - オペレータ - 重みデータ・モデル出力 input[] ・・・モデル入力定義 output[] ・・・モデル出力定義 initializer[] ・・・固定値、重み node[] ・・・オペレータ ModelProto GraphProto DNNモデル ONNX

Slide 18

Slide 18 text

Copyright © Fixstars Group ONNX以外の対応状況 ● Caffe Parser and UFF ParserはTensorRT 7.0でdeprecated（※１） ○ TensorRT 9.0で削除されそう… ● tf2onnx, keras2onnx, TF-TRT への移行が推奨されている ● TF-TRT ○ TensorFlowの１機能として取り込まれている ■ ONNX変換せず直接モデルをTensorRT変換する ■ TensorFlowでそのまま推論を行える ○ PyTorchにもTorch-TensorRTというのがある 18 ※１：https://docs.nvidia.com/deeplearning/tensorrt/release-notes/tensorrt-8.html#rel_8-0-1 > APIs deprecated before TensorRT 8.0 will be removed in TensorRT 9.0

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Copyright © Fixstars Group 固定値の定数化 ● TensorRTは重みなどの入力がinitializerのケースのみ対応している場合がある ● initializer ○ ONNXファイルで定数値を保持しているリスト（配列） ● ONNXモデル出力した際に固定値を計算によって算出するモデルが生成されるケースがある ○ 事前に計算を実行してinitializerに変換が可能（Constant folding） ● Constant foldingに対応しているツール ○ ONNX Simplifier （有志作成。カスタムオペレータはDLL開発が必要。※１） ○ ONNX GraphSurgeon （NVIDIA製。Python呼び出しコードが必要。※２） ○ Polygraphy （NVIDIA製。※３） 21 ※１：https://github.com/daquexian/onnx-simplifier ※２：https://github.com/NVIDIA/TensorRT/tree/main/tools/onnx-graphsurgeon ※３：https://github.com/NVIDIA/TensorRT/tree/main/tools/Polygraphy

Slide 22

Slide 22 text

Copyright © Fixstars Group 変換時のエラー ● オペレータがサポート対象外 ○ レイヤーごとの対応表（※１） ○ ONNXオペレータの対応表（※２） ● 特定のパラメータなどに対応していない ○ 基本的に変換時のエラーメッセージをよく読むしかない ■ 問題切り分けのため普段から--verboseで変換実行しておくと良い ○ パワーユーザであればソースコード（※３）で直接assertしている箇所を確認すれば詳細な条件が分かる ● TensorRTのバグ ○ 「Internal Error」と表示されたらバグの可能性 ○ エラーメッセージに表示されている.cppファイル名がGitHubのソースコードから見つからなければTensorRT本体（非公開）の可能性 22 ※１：https://docs.nvidia.com/deeplearning/tensorrt/support-matrix/index.html#layers-precision-matrix ※２：https://github.com/onnx/onnx-tensorrt/blob/main/docs/operators.md ※３：https://github.com/onnx/onnx-tensorrt/blob/main/builtin_op_importers.cpp

Slide 23

Slide 23 text

Copyright © Fixstars Group モデルの修正 ● 重みをもたないオペレータは別の等価なオペレータに置き換え可能 ○ 単純な四則演算など ● 重みをもつオペレータや等価なオペレータに置き換え不能な場合 ○ 再学習が必要 ○ 推論精度が悪化するケースも ● 前処理、後処理でエラーになっている場合 ○ ONNXエクスポートの範囲外にする方法もある ○ 推論プラグラム側に処理を移動させるイメージ ○ 当然TensorRTの恩恵を受けられない 23

Slide 24

Slide 24 text

Copyright © Fixstars Group バグ報告 ● TensorRT本体の不具合が疑われる場合、思い切ってバグ報告・問い合わせしてみた方が良い ○ ただし英語… ● 必要な準備 ○ 再現環境の情報を整理する ○ 再現用の最小セットONNXモデルを作成する ■ Polygraphyを使う場合のサンプルがある（※１） ○ trtexecコマンドで再現する手順を整理し、再現時のログを取得する ● バグ報告先 ○ ONNXパーサー、TensorRTプラグインはGithub（※２） ○ 上記以外はNVIDIAフォーラム（※３） 24 ※１：https://github.com/NVIDIA/TensorRT/tree/main/tools/Polygraphy/examples/cli/debug/02_reducing_failing_onnx_models ※２：https://github.com/NVIDIA/TensorRT/issues ※３：https://forums.developer.nvidia.com/c/ai-data-science/deep-learning/tensorrt/92

Slide 25

Slide 25 text

Copyright © Fixstars Group キャリブレーション ● INT8で推論する場合はキャリブレーションが必要 ○ モデルをエンジンファイルに変換する際に一緒にキャリブレーションを行う ○ 昔は変換プログラムを作成する必要があったが、今はPolygraphyにデータ読み込みPythonスクリプトを渡すだけで良くなった（※１） ● キャリブレーションに使用するデータ ○ 実際に推論を行う環境に近いデータ ○ ImageNetの画像分類タスクなら500画像（※２） 25 ※１： https://github.com/NVIDIA/TensorRT/tree/main/tools/Polygraphy/examples/cli/convert/01_int8_calibr ation_in_tensorrt#running-the-example ※２：https://docs.nvidia.com/deeplearning/tensorrt/developer-guide/index.html#enable_int8_c

Slide 26

Slide 26 text

Slide 27

Slide 27 text

Copyright © Fixstars Group 変換事例の概要（1） ● やったこと ○ PyTorch版EfficientDet実装（※１）をTensorRT化 ● 環境 ○ PC（ONNXモデル出力） ■ Ubuntu 18.04 ■ PyTorch v1.7.0 ■ torchvision v0.8.0 ○ Jetson AGX Xavier開発者キット（TensorRT変換、推論実行） ■ 初回：JetPack 4.6 （TensorRT 8.0.1） ■ 追試：JetPack 5.0 Developer Preview（TensorRT 8.4.0 Early Access） 27 ※１：Toan Dao Minh. 2019. A Pytorch Implementation of EfficientDet Object Detection https://github.com/toandaominh1997/EfficientDet.Pytorch

Slide 28

Slide 28 text

Copyright © Fixstars Group 変換事例の概要（2） ● 前処理 ○ Float化、[0, 255]→[0.0, 1.0]化、正規化、512x512リサイズ ● モデル（EfficientDet-D0 ※１） ○ バックボーンネットワーク：EfficientNet-B0（※２） ○ neck層：BiFPN ○ head層：RetinaHead（RetinaNetのhead層※３） ○ 入力：[batch_size, 3, 512, 512] ○ 出力：[batch_size, 49104, num_classes], [batch_size, 49104, 4] ■ 49104 = [64x64(1/8), 32x32(1/16), 16x16(1/32), 8x8(1/64), 4x4(1/128)] × num_anchors(9) ● 後処理 ○ （ONNX化対象）閾値以下のBboxを破棄、 Bboxのデコード、 Non Maximum Suppression ○ （ONNX化対象外）Bboxのスケーリング、ClassIDの文字列化、画像への重畳、画像ファイルの保存 28 ※１：https://arxiv.org/abs/1911.09070 ※２：https://arxiv.org/abs/1905.11946 ※３：https://arxiv.org/abs/1708.02002

Slide 29

Slide 29 text

Copyright © Fixstars Group 問題解決事例 - Resizeオペレータ（1） ● Resizeオペレータ ○ output_feature = Resize(input_feature, roi, scales, sizes) ○ Featureを2倍に拡大する箇所で使用されていた（「画像の拡大」のイメージ） ● エラーの内容 ○ [graph.cpp::computeInputExecutionUses::519] Error Code 9: Internal Error (node_of_floor_0: IUnaryLayer cannot be used to compute a shape tensor) ● 原因 ○ ONNXエクスポート時に拡大サイズ指定がfloat型で計算するように出力されていた ■ 今回のケースは2倍なので整数型でも計算可能 ■ ONNXモデルにはCastで整数型にするオペレータも出力されていたがダメだった ○ TensorRTはfloat型での指定にv8.4まで未対応だった ● NVIDIAフォーラムに報告済み ○ より詳細な内容はブログの報告記事を参照（※１） 29 ※１： https://maminus.hatenadiary.org/entry/2022/01/12/200806

Slide 30

Slide 30 text

Copyright © Fixstars Group 問題解決事例 - Resizeオペレータ（2） PyTorchでのexport実験 30 # F.interpolate() -> Resize の影響チェック import torch class Resize_x2(torch.nn.Module): def __init__(self, use_scale=False): super().__init__() self.use_scale = use_scale def forward(self, input): if self.use_scale: kwargs = dict(scale_factor=2) else: scaled_hw = list(input.shape[2:]) scaled_hw[0] *= 2 scaled_hw[1] *= 2 kwargs = dict(size=scaled_hw) y = torch.nn.functional.interpolate(input, **kwargs) return y dummy_input = torch.ones([16, 3, 224, 224], dtype=torch.float32) model = Resize_x2(use_scale=True) torch.onnx.export(model, dummy_input, 'resize_use_scale.onnx', verbose=True, input_names=['in'], output_names=['out'], opset_version=11)

Slide 31

Slide 31 text

Slide 32

Slide 32 text

Slide 33

Slide 33 text

Copyright © Fixstars Group 問題解決事例 - Non Maximum Suppression（2） ● TensorRTはNon Maximum Suppressionに直接対応していない ○ プラグインで対応している ○ ONNXのNonMaxSuppressionオペレータはプラグインに変換される ● I/Fが異なる ○ torchvision → ONNX → プラグインだとバッチサイズ1固定になってしまう ○ ONNX変換時に直接プラグイン向けオペレータ出力するのが一番自由度が高い 33 score_threshold 戻り値 bboxをクラスごとに別に扱うかバッチ次元 ONNX ありインデックスクラスごとに別々のbbox 対応 torchvision なしインデックス全クラス共通のbbox 非対応 TensorRTプラグインあり値（Bboxそのもの）どちらにも設定できる対応

Slide 34

Slide 34 text

Copyright © Fixstars Group 問題解決事例 - Non Maximum Suppression（3） ● ONNX変換時にONNXオペレータではなくTensorRTプラグイン向けオペレータを出力する ○ カスタムオペレータで実現可能 ■ PyTorchのカスタムオペレータからONNXのカスタムオペレータを出力する ○ TensorRTプラグインの出力テンソル（Bbox数）はSliceオペレータに使えない ■ 後段の処理はONNX出力対象外に変更（推論プログラム側で後段処理を実行する） ● PyTorchのカスタムオペレータ ○ ONNX出力定義（Pythonコード） ○ カスタムオペレータ実装（C++コード） 34

Slide 35

Slide 35 text

Copyright © Fixstars Group 問題解決事例 - Non Maximum Suppression（4） ● ONNXのカスタムオペレータとして出力 35 @parse_args('v', 'v', 'i', 'f', 'f') def symbolic_efficient_nms_standard(g, boxes, scores, num_boxes, score_threshold, iou_threshold): num_detections, detection_boxes, detection_scores, detection_classes = g.op('tensorrt::EfficientNMS_TRT', boxes, scores, outputs=4, score_threshold_f=score_threshold, iou_threshold_f=iou_threshold, max_output_boxes_i=num_boxes, background_class_i=-1, score_activation_i=0, box_coding_i=0, ) return num_detections, detection_boxes, detection_scores, detection_classes def forward(self, input): … torch.ops.load_library('custom_ops.so') return torch.ops.custom_ops.efficient_nms_standard(transformed_anchors, confs, num_boxes, self.threshold, self.iou_threshold) register_custom_op_symbolic('custom_ops::efficient_nms_standard‘, symbolic_efficient_nms_standard, 11) 「ドメイン名::プラグイン名」で ONNXのカスタムオペレータ出力 PyTorchの推論（ONNXエクスポート）時はカスタムオペレータのDLLを呼び出す

Slide 36

Slide 36 text

Copyright © Fixstars Group 問題解決事例 - Non Maximum Suppression（5） ● DLLのダミー実装 ○ ONNXのエクスポート時には最低限テンソルのshapeは正しくないとダメ ○ データの個数や内容によって分岐するようなケースはそれらしい値を出力しないと意図する ONNXモデルが生成できない ○ 今回はNMS処理を行わずそのままBboxを返すだけの実装とした 36 #include #include std::tuple efficient_nms_standard(torch::Tensor boxes, torch::Tensor scores, std::int64_t num_boxes, double score_threshold, double iou_threshold) { auto nmsed_scores = scores.index({"...", 0}); return {torch::tensor({boxes.sizes()[1]}, torch::dtype(torch::kInt64)).reshape({-1, 1}), boxes, nmsed_scores, torch::zeros(nmsed_scores.sizes(), torch::dtype(torch::kInt64))}; } TORCH_LIBRARY(custom_ops, torch_lib) { torch_lib.def("efficient_nms_standard", &efficient_nms_standard); }

Slide 37

Slide 37 text

Copyright © Fixstars Group 所感 ● 対象モデルやONNXのオペレータに詳しくないとトラブルシューティングが難しい ○ エラーメッセージを読んでモデルのどの箇所なのか分からないと対処ができない ○ 対象モデルの構造やソースコードの構造はある程度把握しておいた方が良い ● すでにTensorRT化済みモデルがあるならそちらを使った方がよさそう ○ EfficientDetならTensorFlow版が公式でTensorRT化されている（※１） ● 慣れるまでONNX変換→trtexecコマンドでTensorRT変換した方が楽そう 37 ※１： https://github.com/NVIDIA/TensorRT/tree/main/samples/python/efficientdet