AWS Batchを用いた機械学習の分散推論 #AWSDevDay

© 2021, Amazon Web Services, Inc. or its affiliates. All
rights reserved. AWS Batchを⽤いた機械学習の分散推論⾼⼭将太株式会社Mobility Technologies D E V D AY

• 名前：⾼⼭将太 • ID：@taka_nigoro • 経歴 § DeNA – マンガアプリの開発
– 声の印象に合ったグラフィックを⽣成する”fontgraphy”の開発 § Mobility Technologies（出向） – 機械学習の分散推論のための諸々 • 最近の悩み § もうすぐ⼆歳になる息⼦がイヤイヤ期に⼊り翻弄されています⾃⼰紹介

今⽇の発表内容 • プロジェクトについて • システム構成 • AWS Batchを⽤いた機械学習の分散推論 • AWS
Batchを中⼼とした⼯夫点

rights reserved. プロジェクトについて

株式会社Mobility Technologies紹介「移動で⼈を幸せに。」のミッションのもと事業を展開

• タクシーやトラックなど商⽤⾞に向けた、ドライブレコーダを使った交通事故削減⽀援サービス § 危険シーンを検知して運転⾏動を分析 § 運転⾏動をレポート化 • 契約⾞両は約2.5万台 §
プレスリリース • ⼤量のドライブレコーダの動画を収集できるドライブチャートの紹介

プロジェクト概要 • ⽬的：⾃動運転社会を⾒据えて、地図をできるだけ⾼い頻度で更新したい • ⽅法 1. ドライブチャートの動画から標識などの道路上の物体を検出 2. ⾞両から得られるGPS情報を⽤いて検出した道路上の物体の緯度経度を推定 3.
地図と⽐較して差分を⾒つけ、地図会社に差分情報を提供 4. 地図会社が差分をもとに地図を更新⼤量のデータと、機械学習の技術⼒と、モビリティのドメイン知識の三つを持つ Mobility Technologiesだからこそできるプロジェクト

rights reserved. システム構成

システム概要 GPS情報ドライブチャート道路上の物体を検出し緯度経度を推定地図地図と⽐較差分を⾒つけ地図会社に提供

システム構成図動画⾞両位置動画リクエスト DRIVE CHART ⾞両位置格納マップ
マッチ動画格納⾞両位置動画 Amazon S3 物体検出緯度経度推定結果 Amazon Aurora AWS Batch 地図差分判定差分情報を地図会社へ提供 Amazon Aurora AWS Lambda

システム構成図今⽇の内容はこの部分の話動画⾞両位置動画リクエスト DRIVE CHART ⾞両位置
格納マップマッチ動画格納⾞両位置動画 Amazon S3 物体検出緯度経度推定結果 Amazon Aurora AWS Batch 地図差分判定差分情報を地図会社へ提供 Amazon Aurora AWS Lambda

• 物体検出アルゴリズムYOLOv4を使って道路上の物体を検出 § 物体のクラスと画像上の位置を出⼒ § クラス：最⾼速度、⾼さ制限、⾞両通⾏⽌め、路⾯ペイントなど道路上の物体検出

道路上の物体検出

緯度経度の推定 SLAMの実⾏例三⾓測量のイメージ 1. SLAMを使ってカメラパラメータとカメラの三次元座標を推定 2. 画像上の物体の位置とカメラパラメータから三⾓測量で物体の三次元座標を計算 3. カメラの三次元座標とGPS座標は座標系が異なるため変換パラメータを求める 4.
検出した物体の三次元座標を変換パラメータを使って緯度経度に変換

rights reserved. AWS Batchを⽤いた機械学習の分散推論

なぜ機械学習の分散推論が必要なのか • ドライブチャートのデータは⼤量であり、例えば⼀つの性能評価実験で166時間の動画を処理することがある • 166時間の動画をg4dn.xlarge 1並列だと120時間かかるため迅速なトライアンドエラーができない • 本番でシステムを稼働させるとなると、10〜100倍のデータを処理することになる

AWS Batchの概要カスタムコンテナの分散実⾏をいい感じにやってくれるサービス • ジョブの要件に基づいてコンピューティングリソースを管理してくれる • Dockerイメージをもとに作成したコンテナ上でジョブを実⾏ • AWS Batchに対する追加料⾦は発⽣しない

AWS Batchの構成要素 • ジョブ：実⾏される⼀つの処理 § ジョブ定義、ジョブキューを指定 • ジョブ定義：実⾏するジョブの設定 § Dockerイメージ、実⾏コマンドなどを指定
• ジョブキュー：ジョブをキューイングしておく場所 § コンピューティング環境を指定 • コンピューティング環境：Amazon Elastic Compute Cloudの設定 § インスタンスタイプ、vCPUの数などを設定

AWS Batchを⽤いた機械学習の分散推論 • 166時間の動画を2000データユニットに分解する • 2000データユニットを64並列で分散推論することで2時間弱で処理が終わる GPUインスタンスコンテナ物体検出のソースコード機械学習モデル
結果データユニット1 ジョブキューデータユニットIDを指定したジョブを提出ジョブ定義 • Dockerイメージ名 • 実⾏コマンドデータユニット2 ジョブA • データユニット1のID ジョブB • データユニット2のID GPUインスタンスコンテナ物体検出のソースコード機械学習モデル

AWS Batchの利点 • インスタンスの起動や停⽌の管理が不要 • ⾃動でスケールイン・スケールアウトするためリソースを有効活⽤できる • 依存関係のあるジョブの分散実⾏が簡単にできる … …
物体検出ジョブ1 緯度経度推定ジョブ1 データユニット1 物体検出ジョブ2 緯度経度推定ジョブ2 データユニット2 物体検出ジョブn 緯度経度推定ジョブn データユニットn

rights reserved. AWS Batchを中心とした⼯夫点

AWS Batchを中⼼とした⼯夫点 • 処理ごとに適したインスタンスの選択 J • Dockerイメージのビルド効率化 J • 物体検出ジョブのインスタンスコスト削減①
J • 物体検出ジョブのインスタンスコスト削減② J • 物体検出ジョブのインスタンスコスト削減③ L

処理ごとに適したインスタンスの選択 • やりたいこと：コストパフォーマンスが最⼤となるインスタンスを選択したい § 処理は24時間以内に終わればよいので、処理速度はそこまで重要ではない § コストパフォーマンスを以下のように定義 • 実現⽅法インスタンスタイプごとにコストパフォーマンスを計算し、
コストパフォーマンスが最⼤となるインスタンスを選択コストパフォーマンス = インスタンスコスト($/h) 秒間処理フレーム数

処理ごとに適したインスタンスの選択物体検出コストパフォーマンス秒間処理フレーム数 ÷ インスタンスコスト($/h) 物体検出処理速度秒間処理フレーム数物体検出において、処理速度はp3.2xlargeが最速だが、
コストパフォーマンスはg4dn.xlargeが最適

処理ごとに適したインスタンスの選択緯度経度推定において、コストパフォーマンスはc4.xlargeが最適 • 現状の実装ではSLAM計算はCPUを1コアしか使わないため、 CPUを増やしても速くならない緯度経度推定コストパフォーマンス秒間処理フレーム数 ÷ インスタンスコスト($/h)

Dockerイメージのビルド効率化 • 現状：Dockerイメージのビルドにかかる時間 § CUDAに対応したOpenCV 1時間25分 § 物体検出のpythonソースコード 1分 §
物体検出に必要なpythonライブラリ 5分 • 問題点：物体検出のソースコードだけに変更がある場合でも⼀からビルドするため時間がかかり、トライアンドエラーが迅速にできない • やりたいこと：ソースコードやライブラリだけに変更が⼊る場合のビルド時間を短縮したい

Dockerイメージのビルド効率化 • 実現⽅法：Dockerイメージを⼆段階に分ける • 結果 § ソースコードやライブラリだけに変更が⼊る場合のビルド時間を短縮し、迅速にトライアンドエラーができるようになった物体検出のソースコード
物体検出に必要なライブラリ 6分 OS OpenCV CUDA 物体検出のソースコード物体検出に必要なライブラリ 1時間31分 1時間25分 OS OpenCV CUDA

物体検出ジョブの仕組み動画動画を画像に分解
物体検出検出結果の補間結果格納 170秒 1878秒 2秒

物体検出ジョブのインスタンスコスト削減① • やりたいこと：物体検出の処理時間を短縮したい動画動画を画像に
分解物体検出検出結果の補間結果格納 170秒 1878秒 2秒

物体検出ジョブのインスタンスコスト削減① • 実現⽅法 § 物体検出⼿法を精度重視のEfficientDetからより⾼速なYOLOv4に変更 § 画像サイズを縮⼩ • 結果 §
5分の動画で物体検出にかかる時間が1878秒から216秒に短縮 § より⾼速な⼿法に変えたため本来は精度が落ちるはずだが、むしろ精度は向上 – 精度重視の⼿法は学習に時間がかかるため性能を最⼤限引き出せていなかった

物体検出ジョブのインスタンスコスト削減② • やりたいこと：動画の画像への分解の処理時間を短縮したい動画動画を画像に

物体検出ジョブのインスタンスコスト削減② • 実現⽅法：画像フォーマットをpngからjpgに変更 • 結果 § 5分の動画の画像への分解の処理時間が170秒から37秒に短縮 § 画質劣化による精度低下は⾒られず §
副産物として5分の動画を画像に分解した時の容量が5.0GBから1.0GBに削減

物体検出ジョブのインスタンスコスト削減③ • やりたいこと：GPUが必要ない処理をオフロードしたい動画動画を画像に

物体検出ジョブのインスタンスコスト削減③ • 実現⽅法 § 動画の画像への分解を物体検出ジョブから外出ししてCPUインスタンスで実⾏ § 異なるジョブ間で分解した画像を共有する必要があるため、新たにAmazon FSx for
Lustreを準備動画動画を画像に分解物体検出検出結果の補間結果格納 CPU インスタンス GPUインスタンス

物体検出ジョブのインスタンスコスト削減③ • 結果 § 物体検出の処理時間が増加 – 5分の動画でもともと平均216秒で終わっていた物体検出が、最⻑約60分かかるようになった – 1並列では問題なかったが、64並列で動かすとAmazon
FSx for Lustreがボトルネックとなった。特に画像の書き込みと読み込みが重なるタイミングで速度が低下した § 分散処理において読み書きする場所を⼀箇所にまとめたときのボトルネックを懸念していたが、予想以上に性能が劣化したためこの案の採⽤を⾒送った

rights reserved. まとめ

まとめ • プロジェクトの概要 § ドライブチャートの動画とGPS情報から物体を検出し、地図を更新するために必要な物体の緯度経度を推定する • AWS Batchを中⼼とした⼯夫点 § 処理ごとに適したインスタンスの選択
J – コストパフォーマンスが最⼤になるインスタンスを選択 § Dockerイメージのビルド効率化 J – Dockerイメージを⼆段階に分ける § 物体検出ジョブのインスタンスコスト削減① J – 精度重視の検出⼿法から速度重視の検出⼿法に変更 § 物体検出ジョブのインスタンスコスト削減② J – 画像フォーマットの変更 § 物体検出ジョブのインスタンスコスト削減③ L – 動画の画像への分解を物体検出ジョブから外出ししたが、かえってインスタンスコストが増⼤した

AWS Batchを用いた機械学習の分散推論 #AWSDevDay

AWS Batchを用いた機械学習の分散推論 #AWSDevDay

ta-ka256

Other Decks in Technology

Featured

Transcript

© 2021, Amazon Web Services, Inc. or its affiliates. All

• 名前：⾼⼭将太 • ID：@taka_nigoro • 経歴 § DeNA – マンガアプリの開発

今⽇の発表内容 • プロジェクトについて • システム構成 • AWS Batchを⽤いた機械学習の分散推論 • AWS

© 2021, Amazon Web Services, Inc. or its affiliates. All

株式会社Mobility Technologies紹介「移動で⼈を幸せに。」のミッションのもと事業を展開

• タクシーやトラックなど商⽤⾞に向けた、ドライブレコーダを使った交通事故削減⽀援サービス § 危険シーンを検知して運転⾏動を分析 § 運転⾏動をレポート化 • 契約⾞両は約2.5万台 §

© 2021, Amazon Web Services, Inc. or its affiliates. All

システム概要 GPS情報ドライブチャート道路上の物体を検出し緯度経度を推定地図地図と⽐較差分を⾒つけ地図会社に提供

システム構成図動画⾞両位置動画リクエスト DRIVE CHART ⾞両位置格納マップ

システム構成図今⽇の内容はこの部分の話動画⾞両位置動画リクエスト DRIVE CHART ⾞両位置

• 物体検出アルゴリズムYOLOv4を使って道路上の物体を検出 § 物体のクラスと画像上の位置を出⼒ § クラス：最⾼速度、⾼さ制限、⾞両通⾏⽌め、路⾯ペイントなど道路上の物体検出

道路上の物体検出

道路上の物体検出

© 2021, Amazon Web Services, Inc. or its affiliates. All

AWS Batchの構成要素 • ジョブ：実⾏される⼀つの処理 § ジョブ定義、ジョブキューを指定 • ジョブ定義：実⾏するジョブの設定 § Dockerイメージ、実⾏コマンドなどを指定

AWS Batchの利点 • インスタンスの起動や停⽌の管理が不要 • ⾃動でスケールイン・スケールアウトするためリソースを有効活⽤できる • 依存関係のあるジョブの分散実⾏が簡単にできる … …

© 2021, Amazon Web Services, Inc. or its affiliates. All

AWS Batchを中⼼とした⼯夫点 • 処理ごとに適したインスタンスの選択 J • Dockerイメージのビルド効率化 J • 物体検出ジョブのインスタンスコスト削減①

処理ごとに適したインスタンスの選択物体検出コストパフォーマンス秒間処理フレーム数 ÷ インスタンスコスト($/h) 物体検出処理速度秒間処理フレーム数物体検出において、処理速度はp3.2xlargeが最速だが、

Dockerイメージのビルド効率化 • 現状：Dockerイメージのビルドにかかる時間 § CUDAに対応したOpenCV 1時間25分 § 物体検出のpythonソースコード 1分 §

物体検出ジョブの仕組み動画動画を画像に分解

物体検出ジョブのインスタンスコスト削減① • やりたいこと：物体検出の処理時間を短縮したい動画動画を画像に

物体検出ジョブのインスタンスコスト削減① • 実現⽅法 § 物体検出⼿法を精度重視のEfficientDetからより⾼速なYOLOv4に変更 § 画像サイズを縮⼩ • 結果 §

物体検出ジョブのインスタンスコスト削減② • やりたいこと：動画の画像への分解の処理時間を短縮したい動画動画を画像に

物体検出ジョブのインスタンスコスト削減② • 実現⽅法：画像フォーマットをpngからjpgに変更 • 結果 § 5分の動画の画像への分解の処理時間が170秒から37秒に短縮 § 画質劣化による精度低下は⾒られず §

物体検出ジョブのインスタンスコスト削減③ • やりたいこと：GPUが必要ない処理をオフロードしたい動画動画を画像に

物体検出ジョブのインスタンスコスト削減③ • 実現⽅法 § 動画の画像への分解を物体検出ジョブから外出ししてCPUインスタンスで実⾏ § 異なるジョブ間で分解した画像を共有する必要があるため、新たにAmazon FSx for

© 2021, Amazon Web Services, Inc. or its affiliates. All

まとめ • プロジェクトの概要 § ドライブチャートの動画とGPS情報から物体を検出し、地図を更新するために必要な物体の緯度経度を推定する • AWS Batchを中⼼とした⼯夫点 § 処理ごとに適したインスタンスの選択

Thank you! © 2021, Amazon Web Services, Inc. or its