Ideinの紹介 @ DLLab 推論ナイト

Ideinの紹介 @ DLLab 推論ナイト

386c31c9e9ce2d3ee001e967f9353d65?s=128

Koichi Nakamura

August 24, 2018
Tweet

Transcript

  1. 代表取締役 中村 晃一 2018/8/24 推論ナイト の紹介

  2. Agenda  会社概要  事業の紹介  推論の高速化技術の紹介

  3. Ideinの概要  目指している事 実世界のあらゆる事象をソフトウェアで扱えるようにする  技術 Deep Learningモデルによる推論の高速化技術  主事業

    Actcast: 実世界センシングプラットフォーム 社名 Idein株式会社 (イデイン) ロゴ 設立日 2015年4月 所在地 神保町 ウェブサイト https://idein.jp ブログ https://blog.idein.jp Twitter IdeinInc
  4. メンバー構成 正社員15人  コンパイラ・高速化 4人  機械学習 3人  サービス開発

    5人  リサーチャー 2人  バックオフィス 1人 アルバイト 15人 人材募集中です! https://idein.jp/career
  5. youtube.com/c/IdeinInc Raspberry PiでのDeep Learning推論高速化

  6. 尋常ではない速度なのでこんなことも言われる

  7. 研究分野 モデルアーテクチャ 省サイズ・高精度アーキテクチャ モデル圧縮 学習手法 グラフ最適化コンパイラ 演算融合 メモリ最適化 アルゴリズム選択 数値アルゴリズム

    高速畳み込み算 ハードウェア特化アルゴリズム チューニング
  8. ベンチマーク  ラズパイでImageNet 1000クラス分類モデルが10fps以上  ResNet-50程度の大きさのCNNでも1秒未満 Pi 3 Pi 0

    MobileNet V2 1.0 224x224 88ms 95ms MobileNet V1 1.0 224x224 115ms 120ms ResNet-50 224x224 660ms (未計測)
  9. しかも  変換後モデルは元のモデルと数学的に等価  32-bit floatのまま  量子化なし  Pruningなし

     従って精度低下なし ✓ 今あるモデルをそのままデバイスに載せることが出来る
  10. 技術的な詳しい話は後半に

  11. ビジネス 1. Actcastというサービスの開発をしています 2. アイシン精機(株)と提携して次世代自動車の開発にも協力

  12.  実世界の様々なイベントをWebに吸い上げる {・・・} {・・・}

  13. プラットフォーム構造 ユーザーの作ったモデルも 配信できる(予定) Devices Algorithms • Person detection • Age/Gender

    classification • Pose estimation • General object detection • Anomaly detection and so on Web Services • Notification • Visualization • Analytics • Storage services and so on 様々モデルを 様々なデバイスに配信し 様々なWebサービスに接続。
  14. そろそろα版をリリースします  2018年中の公開予定  まずはRaspberry Piをサポート  twitter.com/IdeinIncで情報発信しますので 興味のある方はフォローを。 開発中画面

  15. なぜラズパイ?

  16. 実は産業用で使われ始めている “2018年6月の時点で、月産される50万~60万台のうち、35万~40万台、 つまり約60%が産業用途向けとなっているという。” EETimes Japan, 「ラズパイ」最初の10年、今後の10年 http://eetimes.jp/ee/articles/1807/11/news042.html

  17. 安価である Raspberry Pi 3 Model B+ Raspberry Pi Zero W

    $35 $10
  18. SoMがある  SO-DIMM 200pin ソケットに差して利用 SOC 価格 Compute Module 1

    Pi Zeroと同じ $30 Compute Module 3 Pi 3と同じ $30 Compute Module 3 Lite Pi 3と同じ $25 Ideinでも過去に利用
  19. 供給保証がある ✓ 以下は、少なくとも2023年まで入手可能 Raspberry Pi 3 Model B+ Compute Module

    1 Compute Module 3 Compute Module 3 Lite
  20. PoEが可能  PoE Hatを使うとLANケーブル1本で給電・通信が可能 ✓ LANケーブルは最長100m ✓ 配線工事に資格が不要

  21. カメラが使える • 公式カメラモジュール ✓ 800万画素 ✓ 赤外線カメラモジュールもある • 市販のUSBカメラも使える $30

    $30
  22. ハードウェアエコシステム  様々なディスプレイ  様々なケース  HAT  様々なセンサー 

    LTE接続  GPS  太陽光発電  などなど Revolution Pi NEC Display Solutions
  23. 高速化の取り組み

  24. ラズパイにはGPUが積んである BCM2837 BCM2835 Broadcom BCM2835 Broadcom BCM2837 CPU 1 GHz

    single-core ARM1176JZF-S 1.2 GHz 64-bit quad- core ARM Cortex- A53 GPU Broadcom VideoCore IV 300MHz Memory 512 MB 1GB CPU peak performance 2 Gflops 38.4 Gflops GPU peak performance 28.8 Gflops 28.8 Gflops
  25. VideoCore IVのドキュメントは公開されている  BroadcomからRaspbery Pi財団への誕生日プレゼント

  26. GPGPU on Raspberry Pi  Broadcomのマニュアルを読み、 VideoCore IV用のアセンブラを開発  github.com/nineties/py-videocore

  27. CNNライブラリ: qdnn  py-videocoreを用いてCNNのカーネル群を実装  数学的には1つでも、無数の実装のバリエーションがあり、 最適実装は1つではない アルゴリズム Direct Im2col

    Winograd FFT テンソルのレイアウト NHWC ? NCHW ? NHCW ? ブロック化 処理単位の形状を どうするのか?
  28. Graph Compiler  複数のレイヤをマージする  アルゴリズムを選択する  Tensorのshapeなどによって最適な実装が変わる  あらかじめweightの変換等も必要

     一部はruntimeに決定  など
  29. Pure-GPU化  弊社史上最も異常な最適化  普通  1 layerずつカーネルを呼び出す  Pure-GPU実装

     1度ioctlを呼び出すと、CNNを全部実行してから戻ってくる  GPU上でコントロールフローを実行する方法を発明
  30. ソフトウェアスタック mlir py-videocore Writing CNN kernels Doing tests and optimization

    qdnn libnn Graph Compiler VC4 NEON AVX/SSE CPU Computation Graph Representation Neural Network API Pure-GPU Code Generation No-runtime Code Generation runtime library Model Converters Designed and Developerd by Deep leaning frameworks
  31. まとめ  IdeinはDeep Learningの応用を著しく安く手軽にします。 みなさんの様々なアイデアをActcastで試してください。  人材募集中です  Actcastのαリリースをそろそろします idein.jp/career

    で応募 twitter.com/IdeinIncをフォロー