TensorFlow Liteで機械学習Androidアプリを超簡単に作る

by Arata Furukawa

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

© DMM.com LLC TensorFlow Liteの特徴② ➔ リソース制約のある環境に最適化されたオンデバイスインタプリタ ➔ 推論を省メモリで高速実行する ➔ 量子化演算をサポート（現在は8bitのみ） ➔ 演算子のカスタマイズによりライブラリ自体のサイズを調整可能 ➔ 最近のバージョンのAndroidでは NNAPI(Android Neural Network API)によるハードウェアクセラレーションに対応 ➔ パラメータの調整に対応 14

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

© DMM.com LLC モデル構築 ➔ 基本的には下記のいずれかの形式でエクスポートします： ◆ TensorFlow Frozen Graph ◆ TensorFlow SavedModel ◆ HDF5 ➔ TensorFlowかKeras以外のフレームワークであっても、上記形式に変換できればまず問題ありません。注意：　TensorFlow Liteがビルトインでサポートしていない演算子をモデルに含む　場合は、カスタム演算子を定義する必要があります 18

Slide 19

Slide 19 text

© DMM.com LLC モデル変換 Frozen Graph、SavedModel、HDF5のいずれかが用意できたら、 TOCO (TensorFlow Lite Optimizing Converter)を用いて TFLite専用のモデル形式(*.tflite)に変換します ➔ TOCOは、CLIか、TensorFlow Python APIの tf.contrib.lite.toco_convert関数を利用できます ➔ APIリファレンスを参考にしてください https://www.tensorflow.org/api_docs/python/tf/contrib/lite/toco_convert ➔ パラメータの量子化などもこれで行えます 19

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text

© DMM.com LLC プロジェクトにライブラリを追加 Bazelの場合（@org_tensorflow_tensorflow_lite//aar）： GMAVEN_TAG = '20180723-2' http_archive( name = 'gmaven_rules', strip_prefix = 'gmaven_rules-%s' % GMAVEN_TAG, url = 'https://github.com/bazelbuild/gmaven_rules/archive/%s.tar.gz' % GMAVEN_TAG, ) load('@gmaven_rules//:gmaven.bzl', 'gmaven_rules') gmaven_rules() load('@gmaven_rules//:import_external.bzl', 'aar_import_external') aar_import_external( name = "org_tensorflow_tensorflow_lite", licenses = ['notice'], aar_urls = [ 'https://google.bintray.com/tensorflow/org/tensorflow/tensorflow-lite/1.9.0/tensorflow-lite-1.9.0.aar', ], aar_sha256 = 'b5a0c9c2063b56318b642ad9388c06865a5d7392fa5205074825b2615ddba267', ) 24

Slide 25

Slide 25 text

© DMM.com LLC インタプリタを作成/実行するインタプリタ（org.tensorflow.lite.Interpreter）に下記のいずれかでモデルデータを渡して作成 - java.io.File - java.nio.MappedByteBuffer - java.nio.ByteBuffer try (Interpreter interpreter = new Interpreter(file_of_a_tensorflowlite_model)) { interpreter.run(input, output); } 25

Slide 26

Slide 26 text

© DMM.com LLC サンプル：ラクガキ認識アプリ学習済みモデルデータ、学習プログラム、サンプルアプリ … すべてオープンソースで公開しています。 GitHub: https://github.com/maru-labo/doodle ※ Androidアプリのサンプルソースコードはリポジトリ下の　examples/tensorflow_lite_androidディレクトリにあります ※ モデルの学習プログラムも置いてあります ※ 学習済みモデルデータ（ model.tflite）はリリースに含まれています 26

Slide 27

Slide 27 text

© DMM.com LLC サンプル実装 https://github.com/maru-labo/doodle/blob/master/examples/tensorflow_lite_android/src/net/marulabo/doodle/MainActivity.java public class MainActivity extends AppCompatActivity { (略) @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout.activity_main); (略) try { AssetManager assets = getAssets(); MappedByteBuffer model = loadAssetToMemory( assets, MODEL_FILENAME); interpreter = new Interpreter(model, THREAD_NUM); interpreter.setUseNNAPI(true); recognize.setEnabled(true); print("The model was loaded successful."); } catch(IOException e) { print("Failed to load the model: " + e.getMessage() + "\n"); return; } } メインアクティビティのonCreateで ①アセットからモデルファイルを　メモリに読み込み ②インタプリタを作成 ③NNAPIを有効化しています。 ① ② ③ 27

Slide 28

Slide 28 text

© DMM.com LLC サンプル実装 https://github.com/maru-labo/doodle/blob/master/examples/tensorflow_lite_android/src/net/marulabo/doodle/MainActivity.java image = new float[BATCH][IMAGE_HEIGHT][IMAGE_WIDTH][IMAGE_CHANNEL]; probabilities = new float[BATCH][NUMBER_CLASSES]; interpreter.run(image, probabilities); ②image変数にピクセル強度を代入（80-95行目） ③インタプリタの実行（99行目） ④probabilities変数に10カテゴリそれぞれの確率が入るので、　最も確率が高いカテゴリを表示する（106-109行目） 28 ①入出力を格納する多次元配列を用意（125-126行目）

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

© DMM.com LLC ラクガキ認識モデルのスペック ➔ モデル構造 ◆ 2次元畳み込み＋プーリングが2層、密結合層が2層のCNN ◆ パラメータ数（≒モデルサイズ）の削減になるテクニックは用いていない、非常にシンプルなモデル ➔ モデルサイズ ◆ 32bit浮動小数：12.4MB ◆ 8bit量子化後：3.1MB ◆ 32bitから8bitに量子化するとモデルサイズが大幅に小さくなる（25%） 31

Slide 32

Slide 32 text

Slide 33

Slide 33 text

Slide 34

Slide 34 text

Slide 35

Slide 35 text

Slide 36

Slide 36 text

Slide 37

Slide 37 text

© DMM.com LLC メモリ使用量・アクセス ➔ 必要最小限のメモリで動作している ◆ 必要なのはモデルサイズと同程度のメモリ ◆ 最新のテクニックを駆使したモデルは量子化なしでも10MB前後で済むものが多いため、十分メモリに乗る ➔ モデルに用いられるFlatBuffersは、 Googleがゲームや組み込み向けに開発したフットプリントが非常に小さいデータ形式 ◆ 解析に必要なメモリは 100-300KB程度しか使わない ◆ メモリの追加割当がほぼ発生しない ◆ メモリアクセスが非常に少ないため、電力効率が良いフォーマットでもある【補足：パラメータ量子化モデルのメモリ使用量について】サンプルアプリについては、量子化モデルのメモリ使用量は非量子化時のものとほぼ変わらなかった。これは、モデル構造に大きく依存する部分となる。確認は必要だが、非量子化時のモデルサイズを大きく上回ることは考えにくいため、非量子化時を基準にメモリ使用量を考えるのが良いと思われる。 37

Slide 38

Slide 38 text

Slide 39

Slide 39 text

© DMM.com LLC (左下図) インタプリタをclose&null代入した上でバックグラウンドにし、 GCが実行されたあと復帰 ⇒メモリがGCされ　約13MB(≒モデルサイズ)の差 (左上図) バックグラウンドにし、 GCが実行されたあと復帰待機時のメモリ使用量をチューニングする場合は、推論が不必要な際に明示的にインタプリタを消すような実装をしておくと◎ ※Nexus 5 (Andorid 6.0.1, 2013年製の実機)での実行プロファイル結果 39 GC

Slide 40

Slide 40 text

© DMM.com LLC ベンチマーク結果（Nexus 5） Warmup runs 10 Num runs 200 Num threads 1 CPU Affinity 1 Use NNAPI N/A Inter-run delay -1 MODEL NAME MODEL SIZE AVG STD DEV Doodle 12.4 MB 7.071 ms 0.684 ms Doodle (quantized) 3.1 MB 5.763 ms 0.544 ms MobileNet 16.4 MB 140.438 ms 0.247 ms MobileNet (quantized) 4.1 MB 103.575 ms 0.194 ms Inception V4 162.7 MB 1429.210 ms 147.327 ms (a) 実行条件 (b) ラクガキモデルと一般的なモデルでの実行結果 ▼ベンチマーク実装 https://github.com/tensorflow/tensorflow/tree/master/tensorflow/contrib/lite/tools/benchmark ▼Pixelと一般的なモデルでの結果 https://www.tensorflow.org/mobile/tflite/performance 40

Slide 41

Slide 41 text

© DMM.com LLC 実行速度と精度 ➔ 量子化はモデルサイズを大幅に削減することができる ➔ ベンチマークを見ての通り、量子化は実行速度の向上も期待できる ◆ SIMD演算やDSPはもちろん、TPUのような専用チップによるさらなる高速化が今後も期待できる ➔ Inception級の巨大モデルがシングルスレッドでも1,2秒程度で実行可能であることからも、実用に耐えうる実行速度であると言えるだろう ➔ ただし、一般的に量子化をすると精度が下がる事が知られており量子化したモデルでの精度評価が必要であることに注意する 41