Slide 1

Slide 1 text

TensorFlowとGCPの話 By  Norihiro Shimoda 1

Slide 2

Slide 2 text

⾃自⼰己紹介 • 下⽥田倫倫⼤大(@rindai87) • データ分析専業の企業のエンジニアマネージャー • TensorFlow User  Group(TFUG)主催者 • 最近GDE(Google  Developer  Expert)のML   Expertになりました

Slide 3

Slide 3 text

本⽇日のAgenda • TFUG(TensorFlow User  Group)のご紹介 • TensorFlowのご紹介 • GCPでのデータ分析/機械学習環境のご紹介 3

Slide 4

Slide 4 text

TFUGのご紹介 by  Norhiro Shimoda 4

Slide 5

Slide 5 text

What  is  TFUG  ? • 分散機械学習フレームワークであるTensorFlow のコミュニティです。 • 2016年年10⽉月に⽴立立ち上がりました。 公開⽤用では顔写真が⼊入ってるので割愛

Slide 6

Slide 6 text

Meetup • ⽉月に⼀一度度程度度のペースでミートアップイベント を開催しています。 公開⽤用では顔写真が⼊入ってるの で割愛

Slide 7

Slide 7 text

#  of  our  members 7

Slide 8

Slide 8 text

地域TFUGも • TFUG  AIZU(2016年年末に始動) • TFUG  KANSAI(5⽉月始動) • その他も増えるかも。。。? 8 公開⽤用では顔写真が⼊入ってるので割愛

Slide 9

Slide 9 text

How  to  join? グループ名:TensorFlow User  Group  Tokyo イベント情報を管理理しています。 https://tfug-‐‑‒tokyo.connpass.com/ グループ名:TensorFlow User  Group 各種情報交換の場として利利⽤用されています。 https://www.facebook.com/groups/17855923 5921208/

Slide 10

Slide 10 text

TensorFlow概要 by  Norhiro Shimoda 10

Slide 11

Slide 11 text

TensorFlowとは? • Googleによって2015年年11⽉月に公開されたオー プンソース – Google内部で多数の使⽤用実績があるらしい Google  Photo 画像の⾃自動分類 Google  翻訳 翻訳の⾃自動学習 Gmail スパムフィルタ OK  Google ⾳音声認識識 11

Slide 12

Slide 12 text

TensorFlowの歴史

Slide 13

Slide 13 text

Googleトレンドで⽐比較 13

Slide 14

Slide 14 text

TensorFlowのモデル 1. 学習モデルをグラフと して定義する 2. 学習を実際にどう⾏行行う かも定義する – 学習の評価⽅方法 – 最適化の⽅方法 – CPU  or  GPU – スタンドアロン or  分散 3. 定義に従って計算処理理 をデバイス上で実⾏行行さ せる

Slide 15

Slide 15 text

いろんなデバイスで動きます 15 CPU GPU Android iOS RasberryPi etc…

Slide 16

Slide 16 text

⽉月刊Interfaceでも特集されてます 16 https://www.amazon.co.jp/dp/B01MQT4OS8

Slide 17

Slide 17 text

TensorBoardなどのツール

Slide 18

Slide 18 text

18 きゅうりの規格の⾃自動仕分け From:  http://workpiles.com/2016/02/tensorflow-­‐cnn-­‐cucumber/

Slide 19

Slide 19 text

空撮写真からの⾞車車両カウント 19 From:  http://www.brainpad.co.jp/news/2016/09/02/3454

Slide 20

Slide 20 text

技術的な部分も もっと知りたいという⽅方は 20 From:  https://goo.gl/7cgzwR

Slide 21

Slide 21 text

ここまでのまとめ • TensorFlowは全世界的に⼤大⼈人気 – Googleが使ってるものが使える! – AlphaGOのインパクト! • TensorFlowに関わる⼈人もいろいろ – 研究で使ってる学⽣生、先⽣生 – 趣味の延⻑⾧長で触っているWeb系開発者 – ディープラーニングを案件として扱う分析外⾞車車 – Android/iOS等のモバイルアプリの開発者 – 組み込み系のハードウェア寄りの開発者 – etc… 21

Slide 22

Slide 22 text

GCP上の機械学習環境 22

Slide 23

Slide 23 text

GCPのコンポーネントのアイコン 23 https://goo.gl/WOR5ej

Slide 24

Slide 24 text

VisionAPIデモ 24 VisionAPIのお試しができます https://goo.gl/HpyrUH

Slide 25

Slide 25 text

機械学習いけそう!というイメージ 出典:https://cloud.google.com/products/ 超すごいGoogleの ⼈人⼯工知能の要素技術である 機械学習をクラウドで 簡単に使えそうな雰囲気! 25

Slide 26

Slide 26 text

結果、こういう流流れが できつつあります 26

Slide 27

Slide 27 text

クラウドで 機械学習のAPI あるじゃない ↓ APIを使ってみる ↓ ビジネスニーズに 微妙にフィットしない ↓ スクラッチでやるしか ↓ 機械学習むずい \(^o^)/ 27

Slide 28

Slide 28 text

焦ってもすぐに機械学習⾃自体は 理理解できるようなりませんので、 かわりにデータ分析(機械学習 含む)の環境としてのGCPにつ い⾒見見てみましょう 28

Slide 29

Slide 29 text

データ分析環境の前提 世の中には⾊色んな考え⽅方がありますが、、、 • 分析者が複数⼈人(それなりの数)いる • 分析するテーマがある程度度多岐に及んでいる – 当然、複数⼈人で1つのテーマの分析作業を⾏行行ったりする • 計算リソースが必要な分析も⾏行行う – ディープラーニングとか ディープラーニング登場以前/以後でも考え⽅方が少 し変わります 29

Slide 30

Slide 30 text

30 分析環境第1世代 • 各⼈人が⼿手元にそれぞ れの環境を構築する • データもそれぞれが 勝⼿手にとってきて⼿手 元のマシンに置いて いる状態

Slide 31

Slide 31 text

31 分析環境第2世代 • データソースは⼀一元 化しましょう、とい う流流れ • データを加⼯工するた めのDWHも導⼊入しま しょう、となりがち

Slide 32

Slide 32 text

32 分析環境第3世代 • そろそろ開発環境も 揃えたい、となって くる – 皆で作業分担するには 同じ環境じゃないとね 的な • ⼿手順書⽤用意したり、 VM配ったり、 Dockerを導⼊入したり

Slide 33

Slide 33 text

ディープラーニング登場以後 ここまではディープラーニング登場以前の話でした。 ディープラーニングにはGPUが⽋欠かせませんので、 1. クラウドのGPU環境を使う – まだ黎黎明期のため、少々お⾼高い印象 – もちろんこっちでも良良い 2. オンプレでGPU環境を使う – 実験的に導⼊入するのであれば、ビデオカード分への投 資(⾼高々数万〜~⼗十数万円規模)でトライできる サービスに使う前のお試しの場合は2を選んでいる ⼈人(会社)が多い印象 33

Slide 34

Slide 34 text

34 分析環境第4世代 GPUのリソースは 限られているので 共⽤用の環境となる

Slide 35

Slide 35 text

問題1:クソクエリ問題 • みんなが同時にDWHを叩くと⼤大抵クソクエリが 発⽣生して、DWH管理理者と、作業しようとしてい た⼈人が影響を受けてしまいます 35 DWH管理理者 作業したかった⼈人 クソクエリに やられたDWH

Slide 36

Slide 36 text

問題点2:GPU借りまーす問題 • GPUを共⽤用で使うので、「借りまーす」「返し まーす」というやり取りが始まる • ⼀一度度借りるとなかなか返せない • 使いたい時はだいたい重なる 36

Slide 37

Slide 37 text

つまり分析環境には何が必要か? • 無尽蔵で可⽤用性がある安価なストレージ • 前処理理のための⾼高性能かつ⼿手がかからないDWH • 計算リソース – 特にディープラーニングならGPUインスタンス • 共通の作業環境を提供できる仕組み – AMIとか、コンテナとか、デプロイの⾃自動化とか 37

Slide 38

Slide 38 text

進⾏行行の都合上 おもむろにコマンドを 叩きます 38 $  jupyter notebook $  datalab create  datalab-‐‑‒test

Slide 39

Slide 39 text

揃ってますよ、GCPならね 対応するものがちゃんと揃ってます。 • ストレージ:Google  Cloud  Storage(GCS) • DWH:BigQuery • 計算リソース:Google  Compute  Engine(GCE) 39 この中で他のクラウドと⽐比較して特筆すべきは BigQueryですが、本⽇日の本論論ではないので 別の資料料などを参照してください

Slide 40

Slide 40 text

Cloud  Datalab • JupyterをベースとしたGCP特化の分析環境 – Jupyterはデータサイエンティストに⼈人気のある notebookという形態のブラウザで作業できる分析環境 • Dockerイメージと周辺便便利利ツールの集合体 – Githubで公開されている(https://goo.gl/aEefim) • 発表から⻑⾧長らくBetaだったが、最近GAになった 40 From:  https://cloud.google.com/datalab/

Slide 41

Slide 41 text

Cloud  Datalabの仕組み 41 GCE (instance) GCE (disk) ①GCEにインスタンスを⽴立立てる 永続化⽤用にディスクも付ける ネットワーク周りも設定

Slide 42

Slide 42 text

Cloud  Datalabの仕組み 42 GCE (instance) GCE (disk) datalab (docker) ②DatalabのDocker imageを 起動させる

Slide 43

Slide 43 text

Cloud  Datalabの仕組み 43 GCE (instance) GCE (disk) GCS datalab (docker) ③GCSにバックアップも作られる

Slide 44

Slide 44 text

Cloud  Datalabの仕組み 44 GCE (instance) GCE (disk) GCS datalab (docker) BigQuery ④datalabからBigQueryが使える

Slide 45

Slide 45 text

Cloud  Datalabの仕組み 45 GCE (instance) GCE (disk) GCS datalab (docker) BigQuery ⑤GCEのインスタンスのスペックは上げ下げできる

Slide 46

Slide 46 text

46

Slide 47

Slide 47 text

47 ???

Slide 48

Slide 48 text

Cloud  Datalabの仕組み 48 GCE (instance) GCE (disk) GCS datalab (docker) BigQuery CloudML Engine ⑥CloudML Engineも使える

Slide 49

Slide 49 text

Cloud  ML  Engineとは? • マネージドでスケーラブルな機械学習サービス – ??? • TensorFlowの動作環境をオンデマンドで提供 – distributedなTensorFlowも動かせる – GPUでのTensorFlowも動かせる • ⼤大規模にTensorFlowを使いたい時は⾮非常にあり がたいサービス – 逆に⼩小規模に試したいよってレベルだとあまり必要 ないかも。。。 49

Slide 50

Slide 50 text

Cloud  Datalabで全てうまく いきそう!いい感じ! とうまくいかないのが 世の常でして。。。 50

Slide 51

Slide 51 text

惜しいよDatalab! • DatalabはGPUインスタンスに対応していませ ん。。。 • Pythonは2系のみ。。。 引き続き注⽬目です 51

Slide 52

Slide 52 text

詳しい話はQiitaにあげてます 52 From:  https://goo.gl/VncKTa

Slide 53

Slide 53 text

とはいえGCPは⾯面⽩白い • 時間の都合で話しきれませんが、Google内部で 使われているテクノロジーがクラウドサービス として使えるようにしたものが多いので、⼤大変 ⾯面⽩白いサービスが多いです。 • データ分析周りで⾔言うと、、、 – Cloud  DataFlow – Cloud  BigTable – Cloud  Spanner – Cloud  Dataprep などが個⼈人的には⾮非常に⾯面⽩白そうです。 53

Slide 54

Slide 54 text

本⽇日のまとめ • TensorFlowは世界中で注⽬目されています – 気になったらTFUGにジョインしましょう! • GCPもここ最近で⼀一気に⾯面⽩白くなっています – 気になったらGCPUGにジョインしましょう! 54

Slide 55

Slide 55 text

55 Thank  You!