Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
Next ‘19 @ SF BigQuery BI Engine, AutoML Tables, Data Fusion GCPUG横浜 2019 Apr 24, 2019 @kenz 1
Slide 2
Slide 2 text
About me ● 米川 賢治 @ GCPUG横浜 / JTUG オーガナイザ ● エンジニア ● 好きなもの ○ GCP, G Suite, ML, Go, Python, Vim, Zsh, BSD ○ 登山、ロッククライミング、キャンプ、スノボ ● 苦手なもの ○ 敬語 ● https://www.linkedin.com/in/kenjiyonekawa/ 2
Slide 3
Slide 3 text
本スライドで知れること、知れないこと 知れること ● BigQuery BI Engine、AutoML Video Intelligence/Tables、Data Fusion の概要 ● AutoML Tables使った感じ ● Data Fusion使った感じ ● BigQuery BI Engine、AutoML Tables は良さそう。 3 知れないこと ● AutoML Tablesの詳細(公開されてな い) ● Data Fusionのスケジューリング /拡 張。(試せてない)
Slide 4
Slide 4 text
アウトライン ● BigQuery BI Engine ● AutoML ● Data Fusion 4
Slide 5
Slide 5 text
BigQuery BI Engine 5
Slide 6
Slide 6 text
BigQueryのインメモリ機能つけられる! ● BIツールからよくアクセスされるデータのキャッシュの他、クエリの最適化 等が行われ、これまで分単位でかかっていた処理が秒単位になる。 ● BI Solutionの一つ。(もう1つはConnected Sheets) ● 今はベータ。(4/2019) ● 容量指定してリザーブするだけ。チューニング等は自動でされるので、容量 監視して足りなくなったら足すぐらいで良さそう。 6
Slide 7
Slide 7 text
BigQueryアーキテクチャ 7
Slide 8
Slide 8 text
BI Engineのコスト ● ベータ期間中は無料:D ● BigQueryつつかずに、メモリから返せればコスト削減に! ○ 現状Data Studioからのクエリのみなので使ってるならぜひ導入を。 8
Slide 9
Slide 9 text
設定方法: 1/3 9 プロジェクト、リージョン、容量 (1-10GB)を選ぶ
Slide 10
Slide 10 text
設定方法: 2/3 10 確認するだけ。値段出てきますがベータ期間中は無料。
Slide 11
Slide 11 text
設定方法: 3/3 11 確認するだけ。ビリング有効になるまで無料の旨記載されて ます。
Slide 12
Slide 12 text
Done! ● Data Studioで操作すると早い(感じがする)。ちゃんと評価はしてないで す。 12
Slide 13
Slide 13 text
AutoML Video Intelligence / Tables 13
Slide 14
Slide 14 text
AutoMLにVideo IntelligenceとTablesが追加! ● AutoMLに元々あったVision、Natural Language、Translationに加え てVideo IntelligenceとTablesが新しく追加された。 ● 両方とも今はベータ。(4/2019) ● AutoMLの深い知識なくても利用できる!(これまでと一緒。) 14
Slide 15
Slide 15 text
AutoML Video Intelligence ● 動画のバイナリ/マルチクラス、マルチラベル分類をする教師あり学習。 ● ● 例で挙げられているユースケースは、サッカーの試合の分析のため、動画へ 自動でラベルをつける処理等 ● ● ● ● 参考で必要とされているデータ: ○ クラス数が少ない場合 : クラスごとに200 ○ 50クラス以上やクラスが似てる場合 : クラスごとに1,000+ ● それなりのデータ/ラベルが必要。 15
Slide 16
Slide 16 text
AutoML Tables ● 構造化データの特定カラムを推測するAutoML。 ● 無料枠がある!! ○ 6時間のトレーニング ○ と ○ 6時間のバッチプレディクション ○ ○ 実行時間が制御できるので、コスト試算できる ● モデルのexportは今の所できない。 ● こっち試してみました。 16
Slide 17
Slide 17 text
確認したかったこと ● お手軽に使えるものなのか ● 精度 ● モデル作成にかかる時間 ● モデル作成にかかるお金 17
Slide 18
Slide 18 text
AutoML Tablesの全体像 18 特徴量抽出、モデル選択、ハイパーパラメータ チューニングを自動でやってくれる。 やるのはデータの準備、選択と作られたモデルで OKかの判断ぐらい。
Slide 19
Slide 19 text
Input 19 BigQueryかGCSから取り込み可。
Slide 20
Slide 20 text
Define 20 スキーマの型とNullableを決める。 ターゲット(MLする対象)もここで決める。 Additionalからデータの分け方、重み付け、タイムスリーズの設定できる。
Slide 21
Slide 21 text
Analyze 21 平均や標準偏差、データの種類、 NULLの割合に加え、指定したターゲットに対 する相関が表示される。 Trainすると時間とお金かかるのでここでクレンジング必要か判断できると良さそ う。
Slide 22
Slide 22 text
Train 22 Budgetが決められる!! それ以外に使うフィーチャー、オプティマイ ゼーションの方法が選べる。
Slide 23
Slide 23 text
Train 23 データ量の注意点。 推奨値として出てくるデータサイズは下記の通り。 無料の6時間だと500MB程度、72時間回すとしても100GB程度なので必要に応じてデータ量減らす必要があり そう。(72時間回すと$1,400ぐらい)
Slide 24
Slide 24 text
Train完了後 24 結果。元データの情報考えると結構良い。 元データの情報
Slide 25
Slide 25 text
Evaluate 25 重要と認識された特徴が分かる。 AutoML内で特徴量エンジニアリ ングされているので、認識と違い過ぎたらデータ処理する、ぐらいで 良いと思われる。
Slide 26
Slide 26 text
バッチプレディクション 26 バッチ推測であればデプロイしなくても使える。 BigQueryかGCSからデータ読んで同じく BigQueryかGCSに結果吐き出す。
Slide 27
Slide 27 text
オンラインレディクション 27 “DEPLOY MODEL”押せばオンライン用にデプロイされる。 (20分ぐらいかかった) 画面下にサンプルの実行方法が記載されている。
Slide 28
Slide 28 text
確認したかったこと ● お手軽に使えるものなのか ● 精度 ● モデル作成にかかる時間 ● モデル作成にかかるお金 28 お手軽に使える! 特徴量抽出もAutoMLされるので、どこまでデータ処理 しておけばいいのかは要調査。 ほぼ未処理データなのに精度高い。 モデル構築: 1.1hr (指定は6hrなので途中で学習完了した模様。 ) \12,799 ???? 無料枠。。?
Slide 29
Slide 29 text
お金 ● 6時間無料のはず。 ● 2時間弱でアーリーストップしてるみたいなので、問い合わせ中。 ● 試しなら短めに流したほうが良いかもしれないです。 29
Slide 30
Slide 30 text
Data Fusion 30
Slide 31
Slide 31 text
Data Fusion ● コーディングレスでデータパイプラインが構築できるフルマネージドサービ ス。スケジューリングやエラーハンドリング/通知も可能。 ● 2018年に買収したCask DataのCDAPのクラウドネイティブ版。CDAPのパ イプラインがData Fusionにそのままインポートできる。 ● 現状ベータ (4/2019) 31
Slide 32
Slide 32 text
コンポーネント ● Data FusionのインスタンスはGKE、CloudSQL、GCS、PD、KMS、 Elasticsearch等が利用されている。 ○ テナントプロジェクト内にデプロイされるので気にする必要はない。 ○ システム系、UIはGKEが利用され、メタデータ管理に他サービスが利用されている。 ○ ● 実際のパイプライン処理の実行にはdataprocが使われる。自分で指定する OR 実行時にスピンアップ/ダウンしてもらうことが可能。 ○ dataflowになったらもっとスケール、コスト面で良さそう。 32
Slide 33
Slide 33 text
こんな感じ 33
Slide 34
Slide 34 text
Data Fusionのコスト ● 2種類存在する。 ● Basicは120時間/月無料。 ● 一旦Basicで試すことをおすすめ。 34
Slide 35
Slide 35 text
いろんな拡張ができる 35
Slide 36
Slide 36 text
使えるもの 36 namespaceでいろいろ分離できる ?作り方分からず。。 ダッシュボード的なもの。 デプロイ済みのパイプラインのリスト。 パイプラインの構築。デプロイしたら上に入る。 wrangler。dataprepに比べると微妙。。 メタデータの検索。
Slide 37
Slide 37 text
namespace 37 createの文言はあるけど作り方分からず。これからかな?
Slide 38
Slide 38 text
Control Center 38 存在するデータセットやパイプラインが見れる。
Slide 39
Slide 39 text
Pipeline: List 39 実行回数や最終実行時のステータスが見れる。
Slide 40
Slide 40 text
Pipeline: Studio 40 HUBから選んで利用できる。 設定は各ボックスのプロパティから変更可能。 全体像が確認できる。 色でいろいろ分かれている。
Slide 41
Slide 41 text
Pipeline Studio: HUBにデフォルトであるもの 41
Slide 42
Slide 42 text
Wrangler 42 CDAPのdata prepが使える。 がdataprepに比べると使い勝手が悪い。。 dataprepに置き換えられると嬉しい。
Slide 43
Slide 43 text
Metadata 43 Data fusion内の検索ができる。
Slide 44
Slide 44 text
動かしてみました。 ● インプット: BigQueryとGCS ● Transformation: Join、Group By ● アウトプット: BigQuery 44
Slide 45
Slide 45 text
Input (BigQuery) ● 45 BigQueryのス キーマは自動 検知できる。
Slide 46
Slide 46 text
Input (GCS) ● 46 GCSのスキーマ は自分で指定す る必要がる。
Slide 47
Slide 47 text
Join 47 inner/outer joinする。 3つ以上のソースも可能。
Slide 48
Slide 48 text
Group By 48 普通のGroup By
Slide 49
Slide 49 text
Output 49 出力先と出力先のカラム決める。
Slide 50
Slide 50 text
実行例 50 ステータスや実行時 間が確認できる。 Logsでログ確認できる。 何件のデータがアウトプット、エラーとし て出力されたか分かる。 configureでワーカノード 数とか決められる。
Slide 51
Slide 51 text
感想 ● GUIでそこそこのパイプラインは作れる。 ● パイプライン作成中のエラーチェックは良くない。 ○ GCSのスキーマ指定やパイプラインの I/Oのつなぎで、作成中はエラーでずにデプロイでき る->実行するとこけることが何度か。。 ○ 今回作ったのぐらいなら手組みの方が楽そう。 ● Wranglerの機能がいまいち、、dataprepつなげて欲しい。 ○ 初め入れてみようかと思ったが、触ってみて断念。 ● 今回拡張、スケジュールは試せてないです。 51
Slide 52
Slide 52 text
終わりに & 宣伝 52
Slide 53
Slide 53 text
色々新しいもの出てるので試して教えて下さい!:D JTUG (Japan Trifacta User Group)作りました。 よかったら登録お願いします:) https://jtug.connpass.com/ 53
Slide 54
Slide 54 text
ありがとうございました!! 54