Slide 1

Slide 1 text

BigQueryの 簡単データ参照 2019/12/08 GDG DevFest Osaka 2019 rito

Slide 2

Slide 2 text

Agenda ❏ 自己紹介 ❏ 以前のビッグデータ分析基盤 ❏ ビッグデータ出力の検討 ❏ Connected Sheetsの特徴 ❏ まとめ 2

Slide 3

Slide 3 text

自己紹介 名前: rito 職業: Webエンジニア (アプリケーションエンジニア) 分野: Ruby on Rails, Nodejs, React, Docker, AWS, GCP 所属: Ateam Finergy Inc. コミュニティ: GDG Osaka Rails follow-up Osaka Osaka Web Developers Meetup twitter: @chimame_rt GitHub: chimame 3

Slide 4

Slide 4 text

以前のビックデータ分析 基盤

Slide 5

Slide 5 text

構成 5 Amazon RDS Amazon Redshift Amazon RDS Amazon RDS

Slide 6

Slide 6 text

構成 6 Amazon RDS Amazon Redshift Amazon RDS Amazon RDS 各システムで保持しているデータをRedshiftに 集約

Slide 7

Slide 7 text

7 Amazon RDS Amazon RDS Amazon RDS 構成 Amazon Redshift 独自に構築したアプリケーションからデータを 参照・取得することが可能

Slide 8

Slide 8 text

8 Amazon RDS Amazon Redshift Amazon RDS Amazon RDS 構成 Microsoftが生み出した強力BIツールのExcel でデータをこねくり回す

Slide 9

Slide 9 text

以前のビッグデータ基盤の課題 ❏ アプケーションが作成されたのは2013年 ❏ ExcelのためのCSV出力機能でくそデカイデータ を落とすとメモリが足りず落ちる ❏ Redshiftって結構お高いです 9

Slide 10

Slide 10 text

そもそもこんな古いアプリケーション 面倒見たくない!!! 10

Slide 11

Slide 11 text

11 よろしいならば移行だ (言い出しっぺがやる法則)

Slide 12

Slide 12 text

12

Slide 13

Slide 13 text

ビックデータ出力の 検討

Slide 14

Slide 14 text

構成 14 Amazon RDS BigQuery Amazon RDS Amazon RDS New

Slide 15

Slide 15 text

とりあえずRedshift剥がして BigQueryにデータ入れるところから検討 15

Slide 16

Slide 16 text

16

Slide 17

Slide 17 text

選定理由 ❏ リアルタイムに連携する必要はない ❏ DigdagはEmbulkの再実行やエラーハンドリン グが楽 ❏ BigQueryはデータ”更新”が容易ではないので更 新ジョブも必要になり、Digdagでジョブフローとし て管理できるため 17

Slide 18

Slide 18 text

ここまでは簡単簡単 18

Slide 19

Slide 19 text

データは入れたら終わりじゃない 19

Slide 20

Slide 20 text

データは取り出せないと意味がない 20

Slide 21

Slide 21 text

しかもエンジニア以外にも 簡単に参照させる 21

Slide 22

Slide 22 text

Try1. Metabase 22

Slide 23

Slide 23 text

Amazon RDS Amazon RDS Amazon RDS 構成 23 BigQuery New

Slide 24

Slide 24 text

よかった点 ❏ BigQueryへのコネクタも標準で搭載 ❏ データのビジュアライズツールのおかげでエンジ ニア以外も簡単にデータ取得できる(SQL不要) 24

Slide 25

Slide 25 text

選択しなかった理由 ❏ 吐き出されるSQLではBigQueryのパーティショ ン分割テーブルに対応できない ❏ データをこねくり回すにはCSV出力してExcelを使 わなければならず、単体では厳しい 25

Slide 26

Slide 26 text

Try2. BigQuery to Spread Sheets by BigQuery data connecter 26

Slide 27

Slide 27 text

Amazon RDS Amazon RDS Amazon RDS 構成 27 BigQuery New

Slide 28

Slide 28 text

よかった点 ❏ 標準機能として提供されている安心感 ❏ セットアップいらずですぐに使用が開始できる 28

Slide 29

Slide 29 text

選択しなかった理由 ❏ データ取得にはSQLが必要 ❏ 取得できたとしても最大1万行という制約 29

Slide 30

Slide 30 text

Try3. BigQuery to Spread Sheets by Google Apps Script 30

Slide 31

Slide 31 text

Amazon RDS Amazon RDS Amazon RDS 構成 31 BigQuery New

Slide 32

Slide 32 text

よかった点 ❏ 標準のBigQuery data connecterの1万行制 限を超えることができる 32

Slide 33

Slide 33 text

選択しなかった理由 ❏ プログラムの配布が面倒(アドオン配布 ❏ 標準のBigQuery data connecterより重い ❏ SQLがやっぱり必要になる 33

Slide 34

Slide 34 text

どれもいい案とは言えない 34

Slide 35

Slide 35 text

Google Cloud Next'19 で発表された Connected Sheetsの存在は知ってた 35

Slide 36

Slide 36 text

過去にβ使用の申請はあげていが まだリリースされない 36

Slide 37

Slide 37 text

(メールを貼り付ける) 37

Slide 38

Slide 38 text

(メールを貼り付ける) 38 意訳) もうちょっとであなたのドメインでConnected Sheets 使えるようになるから待ってて(はぁと

Slide 39

Slide 39 text

さっそく試す 39

Slide 40

Slide 40 text

Connected Sheets の特徴

Slide 41

Slide 41 text

“ 41 Connected Sheetsとは ◂ 数百億行でもスプレッドシートの表として使用 可能 ◂ SQLが不要 ◂ スプレッドシート同様に式、グラフ、ピボットと して使用可能

Slide 42

Slide 42 text

Amazon RDS Amazon RDS Amazon RDS 構成 42 BigQuery New Connected Sheets

Slide 43

Slide 43 text

実際の使用イメージ 43

Slide 44

Slide 44 text

44 メニュー→データ→データコネクタ→BigQueryに接続 と選択していく

Slide 45

Slide 45 text

45 プロジェクト→データセット→テーブル と選択していく

Slide 46

Slide 46 text

46 これだけで2.4億行のデータを参照可能

Slide 47

Slide 47 text

47

Slide 48

Slide 48 text

48 2.4億行のデータ元にピボットテーブルの作成 が可能

Slide 49

Slide 49 text

49

Slide 50

Slide 50 text

50 2.4億行の内最大で5万行のROWデータを取 得が可能

Slide 51

Slide 51 text

求めたてのはコレ!!!! 51

Slide 52

Slide 52 text

まとめ

Slide 53

Slide 53 text

まとめ ◂ ビッグデータを格納・集約するのも大事だが、取り 出しも容易にできることを考える必要がある ◂ Connected Sheetsを使えば今までの BigQuery連携とは違いSQLいらずなのでエンジ ニア以外も気軽に使うことができる ◂ BigQuery上のROWデータを使えばスプレッド シートの最大セル数をあっという間に上限になる ので用法用量を持って使う 53

Slide 54

Slide 54 text

54 Thanks! ご清聴ありがとうございました。 ◂ rito ◂ @chimame_rt