BigQueryの簡単データ参照

52f95e52a6d71b67361ac179fb8405f4?s=47 chimame
December 08, 2019

 BigQueryの簡単データ参照

GDG DevFest Osaka 2019

52f95e52a6d71b67361ac179fb8405f4?s=128

chimame

December 08, 2019
Tweet

Transcript

  1. BigQueryの 簡単データ参照 2019/12/08 GDG DevFest Osaka 2019 rito

  2. Agenda ❏ 自己紹介 ❏ 以前のビッグデータ分析基盤 ❏ ビッグデータ出力の検討 ❏ Connected Sheetsの特徴

    ❏ まとめ 2
  3. 自己紹介 名前: rito 職業: Webエンジニア (アプリケーションエンジニア) 分野: Ruby on Rails,

    Nodejs, React, Docker, AWS, GCP 所属: Ateam Finergy Inc. コミュニティ: GDG Osaka Rails follow-up Osaka Osaka Web Developers Meetup twitter: @chimame_rt GitHub: chimame 3
  4. 以前のビックデータ分析 基盤

  5. 構成 5 Amazon RDS Amazon Redshift Amazon RDS Amazon RDS

  6. 構成 6 Amazon RDS Amazon Redshift Amazon RDS Amazon RDS

    各システムで保持しているデータをRedshiftに 集約
  7. 7 Amazon RDS Amazon RDS Amazon RDS 構成 Amazon Redshift

    独自に構築したアプリケーションからデータを 参照・取得することが可能
  8. 8 Amazon RDS Amazon Redshift Amazon RDS Amazon RDS 構成

    Microsoftが生み出した強力BIツールのExcel でデータをこねくり回す
  9. 以前のビッグデータ基盤の課題 ❏ アプケーションが作成されたのは2013年 ❏ ExcelのためのCSV出力機能でくそデカイデータ を落とすとメモリが足りず落ちる ❏ Redshiftって結構お高いです 9

  10. そもそもこんな古いアプリケーション 面倒見たくない!!! 10

  11. 11 よろしいならば移行だ (言い出しっぺがやる法則)

  12. 12

  13. ビックデータ出力の 検討

  14. 構成 14 Amazon RDS BigQuery Amazon RDS Amazon RDS New

  15. とりあえずRedshift剥がして BigQueryにデータ入れるところから検討 15

  16. 16

  17. 選定理由 ❏ リアルタイムに連携する必要はない ❏ DigdagはEmbulkの再実行やエラーハンドリン グが楽 ❏ BigQueryはデータ”更新”が容易ではないので更 新ジョブも必要になり、Digdagでジョブフローとし て管理できるため

    17
  18. ここまでは簡単簡単 18

  19. データは入れたら終わりじゃない 19

  20. データは取り出せないと意味がない 20

  21. しかもエンジニア以外にも 簡単に参照させる 21

  22. Try1. Metabase 22

  23. Amazon RDS Amazon RDS Amazon RDS 構成 23 BigQuery New

  24. よかった点 ❏ BigQueryへのコネクタも標準で搭載 ❏ データのビジュアライズツールのおかげでエンジ ニア以外も簡単にデータ取得できる(SQL不要) 24

  25. 選択しなかった理由 ❏ 吐き出されるSQLではBigQueryのパーティショ ン分割テーブルに対応できない ❏ データをこねくり回すにはCSV出力してExcelを使 わなければならず、単体では厳しい 25

  26. Try2. BigQuery to Spread Sheets by BigQuery data connecter 26

  27. Amazon RDS Amazon RDS Amazon RDS 構成 27 BigQuery New

  28. よかった点 ❏ 標準機能として提供されている安心感 ❏ セットアップいらずですぐに使用が開始できる 28

  29. 選択しなかった理由 ❏ データ取得にはSQLが必要 ❏ 取得できたとしても最大1万行という制約 29

  30. Try3. BigQuery to Spread Sheets by Google Apps Script 30

  31. Amazon RDS Amazon RDS Amazon RDS 構成 31 BigQuery New

  32. よかった点 ❏ 標準のBigQuery data connecterの1万行制 限を超えることができる 32

  33. 選択しなかった理由 ❏ プログラムの配布が面倒(アドオン配布 ❏ 標準のBigQuery data connecterより重い ❏ SQLがやっぱり必要になる 33

  34. どれもいい案とは言えない 34

  35. Google Cloud Next'19 で発表された Connected Sheetsの存在は知ってた 35

  36. 過去にβ使用の申請はあげていが まだリリースされない 36

  37. (メールを貼り付ける) 37

  38. (メールを貼り付ける) 38 意訳) もうちょっとであなたのドメインでConnected Sheets 使えるようになるから待ってて(はぁと

  39. さっそく試す 39

  40. Connected Sheets の特徴

  41. “ 41 Connected Sheetsとは ◂ 数百億行でもスプレッドシートの表として使用 可能 ◂ SQLが不要 ◂

    スプレッドシート同様に式、グラフ、ピボットと して使用可能
  42. Amazon RDS Amazon RDS Amazon RDS 構成 42 BigQuery New

    Connected Sheets
  43. 実際の使用イメージ 43

  44. 44 メニュー→データ→データコネクタ→BigQueryに接続 と選択していく

  45. 45 プロジェクト→データセット→テーブル と選択していく

  46. 46 これだけで2.4億行のデータを参照可能

  47. 47

  48. 48 2.4億行のデータ元にピボットテーブルの作成 が可能

  49. 49

  50. 50 2.4億行の内最大で5万行のROWデータを取 得が可能

  51. 求めたてのはコレ!!!! 51

  52. まとめ

  53. まとめ ◂ ビッグデータを格納・集約するのも大事だが、取り 出しも容易にできることを考える必要がある ◂ Connected Sheetsを使えば今までの BigQuery連携とは違いSQLいらずなのでエンジ ニア以外も気軽に使うことができる ◂

    BigQuery上のROWデータを使えばスプレッド シートの最大セル数をあっという間に上限になる ので用法用量を持って使う 53
  54. 54 Thanks! ご清聴ありがとうございました。 ◂ rito ◂ @chimame_rt