Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ノーコード×分析基盤で複数データソースからのデータ収集を楽しようの話 / multi-saas-data-extract

F274f2fd3531a606f0a5766c9052b5d8?s=47 Miyamotok
September 15, 2021
69

ノーコード×分析基盤で複数データソースからのデータ収集を楽しようの話 / multi-saas-data-extract

F274f2fd3531a606f0a5766c9052b5d8?s=128

Miyamotok

September 15, 2021
Tweet

Transcript

  1. ノーコード×分析基盤で複数データソースからのデータ収集を 楽しようの話 Data Analysis Study #1 データ分析環境について 2021/09/15 CData Software

    Japan 宮本
  2. Me • CData Software Japan(コネクタ屋さん) テクニカルサポートエンジニア • 宮本 航太(@miyamon44) •

    CData Sync という ELTツール 主にサポート • データストアへのデータローディング方法を色々探って いる
  3. 目次 1.データ分析基盤で楽した方が良いプロセス 2.自社での利用ケース 3.ノーコード系のクラウド/オンプレのELT

  4. データを分析・活用するまでが⾧い

  5. データを分析・活用するまでが⾧い 収集 加工 分析 活用

  6. 収集 加工 分析 活用 データを分析・活用するまでが⾧い 「データ準備80%、データ分析20%」と言われている 収集 加工 分析 活用

    【現実】
  7. いや、けど自分達でAPI経由でデータ取得するから

  8. いや、けど自分達でAPI経由でデータ取得するから ドキュメントの確認だけで相当時間食いそうだ・・・

  9. よっしゃ、XXXからデータを取得する仕組み作った!

  10. ビジネス部門より すまんけど、XXXと〇〇〇のSaaSデータも ダッシュボードで見れるようにしてほしいんだが。

  11. 1企業におけるSaaS利用数 2020_StateofSaaSOpsReport

  12. 1企業におけるSaaS利用数 2020_StateofSaaSOpsReport これだけ多いと、データ収集 だけで一大プロジェクトに なってしまう

  13. データ分析基盤で楽したい部分=データ収集 収集 加工 分析 活用 ETL/ELTツールに置き換え ETL/ELT どちらを選択すべきか迷ったら・・・ ⇒ クラウドDWHの利用なら生データのままデータストアに格納するELTを選択するのがベター

    最近は変換処理専用のサービスも出てるので併用するなどできる
  14. 目次 1.データストアへのデータロード(収集)を楽したい理由 2.自社での利用ケース 3.ノーコード系のクラウド/オンプレのELT

  15. ELT + BigQuery + DataPortal

  16. データポータルから直接参照 データポータル 標準コネクタの利用

  17. データポータルから直接参照 データ レイク BigQuery 1日1回 複数データソースからBigQuery へ同期 ELTツール ローカルPC で起動

  18. データポータルから直接参照 データ レイク BigQuery データ マート BigQuery 上でビュー作成 ELTツール SQLで

    ・1日1回の定期実行 ・データマート作成時にSQL使ってる ・1人の方が業務と並行して数日で 作った ローカルPC で起動
  19. 目次 1.データストアへのデータロード(収集)を楽したい理由 2.自社での利用ケース 3.ノーコード系のクラウド/オンプレのELT

  20. クラウド編:SaaS版ノーコードELT • サービスのアカウント一つでデータストアへの定期ローディングが可能 • データソースの追加もコネクタがあれば容易 • GUI操作でほぼ選択式でジョブ作成可 • 料金はデータ量によって決まったり、無料のデータソースもあったりする印象 •

    だいたい対象データはまるっとコピー的な感じ(=無駄なデータが増えやすい) • ログが取得できない、内容が少ないことも(リクエスト、レスポンス内容が把握できないな ど) 例:Stich, Singer, Fivetran など ➢ とりあえずロード。変換処理はDB側で。 ➢ SaaSかつGUI操作ですぐにデータロード可 ➢ コネクタ多数 ➢ データ量による料金体系がよくある印象 BigQuery 変換処理
  21. AWS編:ETL/ELT AWS Glue Amazon AppFlow ➢ Glue Studio の利用でGUIでSaaSデータをS3にストアできる。 ➢

    サードパーティコネクタ:有 ➢ JDBCDriver:利用可 ➢ データソースはまだ少なめ。 ➢ SaaSへの書き戻しができる。 ➢ データソース:Salesforce,Zendesk,Marketo,Slackなど
  22. GCP編:ETL/ELT Cloud Data Fusion Dataflow(JDBCテンプレート版) ➢ ETLなので変換や接続部分のコネクタが豊富 (Speech to Text

    とかもある) ➢ GUI で設定が完結するので、アドホックに試す分にはお手軽な感じ ➢ サードパーティのJDBC Driverの利用が可能 ➢ テンプレートの使用で単純なデータロードはすぐできる ➢ JDBC Driver をもとにしたテンプレートなので、サードパーティ のJDBC Driver をGCSに置くだけで利用可
  23. オンプレ編:インストール型ELT AirByte ➢ Dockerコンテナ上で利用 ➢ コミュニティ版だとフリーで利用可 ➢ 変換処理はDBT ➢ WEBサーバの同梱で、インストール直後からすぐに使える

    ➢ オンプレ内での閉じた環境内でも利用可能 ➢ APIでのジョブ実行も可能 インストール型ETLは豊富すぎるので割愛してます・・・ CData Sync
  24. まとめ • SaaSデータを活用する機会は必ず増えるので、限りある人的リソース をどこで使うか考える • ELTツールでノーコードで複数データソースにも対応できる基盤 (データ収集部分)を構築しよう • ELTツールはクラウドサービス以外にもオンプレ版もあるよ

  25. Thanks☺ もし ETL ツールでコネクタが足りなかったらCData に連絡してネ!