Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ノーコード×分析基盤で複数データソースからのデータ収集を楽しようの話 / multi-saas...
Search
Miyamotok
September 15, 2021
0
340
ノーコード×分析基盤で複数データソースからのデータ収集を楽しようの話 / multi-saas-data-extract
Miyamotok
September 15, 2021
Tweet
Share
More Decks by Miyamotok
See All by Miyamotok
Amazon Appflow で Salesforce to Snowflake へのデータローディング(EL)をやってみた / appflow-salesforce-snowflake-dataloading
miyamotok
0
480
[ELTツール×BigQuery] どのAPI使ってる?それぞれのAPIについて調べてみた / elttool-bigquery-which-api
miyamotok
0
500
Amazon Appflow で SaaS データ取込みを自動化してQuickSightで可視化してみた / appflow-salesforce-quicksight
miyamotok
0
5.2k
AWS Glue を試してみたら、カスタムコネクタのありがたさを感じたこと / awsglue-custom-connector
miyamotok
0
1.8k
最近使ったETL、ELTサービス(ツール)でデータ収集タスクについて考える / etl-elt-datacollect-task
miyamotok
1
2.7k
_CDataSync_SaaSデータのバックアップ_.pdf
miyamotok
0
1.1k
Featured
See All Featured
Practical Orchestrator
shlominoach
186
10k
Designing for Performance
lara
604
68k
We Have a Design System, Now What?
morganepeng
50
7.2k
How To Stay Up To Date on Web Technology
chriscoyier
789
250k
The MySQL Ecosystem @ GitHub 2015
samlambert
250
12k
Fashionably flexible responsive web design (full day workshop)
malarkey
405
65k
KATA
mclloyd
29
14k
GraphQLとの向き合い方2022年版
quramy
44
13k
StorybookのUI Testing Handbookを読んだ
zakiyama
27
5.3k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
229
52k
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
How GitHub (no longer) Works
holman
310
140k
Transcript
ノーコード×分析基盤で複数データソースからのデータ収集を 楽しようの話 Data Analysis Study #1 データ分析環境について 2021/09/15 CData Software
Japan 宮本
Me • CData Software Japan(コネクタ屋さん) テクニカルサポートエンジニア • 宮本 航太(@miyamon44) •
CData Sync という ELTツール 主にサポート • データストアへのデータローディング方法を色々探って いる
目次 1.データ分析基盤で楽した方が良いプロセス 2.自社での利用ケース 3.ノーコード系のクラウド/オンプレのELT
データを分析・活用するまでが⾧い
データを分析・活用するまでが⾧い 収集 加工 分析 活用
収集 加工 分析 活用 データを分析・活用するまでが⾧い 「データ準備80%、データ分析20%」と言われている 収集 加工 分析 活用
【現実】
いや、けど自分達でAPI経由でデータ取得するから
いや、けど自分達でAPI経由でデータ取得するから ドキュメントの確認だけで相当時間食いそうだ・・・
よっしゃ、XXXからデータを取得する仕組み作った!
ビジネス部門より すまんけど、XXXと〇〇〇のSaaSデータも ダッシュボードで見れるようにしてほしいんだが。
1企業におけるSaaS利用数 2020_StateofSaaSOpsReport
1企業におけるSaaS利用数 2020_StateofSaaSOpsReport これだけ多いと、データ収集 だけで一大プロジェクトに なってしまう
データ分析基盤で楽したい部分=データ収集 収集 加工 分析 活用 ETL/ELTツールに置き換え ETL/ELT どちらを選択すべきか迷ったら・・・ ⇒ クラウドDWHの利用なら生データのままデータストアに格納するELTを選択するのがベター
最近は変換処理専用のサービスも出てるので併用するなどできる
目次 1.データストアへのデータロード(収集)を楽したい理由 2.自社での利用ケース 3.ノーコード系のクラウド/オンプレのELT
ELT + BigQuery + DataPortal
データポータルから直接参照 データポータル 標準コネクタの利用
データポータルから直接参照 データ レイク BigQuery 1日1回 複数データソースからBigQuery へ同期 ELTツール ローカルPC で起動
データポータルから直接参照 データ レイク BigQuery データ マート BigQuery 上でビュー作成 ELTツール SQLで
・1日1回の定期実行 ・データマート作成時にSQL使ってる ・1人の方が業務と並行して数日で 作った ローカルPC で起動
目次 1.データストアへのデータロード(収集)を楽したい理由 2.自社での利用ケース 3.ノーコード系のクラウド/オンプレのELT
クラウド編:SaaS版ノーコードELT • サービスのアカウント一つでデータストアへの定期ローディングが可能 • データソースの追加もコネクタがあれば容易 • GUI操作でほぼ選択式でジョブ作成可 • 料金はデータ量によって決まったり、無料のデータソースもあったりする印象 •
だいたい対象データはまるっとコピー的な感じ(=無駄なデータが増えやすい) • ログが取得できない、内容が少ないことも(リクエスト、レスポンス内容が把握できないな ど) 例:Stich, Singer, Fivetran など ➢ とりあえずロード。変換処理はDB側で。 ➢ SaaSかつGUI操作ですぐにデータロード可 ➢ コネクタ多数 ➢ データ量による料金体系がよくある印象 BigQuery 変換処理
AWS編:ETL/ELT AWS Glue Amazon AppFlow ➢ Glue Studio の利用でGUIでSaaSデータをS3にストアできる。 ➢
サードパーティコネクタ:有 ➢ JDBCDriver:利用可 ➢ データソースはまだ少なめ。 ➢ SaaSへの書き戻しができる。 ➢ データソース:Salesforce,Zendesk,Marketo,Slackなど
GCP編:ETL/ELT Cloud Data Fusion Dataflow(JDBCテンプレート版) ➢ ETLなので変換や接続部分のコネクタが豊富 (Speech to Text
とかもある) ➢ GUI で設定が完結するので、アドホックに試す分にはお手軽な感じ ➢ サードパーティのJDBC Driverの利用が可能 ➢ テンプレートの使用で単純なデータロードはすぐできる ➢ JDBC Driver をもとにしたテンプレートなので、サードパーティ のJDBC Driver をGCSに置くだけで利用可
オンプレ編:インストール型ELT AirByte ➢ Dockerコンテナ上で利用 ➢ コミュニティ版だとフリーで利用可 ➢ 変換処理はDBT ➢ WEBサーバの同梱で、インストール直後からすぐに使える
➢ オンプレ内での閉じた環境内でも利用可能 ➢ APIでのジョブ実行も可能 インストール型ETLは豊富すぎるので割愛してます・・・ CData Sync
まとめ • SaaSデータを活用する機会は必ず増えるので、限りある人的リソース をどこで使うか考える • ELTツールでノーコードで複数データソースにも対応できる基盤 (データ収集部分)を構築しよう • ELTツールはクラウドサービス以外にもオンプレ版もあるよ
Thanks☺ もし ETL ツールでコネクタが足りなかったらCData に連絡してネ!