Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ノーコード×分析基盤で複数データソースからのデータ収集を楽しようの話 / multi-saas...
Search
Miyamotok
September 15, 2021
0
340
ノーコード×分析基盤で複数データソースからのデータ収集を楽しようの話 / multi-saas-data-extract
Miyamotok
September 15, 2021
Tweet
Share
More Decks by Miyamotok
See All by Miyamotok
Amazon Appflow で Salesforce to Snowflake へのデータローディング(EL)をやってみた / appflow-salesforce-snowflake-dataloading
miyamotok
0
460
[ELTツール×BigQuery] どのAPI使ってる?それぞれのAPIについて調べてみた / elttool-bigquery-which-api
miyamotok
0
490
Amazon Appflow で SaaS データ取込みを自動化してQuickSightで可視化してみた / appflow-salesforce-quicksight
miyamotok
0
5.1k
AWS Glue を試してみたら、カスタムコネクタのありがたさを感じたこと / awsglue-custom-connector
miyamotok
0
1.7k
最近使ったETL、ELTサービス(ツール)でデータ収集タスクについて考える / etl-elt-datacollect-task
miyamotok
1
2.7k
_CDataSync_SaaSデータのバックアップ_.pdf
miyamotok
0
1.1k
Featured
See All Featured
How To Stay Up To Date on Web Technology
chriscoyier
788
250k
Teambox: Starting and Learning
jrom
132
8.7k
Typedesign – Prime Four
hannesfritz
39
2.4k
Product Roadmaps are Hard
iamctodd
PRO
48
10k
The Cost Of JavaScript in 2023
addyosmani
45
6.6k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5k
A better future with KSS
kneath
238
17k
Into the Great Unknown - MozCon
thekraken
31
1.5k
Thoughts on Productivity
jonyablonski
67
4.3k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
46
2.1k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
41
9.2k
A designer walks into a library…
pauljervisheath
202
24k
Transcript
ノーコード×分析基盤で複数データソースからのデータ収集を 楽しようの話 Data Analysis Study #1 データ分析環境について 2021/09/15 CData Software
Japan 宮本
Me • CData Software Japan(コネクタ屋さん) テクニカルサポートエンジニア • 宮本 航太(@miyamon44) •
CData Sync という ELTツール 主にサポート • データストアへのデータローディング方法を色々探って いる
目次 1.データ分析基盤で楽した方が良いプロセス 2.自社での利用ケース 3.ノーコード系のクラウド/オンプレのELT
データを分析・活用するまでが⾧い
データを分析・活用するまでが⾧い 収集 加工 分析 活用
収集 加工 分析 活用 データを分析・活用するまでが⾧い 「データ準備80%、データ分析20%」と言われている 収集 加工 分析 活用
【現実】
いや、けど自分達でAPI経由でデータ取得するから
いや、けど自分達でAPI経由でデータ取得するから ドキュメントの確認だけで相当時間食いそうだ・・・
よっしゃ、XXXからデータを取得する仕組み作った!
ビジネス部門より すまんけど、XXXと〇〇〇のSaaSデータも ダッシュボードで見れるようにしてほしいんだが。
1企業におけるSaaS利用数 2020_StateofSaaSOpsReport
1企業におけるSaaS利用数 2020_StateofSaaSOpsReport これだけ多いと、データ収集 だけで一大プロジェクトに なってしまう
データ分析基盤で楽したい部分=データ収集 収集 加工 分析 活用 ETL/ELTツールに置き換え ETL/ELT どちらを選択すべきか迷ったら・・・ ⇒ クラウドDWHの利用なら生データのままデータストアに格納するELTを選択するのがベター
最近は変換処理専用のサービスも出てるので併用するなどできる
目次 1.データストアへのデータロード(収集)を楽したい理由 2.自社での利用ケース 3.ノーコード系のクラウド/オンプレのELT
ELT + BigQuery + DataPortal
データポータルから直接参照 データポータル 標準コネクタの利用
データポータルから直接参照 データ レイク BigQuery 1日1回 複数データソースからBigQuery へ同期 ELTツール ローカルPC で起動
データポータルから直接参照 データ レイク BigQuery データ マート BigQuery 上でビュー作成 ELTツール SQLで
・1日1回の定期実行 ・データマート作成時にSQL使ってる ・1人の方が業務と並行して数日で 作った ローカルPC で起動
目次 1.データストアへのデータロード(収集)を楽したい理由 2.自社での利用ケース 3.ノーコード系のクラウド/オンプレのELT
クラウド編:SaaS版ノーコードELT • サービスのアカウント一つでデータストアへの定期ローディングが可能 • データソースの追加もコネクタがあれば容易 • GUI操作でほぼ選択式でジョブ作成可 • 料金はデータ量によって決まったり、無料のデータソースもあったりする印象 •
だいたい対象データはまるっとコピー的な感じ(=無駄なデータが増えやすい) • ログが取得できない、内容が少ないことも(リクエスト、レスポンス内容が把握できないな ど) 例:Stich, Singer, Fivetran など ➢ とりあえずロード。変換処理はDB側で。 ➢ SaaSかつGUI操作ですぐにデータロード可 ➢ コネクタ多数 ➢ データ量による料金体系がよくある印象 BigQuery 変換処理
AWS編:ETL/ELT AWS Glue Amazon AppFlow ➢ Glue Studio の利用でGUIでSaaSデータをS3にストアできる。 ➢
サードパーティコネクタ:有 ➢ JDBCDriver:利用可 ➢ データソースはまだ少なめ。 ➢ SaaSへの書き戻しができる。 ➢ データソース:Salesforce,Zendesk,Marketo,Slackなど
GCP編:ETL/ELT Cloud Data Fusion Dataflow(JDBCテンプレート版) ➢ ETLなので変換や接続部分のコネクタが豊富 (Speech to Text
とかもある) ➢ GUI で設定が完結するので、アドホックに試す分にはお手軽な感じ ➢ サードパーティのJDBC Driverの利用が可能 ➢ テンプレートの使用で単純なデータロードはすぐできる ➢ JDBC Driver をもとにしたテンプレートなので、サードパーティ のJDBC Driver をGCSに置くだけで利用可
オンプレ編:インストール型ELT AirByte ➢ Dockerコンテナ上で利用 ➢ コミュニティ版だとフリーで利用可 ➢ 変換処理はDBT ➢ WEBサーバの同梱で、インストール直後からすぐに使える
➢ オンプレ内での閉じた環境内でも利用可能 ➢ APIでのジョブ実行も可能 インストール型ETLは豊富すぎるので割愛してます・・・ CData Sync
まとめ • SaaSデータを活用する機会は必ず増えるので、限りある人的リソース をどこで使うか考える • ELTツールでノーコードで複数データソースにも対応できる基盤 (データ収集部分)を構築しよう • ELTツールはクラウドサービス以外にもオンプレ版もあるよ
Thanks☺ もし ETL ツールでコネクタが足りなかったらCData に連絡してネ!