Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
最近使ったETL、ELTサービス(ツール)でデータ収集タスクについて考える / etl-elt...
Search
Miyamotok
September 24, 2020
Technology
1
3.1k
最近使ったETL、ELTサービス(ツール)でデータ収集タスクについて考える / etl-elt-datacollect-task
2020/9/24 #前向きデータ整備人
Miyamotok
September 24, 2020
Tweet
Share
More Decks by Miyamotok
See All by Miyamotok
Amazon Appflow で Salesforce to Snowflake へのデータローディング(EL)をやってみた / appflow-salesforce-snowflake-dataloading
miyamotok
0
610
[ELTツール×BigQuery] どのAPI使ってる?それぞれのAPIについて調べてみた / elttool-bigquery-which-api
miyamotok
0
560
ノーコード×分析基盤で複数データソースからのデータ収集を楽しようの話 / multi-saas-data-extract
miyamotok
0
390
Amazon Appflow で SaaS データ取込みを自動化してQuickSightで可視化してみた / appflow-salesforce-quicksight
miyamotok
0
5.7k
AWS Glue を試してみたら、カスタムコネクタのありがたさを感じたこと / awsglue-custom-connector
miyamotok
0
2k
_CDataSync_SaaSデータのバックアップ_.pdf
miyamotok
0
1.2k
Other Decks in Technology
See All in Technology
AIとともに歩んでいくデザイナーの役割の変化
lycorptech_jp
PRO
0
890
From Natural Language to K8s Operations: The MCP Architecture and Practice of kubectl-ai
appleboy
0
250
AWS DMS で SQL Server を移行してみた/aws-dms-sql-server-migration
emiki
0
250
入院医療費算定業務をAIで支援する:包括医療費支払い制度とDPCコーディング (公開版)
hagino3000
0
110
頭部ふわふわ浄酔器
uyupun
0
110
ソフトウェアエンジニアの生成AI活用と、これから
lycorptech_jp
PRO
0
910
FinOps について (ちょっと) 本気出して考えてみた
skmkzyk
0
220
CREが作る自己解決サイクルSlackワークフローに組み込んだAIによる社内ヘルプデスク改革 #cre_meetup
bengo4com
0
350
AI時代、“平均値”ではいられない
uhyo
8
2.6k
会社を支える Pythonという言語戦略 ~なぜPythonを主要言語にしているのか?~
curekoshimizu
3
840
Linux カーネルが支えるコンテナの仕組み / LF Japan Community Days 2025 Osaka
tenforward
1
130
激動の時代を爆速リチーミングで乗り越えろ
sansantech
PRO
1
120
Featured
See All Featured
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
658
61k
Building Adaptive Systems
keathley
44
2.8k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
Music & Morning Musume
bryan
46
6.9k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.2k
Learning to Love Humans: Emotional Interface Design
aarron
274
41k
The Language of Interfaces
destraynor
162
25k
Making Projects Easy
brettharned
120
6.4k
Statistics for Hackers
jakevdp
799
220k
What's in a price? How to price your products and services
michaelherold
246
12k
How to Think Like a Performance Engineer
csswizardry
27
2.1k
Transcript
© 2020 CData Software Japan, LLC | www.cdata.com/jp 最近使ったETL、ELTサービス(ツール)で データ収集タスクについて考える
2020/09/24 CData Software Japan 宮本 #前向きデータ整備人
© 2020 CData Software Japan, LLC | www.cdata.com/jp 自己紹介 CData
Software Japan 合同会社 宮本 航太(@miyamon44) エンジニア ・主に製品サポートと開発、他社サービスとの検証 さまざまなクラウドサービス向けのODBCドライバーやJDBCド ライバーなどを提供してます。 この製品でドライバーが使える!?などあればまずはご連絡いた だけると嬉しいです!
© 2020 CData Software Japan, LLC | www.cdata.com/jp 本日お話すること 1.
データ収集・整備でコストが掛かる理由 2. ETL/ELTのそれぞれの役割について振り返る 3. 最近使ったすぐに使えるETL/ELTについて
© 2020 CData Software Japan, LLC | www.cdata.com/jp データ活用に対する理想と現実 データは次世代の石油と呼ばれたり
宝の山と呼ばれたり・・・ 理想 現実 ゴミになることが多かったり・・・
© 2020 CData Software Japan, LLC | www.cdata.com/jp 宝は掘らないと出てこない データは使えるようにしないとインサイトは出てこない
出てくる宝の価値<掘るコスト
© 2020 CData Software Japan, LLC | www.cdata.com/jp なんで掘るコストの方が大きいの?
© 2020 CData Software Japan, LLC | www.cdata.com/jp 「データ準備80%、データ分析20%」と言われている →全体の中でもデータ整備人のタスクの比率が多いのが現状
データを分析・活用するまでが長い データ整備の人のタスク
© 2020 CData Software Japan, LLC | www.cdata.com/jp なんでデータ収集と加工で コストが掛かるの?
© 2020 CData Software Japan, LLC | www.cdata.com/jp コスト要因(データ量とデータソース数) ←
データ量が単純に増加 世界のデータ量は2018年の33ゼタバイトか ら2025年に175ゼタバイトに! 1企業で考えても扱うデータ量は増加してい る。 データ量が年々爆発的に増加しすぎて、デー タ整備に時間が掛かる 1企業で利用するSaaSの数 → USでの2017年時の1企業におけるSaaS利用数。 SaaSが提供してるAPIを理解して接続して・・・を利用中のSaaSの数分 だけ対応・・・ APIごとにRESTとかSOAPとか接続規格違うし、集計とかページングと かバルク処理とか、一から調べてくのエンジニアでも大変すぎる。 データ整備人が手組でここまでやり始めたら高負荷間違いなし
© 2020 CData Software Japan, LLC | www.cdata.com/jp コスト要因(半・非構造化データの増加) 「非(半)構造化データは企業データの80%以上を占めており、
年間55%および65%の割合で成長している」 構造化データ、半構造化データ、非 構造化データとか・・・えっ? データ形式がバラバラなので、結局 はデータ整備やデータ収集で多くの 時間を割いてしまう
© 2020 CData Software Japan, LLC | www.cdata.com/jp データ収集って必要な作業だけど目的ではない データドリブンな意思決定のためにデータを活用している
収集・加工部分の作業にコストが掛かって大変なら、 迷わずETL、ELTサービス・ツールを試してみる
© 2020 CData Software Japan, LLC | www.cdata.com/jp ETL/ELTってなんだっけ?
© 2020 CData Software Japan, LLC | www.cdata.com/jp ETL(Extract Transform
Load)
© 2020 CData Software Japan, LLC | www.cdata.com/jp ELT(Extract Load
Transform)
© 2020 CData Software Japan, LLC | www.cdata.com/jp ETL と
ELT の比較 ETL ELT 処理方式 元データの変換をETL起動インスタンスで実 行し、変換したデータをDWHに転送 ターゲットDBで必要があれば変換。 元データはそのままDWHに転送 集計 データ量が増えると複雑な集計等は時間が掛 かる。事前のクレンジングなどをGUIで調整 できるのは◎ ターゲットの能力次第で大量データでも迅速 に処理が可能(BigQueryとか)。 SQLで集計や変換を行う。 ハード要件 オンサイトETLではハード面に費用が掛かり がち 受け取ったデータをそのまま流すので特別な ハードは不用。SaaS型が多かったり。 ⇒クラウドベースだと処理速度やハード面の 不安がクリアできそう ⇒複雑な変換処理を必要とする場合は不向き。 けどDBにまず連携したい場合は◎
© 2020 CData Software Japan, LLC | www.cdata.com/jp データ連携ツール選定時のポイント:接続先>データ加工 https://consult.nikkeibp.co.jp/info/news/2019/0902df/
データ加工= ETL/ELTのT(変換部分)
© 2020 CData Software Japan, LLC | www.cdata.com/jp とは言え、 現実はツールを試すまでにも時間が
掛かって導入までいかない・・・
© 2020 CData Software Japan, LLC | www.cdata.com/jp ”最近使った” すぐ始められるETL/ELT
サービス・ツール ELT:Sticth ETL:Google Cloud Data Fusion ELT:CDataSync
© 2020 CData Software Japan, LLC | www.cdata.com/jp ETL:Google Cloud
Data Fusion • GCPのフルマネージドなETLサービス • GUI で全て設定可能 • $1.80 / 1時間。毎月120Hは無料 けどインスタンス停止中でも課金されます とりあえずで試す場合はインスタンスの放置は厳禁・・ ➢ ETLなので変換や接続部分のコネクタが豊富 (Speech to Text とかもある) ➢ GUI で設定が完結するので、アドホックに試す 分にはお手軽な感じ ➢ サードパーティのJDBCを利用できるのでCData JDBC Driver も使えた!
© 2020 CData Software Japan, LLC | www.cdata.com/jp • SaaS
型のELTサービスですぐに連携ジ ョブを実行できる • GUI で全て設定可能 • 500万件まで無料 有料になってました・・・ 100ドル/月 (500万件まで) ELT:Stitch ➢ SaaS 型なのでアカウントさえ作ってしまえばす ぐに使える ➢ データソースからまるっとロードするタイプ。 覚えることが少なく始めるまでの障壁が少ない ➢ データソースが豊富
© 2020 CData Software Japan, LLC | www.cdata.com/jp • インストール型(AWS
AMIあり) • オンプレでもクラウド上でも利用可能 • FREEプランあり※条件付き (AirTable,SendGrid,ZohoCRM,GShee tなど) ELT:CDataSync ➢ WEBサーバが同梱されてるので、インストール 直後からすぐに使える ➢ オンプレ内での閉じた環境内でも利用可能 ➢ データソースに加えて連携先も主要RDBやS3、 Accessなど充実
© 2020 CData Software Japan, LLC | www.cdata.com/jp Sync+ BigQuery
を使った ELT モデルのデータ分析基盤
© 2020 CData Software Japan, LLC | www.cdata.com/jp • エンジニアやデータ整備人の負荷を軽減させるなら、
ツールやサービスを利用するのは全然あり • データ分析基盤のアーキテクチャを考える際、ETL、ELTどっちの方式 (どこで変換させるか)を採用するかもポイント • 検討しすぎるよりはまずはツールやサービスを使って、さくっとデー タ連携から可視化までをミニマムで試してみるのは◎ まとめ
© 2020 CData Software Japan, LLC | www.cdata.com/jp • CDataSync
ハンズオン 今日紹介したELTツールのCDataSync のハン ズオンを、クラウドエースさん主催の「OPEN DX 2020」というイベントで明日9/25 15:00-16:00で開催します。 無料でご参加いただけます! 宣伝
© 2020 CData Software Japan, LLC | www.cdata.com/jp Thank you!!