Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
最近使ったETL、ELTサービス(ツール)でデータ収集タスクについて考える / etl-elt...
Search
Miyamotok
September 24, 2020
Technology
1
3.2k
最近使ったETL、ELTサービス(ツール)でデータ収集タスクについて考える / etl-elt-datacollect-task
2020/9/24 #前向きデータ整備人
Miyamotok
September 24, 2020
Tweet
Share
More Decks by Miyamotok
See All by Miyamotok
Amazon Appflow で Salesforce to Snowflake へのデータローディング(EL)をやってみた / appflow-salesforce-snowflake-dataloading
miyamotok
0
640
[ELTツール×BigQuery] どのAPI使ってる?それぞれのAPIについて調べてみた / elttool-bigquery-which-api
miyamotok
0
580
ノーコード×分析基盤で複数データソースからのデータ収集を楽しようの話 / multi-saas-data-extract
miyamotok
0
390
Amazon Appflow で SaaS データ取込みを自動化してQuickSightで可視化してみた / appflow-salesforce-quicksight
miyamotok
0
5.9k
AWS Glue を試してみたら、カスタムコネクタのありがたさを感じたこと / awsglue-custom-connector
miyamotok
0
2k
_CDataSync_SaaSデータのバックアップ_.pdf
miyamotok
0
1.2k
Other Decks in Technology
See All in Technology
SRE Enabling戦記 - 急成長する組織にSREを浸透させる戦いの歴史
markie1009
0
130
~Everything as Codeを諦めない~ 後からCDK
mu7889yoon
3
420
Frontier Agents (Kiro autonomous agent / AWS Security Agent / AWS DevOps Agent) の紹介
msysh
3
180
学生・新卒・ジュニアから目指すSRE
hiroyaonoe
2
630
コミュニティが変えるキャリアの地平線:コロナ禍新卒入社のエンジニアがAWSコミュニティで見つけた成長の羅針盤
kentosuzuki
0
120
Introduction to Sansan for Engineers / エンジニア向け会社紹介
sansan33
PRO
6
68k
【Ubie】AIを活用した広告アセット「爆速」生成事例 | AI_Ops_Community_Vol.2
yoshiki_0316
1
110
SREが向き合う大規模リアーキテクチャ 〜信頼性とアジリティの両立〜
zepprix
0
460
2026年、サーバーレスの現在地 -「制約と戦う技術」から「当たり前の実行基盤」へ- /serverless2026
slsops
2
250
広告の効果検証を題材にした因果推論の精度検証について
zozotech
PRO
0
190
今日から始めるAmazon Bedrock AgentCore
har1101
4
410
Codex 5.3 と Opus 4.6 にコーポレートサイトを作らせてみた / Codex 5.3 vs Opus 4.6
ama_ch
0
170
Featured
See All Featured
Marketing to machines
jonoalderson
1
4.6k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.6k
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
0
440
Ecommerce SEO: The Keys for Success Now & Beyond - #SERPConf2024
aleyda
1
1.8k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
1.7k
Information Architects: The Missing Link in Design Systems
soysaucechin
0
780
New Earth Scene 8
popppiees
1
1.5k
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
66
37k
[SF Ruby Conf 2025] Rails X
palkan
1
760
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
2
420
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
0
260
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
22k
Transcript
© 2020 CData Software Japan, LLC | www.cdata.com/jp 最近使ったETL、ELTサービス(ツール)で データ収集タスクについて考える
2020/09/24 CData Software Japan 宮本 #前向きデータ整備人
© 2020 CData Software Japan, LLC | www.cdata.com/jp 自己紹介 CData
Software Japan 合同会社 宮本 航太(@miyamon44) エンジニア ・主に製品サポートと開発、他社サービスとの検証 さまざまなクラウドサービス向けのODBCドライバーやJDBCド ライバーなどを提供してます。 この製品でドライバーが使える!?などあればまずはご連絡いた だけると嬉しいです!
© 2020 CData Software Japan, LLC | www.cdata.com/jp 本日お話すること 1.
データ収集・整備でコストが掛かる理由 2. ETL/ELTのそれぞれの役割について振り返る 3. 最近使ったすぐに使えるETL/ELTについて
© 2020 CData Software Japan, LLC | www.cdata.com/jp データ活用に対する理想と現実 データは次世代の石油と呼ばれたり
宝の山と呼ばれたり・・・ 理想 現実 ゴミになることが多かったり・・・
© 2020 CData Software Japan, LLC | www.cdata.com/jp 宝は掘らないと出てこない データは使えるようにしないとインサイトは出てこない
出てくる宝の価値<掘るコスト
© 2020 CData Software Japan, LLC | www.cdata.com/jp なんで掘るコストの方が大きいの?
© 2020 CData Software Japan, LLC | www.cdata.com/jp 「データ準備80%、データ分析20%」と言われている →全体の中でもデータ整備人のタスクの比率が多いのが現状
データを分析・活用するまでが長い データ整備の人のタスク
© 2020 CData Software Japan, LLC | www.cdata.com/jp なんでデータ収集と加工で コストが掛かるの?
© 2020 CData Software Japan, LLC | www.cdata.com/jp コスト要因(データ量とデータソース数) ←
データ量が単純に増加 世界のデータ量は2018年の33ゼタバイトか ら2025年に175ゼタバイトに! 1企業で考えても扱うデータ量は増加してい る。 データ量が年々爆発的に増加しすぎて、デー タ整備に時間が掛かる 1企業で利用するSaaSの数 → USでの2017年時の1企業におけるSaaS利用数。 SaaSが提供してるAPIを理解して接続して・・・を利用中のSaaSの数分 だけ対応・・・ APIごとにRESTとかSOAPとか接続規格違うし、集計とかページングと かバルク処理とか、一から調べてくのエンジニアでも大変すぎる。 データ整備人が手組でここまでやり始めたら高負荷間違いなし
© 2020 CData Software Japan, LLC | www.cdata.com/jp コスト要因(半・非構造化データの増加) 「非(半)構造化データは企業データの80%以上を占めており、
年間55%および65%の割合で成長している」 構造化データ、半構造化データ、非 構造化データとか・・・えっ? データ形式がバラバラなので、結局 はデータ整備やデータ収集で多くの 時間を割いてしまう
© 2020 CData Software Japan, LLC | www.cdata.com/jp データ収集って必要な作業だけど目的ではない データドリブンな意思決定のためにデータを活用している
収集・加工部分の作業にコストが掛かって大変なら、 迷わずETL、ELTサービス・ツールを試してみる
© 2020 CData Software Japan, LLC | www.cdata.com/jp ETL/ELTってなんだっけ?
© 2020 CData Software Japan, LLC | www.cdata.com/jp ETL(Extract Transform
Load)
© 2020 CData Software Japan, LLC | www.cdata.com/jp ELT(Extract Load
Transform)
© 2020 CData Software Japan, LLC | www.cdata.com/jp ETL と
ELT の比較 ETL ELT 処理方式 元データの変換をETL起動インスタンスで実 行し、変換したデータをDWHに転送 ターゲットDBで必要があれば変換。 元データはそのままDWHに転送 集計 データ量が増えると複雑な集計等は時間が掛 かる。事前のクレンジングなどをGUIで調整 できるのは◎ ターゲットの能力次第で大量データでも迅速 に処理が可能(BigQueryとか)。 SQLで集計や変換を行う。 ハード要件 オンサイトETLではハード面に費用が掛かり がち 受け取ったデータをそのまま流すので特別な ハードは不用。SaaS型が多かったり。 ⇒クラウドベースだと処理速度やハード面の 不安がクリアできそう ⇒複雑な変換処理を必要とする場合は不向き。 けどDBにまず連携したい場合は◎
© 2020 CData Software Japan, LLC | www.cdata.com/jp データ連携ツール選定時のポイント:接続先>データ加工 https://consult.nikkeibp.co.jp/info/news/2019/0902df/
データ加工= ETL/ELTのT(変換部分)
© 2020 CData Software Japan, LLC | www.cdata.com/jp とは言え、 現実はツールを試すまでにも時間が
掛かって導入までいかない・・・
© 2020 CData Software Japan, LLC | www.cdata.com/jp ”最近使った” すぐ始められるETL/ELT
サービス・ツール ELT:Sticth ETL:Google Cloud Data Fusion ELT:CDataSync
© 2020 CData Software Japan, LLC | www.cdata.com/jp ETL:Google Cloud
Data Fusion • GCPのフルマネージドなETLサービス • GUI で全て設定可能 • $1.80 / 1時間。毎月120Hは無料 けどインスタンス停止中でも課金されます とりあえずで試す場合はインスタンスの放置は厳禁・・ ➢ ETLなので変換や接続部分のコネクタが豊富 (Speech to Text とかもある) ➢ GUI で設定が完結するので、アドホックに試す 分にはお手軽な感じ ➢ サードパーティのJDBCを利用できるのでCData JDBC Driver も使えた!
© 2020 CData Software Japan, LLC | www.cdata.com/jp • SaaS
型のELTサービスですぐに連携ジ ョブを実行できる • GUI で全て設定可能 • 500万件まで無料 有料になってました・・・ 100ドル/月 (500万件まで) ELT:Stitch ➢ SaaS 型なのでアカウントさえ作ってしまえばす ぐに使える ➢ データソースからまるっとロードするタイプ。 覚えることが少なく始めるまでの障壁が少ない ➢ データソースが豊富
© 2020 CData Software Japan, LLC | www.cdata.com/jp • インストール型(AWS
AMIあり) • オンプレでもクラウド上でも利用可能 • FREEプランあり※条件付き (AirTable,SendGrid,ZohoCRM,GShee tなど) ELT:CDataSync ➢ WEBサーバが同梱されてるので、インストール 直後からすぐに使える ➢ オンプレ内での閉じた環境内でも利用可能 ➢ データソースに加えて連携先も主要RDBやS3、 Accessなど充実
© 2020 CData Software Japan, LLC | www.cdata.com/jp Sync+ BigQuery
を使った ELT モデルのデータ分析基盤
© 2020 CData Software Japan, LLC | www.cdata.com/jp • エンジニアやデータ整備人の負荷を軽減させるなら、
ツールやサービスを利用するのは全然あり • データ分析基盤のアーキテクチャを考える際、ETL、ELTどっちの方式 (どこで変換させるか)を採用するかもポイント • 検討しすぎるよりはまずはツールやサービスを使って、さくっとデー タ連携から可視化までをミニマムで試してみるのは◎ まとめ
© 2020 CData Software Japan, LLC | www.cdata.com/jp • CDataSync
ハンズオン 今日紹介したELTツールのCDataSync のハン ズオンを、クラウドエースさん主催の「OPEN DX 2020」というイベントで明日9/25 15:00-16:00で開催します。 無料でご参加いただけます! 宣伝
© 2020 CData Software Japan, LLC | www.cdata.com/jp Thank you!!