2020/9/24 #前向きデータ整備人
© 2020 CData Software Japan, LLC | www.cdata.com/jp最近使ったETL、ELTサービス(ツール)でデータ収集タスクについて考える2020/09/24CData Software Japan宮本#前向きデータ整備人
View Slide
© 2020 CData Software Japan, LLC | www.cdata.com/jp自己紹介CData Software Japan 合同会社宮本 航太(@miyamon44)エンジニア・主に製品サポートと開発、他社サービスとの検証さまざまなクラウドサービス向けのODBCドライバーやJDBCドライバーなどを提供してます。この製品でドライバーが使える!?などあればまずはご連絡いただけると嬉しいです!
© 2020 CData Software Japan, LLC | www.cdata.com/jp本日お話すること1. データ収集・整備でコストが掛かる理由2. ETL/ELTのそれぞれの役割について振り返る3. 最近使ったすぐに使えるETL/ELTについて
© 2020 CData Software Japan, LLC | www.cdata.com/jpデータ活用に対する理想と現実データは次世代の石油と呼ばれたり宝の山と呼ばれたり・・・理想 現実ゴミになることが多かったり・・・
© 2020 CData Software Japan, LLC | www.cdata.com/jp宝は掘らないと出てこないデータは使えるようにしないとインサイトは出てこない出てくる宝の価値<掘るコスト
© 2020 CData Software Japan, LLC | www.cdata.com/jpなんで掘るコストの方が大きいの?
© 2020 CData Software Japan, LLC | www.cdata.com/jp「データ準備80%、データ分析20%」と言われている→全体の中でもデータ整備人のタスクの比率が多いのが現状データを分析・活用するまでが長いデータ整備の人のタスク
© 2020 CData Software Japan, LLC | www.cdata.com/jpなんでデータ収集と加工でコストが掛かるの?
© 2020 CData Software Japan, LLC | www.cdata.com/jpコスト要因(データ量とデータソース数)← データ量が単純に増加世界のデータ量は2018年の33ゼタバイトから2025年に175ゼタバイトに!1企業で考えても扱うデータ量は増加している。データ量が年々爆発的に増加しすぎて、データ整備に時間が掛かる1企業で利用するSaaSの数 →USでの2017年時の1企業におけるSaaS利用数。SaaSが提供してるAPIを理解して接続して・・・を利用中のSaaSの数分だけ対応・・・APIごとにRESTとかSOAPとか接続規格違うし、集計とかページングとかバルク処理とか、一から調べてくのエンジニアでも大変すぎる。データ整備人が手組でここまでやり始めたら高負荷間違いなし
© 2020 CData Software Japan, LLC | www.cdata.com/jpコスト要因(半・非構造化データの増加)「非(半)構造化データは企業データの80%以上を占めており、年間55%および65%の割合で成長している」構造化データ、半構造化データ、非構造化データとか・・・えっ?データ形式がバラバラなので、結局はデータ整備やデータ収集で多くの時間を割いてしまう
© 2020 CData Software Japan, LLC | www.cdata.com/jpデータ収集って必要な作業だけど目的ではないデータドリブンな意思決定のためにデータを活用している収集・加工部分の作業にコストが掛かって大変なら、迷わずETL、ELTサービス・ツールを試してみる
© 2020 CData Software Japan, LLC | www.cdata.com/jpETL/ELTってなんだっけ?
© 2020 CData Software Japan, LLC | www.cdata.com/jpETL(Extract Transform Load)
© 2020 CData Software Japan, LLC | www.cdata.com/jpELT(Extract Load Transform)
© 2020 CData Software Japan, LLC | www.cdata.com/jpETL と ELT の比較ETL ELT処理方式 元データの変換をETL起動インスタンスで実行し、変換したデータをDWHに転送ターゲットDBで必要があれば変換。元データはそのままDWHに転送集計 データ量が増えると複雑な集計等は時間が掛かる。事前のクレンジングなどをGUIで調整できるのは◎ターゲットの能力次第で大量データでも迅速に処理が可能(BigQueryとか)。SQLで集計や変換を行う。ハード要件 オンサイトETLではハード面に費用が掛かりがち受け取ったデータをそのまま流すので特別なハードは不用。SaaS型が多かったり。⇒クラウドベースだと処理速度やハード面の不安がクリアできそう⇒複雑な変換処理を必要とする場合は不向き。けどDBにまず連携したい場合は◎
© 2020 CData Software Japan, LLC | www.cdata.com/jpデータ連携ツール選定時のポイント:接続先>データ加工https://consult.nikkeibp.co.jp/info/news/2019/0902df/データ加工=ETL/ELTのT(変換部分)
© 2020 CData Software Japan, LLC | www.cdata.com/jpとは言え、現実はツールを試すまでにも時間が掛かって導入までいかない・・・
© 2020 CData Software Japan, LLC | www.cdata.com/jp”最近使った” すぐ始められるETL/ELT サービス・ツールELT:SticthETL:Google Cloud Data FusionELT:CDataSync
© 2020 CData Software Japan, LLC | www.cdata.com/jpETL:Google Cloud Data Fusion• GCPのフルマネージドなETLサービス• GUI で全て設定可能• $1.80 / 1時間。毎月120Hは無料けどインスタンス停止中でも課金されますとりあえずで試す場合はインスタンスの放置は厳禁・・➢ ETLなので変換や接続部分のコネクタが豊富(Speech to Text とかもある)➢ GUI で設定が完結するので、アドホックに試す分にはお手軽な感じ➢ サードパーティのJDBCを利用できるのでCDataJDBC Driver も使えた!
© 2020 CData Software Japan, LLC | www.cdata.com/jp• SaaS 型のELTサービスですぐに連携ジョブを実行できる• GUI で全て設定可能• 500万件まで無料有料になってました・・・100ドル/月 (500万件まで)ELT:Stitch➢ SaaS 型なのでアカウントさえ作ってしまえばすぐに使える➢ データソースからまるっとロードするタイプ。覚えることが少なく始めるまでの障壁が少ない➢ データソースが豊富
© 2020 CData Software Japan, LLC | www.cdata.com/jp• インストール型(AWS AMIあり)• オンプレでもクラウド上でも利用可能• FREEプランあり※条件付き(AirTable,SendGrid,ZohoCRM,GSheetなど)ELT:CDataSync➢ WEBサーバが同梱されてるので、インストール直後からすぐに使える➢ オンプレ内での閉じた環境内でも利用可能➢ データソースに加えて連携先も主要RDBやS3、Accessなど充実
© 2020 CData Software Japan, LLC | www.cdata.com/jpSync+ BigQuery を使ったELT モデルのデータ分析基盤
© 2020 CData Software Japan, LLC | www.cdata.com/jp• エンジニアやデータ整備人の負荷を軽減させるなら、ツールやサービスを利用するのは全然あり• データ分析基盤のアーキテクチャを考える際、ETL、ELTどっちの方式(どこで変換させるか)を採用するかもポイント• 検討しすぎるよりはまずはツールやサービスを使って、さくっとデータ連携から可視化までをミニマムで試してみるのは◎まとめ
© 2020 CData Software Japan, LLC | www.cdata.com/jp● CDataSync ハンズオン今日紹介したELTツールのCDataSync のハンズオンを、クラウドエースさん主催の「OPENDX 2020」というイベントで明日9/2515:00-16:00で開催します。無料でご参加いただけます!宣伝
© 2020 CData Software Japan, LLC | www.cdata.com/jpThank you!!