$30 off During Our Annual Pro Sale. View Details »

最近使ったETL、ELTサービス(ツール)でデータ収集タスクについて考える / etl-elt-datacollect-task

Miyamotok
September 24, 2020

最近使ったETL、ELTサービス(ツール)でデータ収集タスクについて考える / etl-elt-datacollect-task

2020/9/24 #前向きデータ整備人

Miyamotok

September 24, 2020
Tweet

More Decks by Miyamotok

Other Decks in Technology

Transcript

  1. © 2020 CData Software Japan, LLC | www.cdata.com/jp
    最近使ったETL、ELTサービス(ツール)で
    データ収集タスクについて考える
    2020/09/24
    CData Software Japan
    宮本
    #前向きデータ整備人

    View Slide

  2. © 2020 CData Software Japan, LLC | www.cdata.com/jp
    自己紹介
    CData Software Japan 合同会社
    宮本 航太(@miyamon44)
    エンジニア
    ・主に製品サポートと開発、他社サービスとの検証
    さまざまなクラウドサービス向けのODBCドライバーやJDBCド
    ライバーなどを提供してます。
    この製品でドライバーが使える!?などあればまずはご連絡いた
    だけると嬉しいです!

    View Slide

  3. © 2020 CData Software Japan, LLC | www.cdata.com/jp
    本日お話すること
    1. データ収集・整備でコストが掛かる理由
    2. ETL/ELTのそれぞれの役割について振り返る
    3. 最近使ったすぐに使えるETL/ELTについて

    View Slide

  4. © 2020 CData Software Japan, LLC | www.cdata.com/jp
    データ活用に対する理想と現実
    データは次世代の石油と呼ばれたり
    宝の山と呼ばれたり・・・
    理想 現実
    ゴミになることが多かったり・・・

    View Slide

  5. © 2020 CData Software Japan, LLC | www.cdata.com/jp
    宝は掘らないと出てこない
    データは使えるようにしないとインサイトは出てこない
    出てくる宝の価値<掘るコスト

    View Slide

  6. © 2020 CData Software Japan, LLC | www.cdata.com/jp
    なんで掘るコストの方が大きいの?

    View Slide

  7. © 2020 CData Software Japan, LLC | www.cdata.com/jp
    「データ準備80%、データ分析20%」と言われている
    →全体の中でもデータ整備人のタスクの比率が多いのが現状
    データを分析・活用するまでが長い
    データ整備の人のタスク

    View Slide

  8. © 2020 CData Software Japan, LLC | www.cdata.com/jp
    なんでデータ収集と加工で
    コストが掛かるの?

    View Slide

  9. © 2020 CData Software Japan, LLC | www.cdata.com/jp
    コスト要因(データ量とデータソース数)
    ← データ量が単純に増加
    世界のデータ量は2018年の33ゼタバイトか
    ら2025年に175ゼタバイトに!
    1企業で考えても扱うデータ量は増加してい
    る。
    データ量が年々爆発的に増加しすぎて、デー
    タ整備に時間が掛かる
    1企業で利用するSaaSの数 →
    USでの2017年時の1企業におけるSaaS利用数。
    SaaSが提供してるAPIを理解して接続して・・・を利用中のSaaSの数分
    だけ対応・・・
    APIごとにRESTとかSOAPとか接続規格違うし、集計とかページングと
    かバルク処理とか、一から調べてくのエンジニアでも大変すぎる。
    データ整備人が手組でここまでやり始めたら高負荷間違いなし

    View Slide

  10. © 2020 CData Software Japan, LLC | www.cdata.com/jp
    コスト要因(半・非構造化データの増加)
    「非(半)構造化データは企業データの80%以上を占めており、
    年間55%および65%の割合で成長している」
    構造化データ、半構造化データ、非
    構造化データとか・・・えっ?
    データ形式がバラバラなので、結局
    はデータ整備やデータ収集で多くの
    時間を割いてしまう

    View Slide

  11. © 2020 CData Software Japan, LLC | www.cdata.com/jp
    データ収集って必要な作業だけど目的ではない
    データドリブンな意思決定のためにデータを活用している
    収集・加工部分の作業にコストが掛かって大変なら、
    迷わずETL、ELTサービス・ツールを試してみる

    View Slide

  12. © 2020 CData Software Japan, LLC | www.cdata.com/jp
    ETL/ELTってなんだっけ?

    View Slide

  13. © 2020 CData Software Japan, LLC | www.cdata.com/jp
    ETL(Extract Transform Load)

    View Slide

  14. © 2020 CData Software Japan, LLC | www.cdata.com/jp
    ELT(Extract Load Transform)

    View Slide

  15. © 2020 CData Software Japan, LLC | www.cdata.com/jp
    ETL と ELT の比較
    ETL ELT
    処理方式 元データの変換をETL起動インスタンスで実
    行し、変換したデータをDWHに転送
    ターゲットDBで必要があれば変換。
    元データはそのままDWHに転送
    集計 データ量が増えると複雑な集計等は時間が掛
    かる。事前のクレンジングなどをGUIで調整
    できるのは◎
    ターゲットの能力次第で大量データでも迅速
    に処理が可能(BigQueryとか)。
    SQLで集計や変換を行う。
    ハード要件 オンサイトETLではハード面に費用が掛かり
    がち
    受け取ったデータをそのまま流すので特別な
    ハードは不用。SaaS型が多かったり。
    ⇒クラウドベースだと処理速度やハード面の
    不安がクリアできそう
    ⇒複雑な変換処理を必要とする場合は不向き。
    けどDBにまず連携したい場合は◎

    View Slide

  16. © 2020 CData Software Japan, LLC | www.cdata.com/jp
    データ連携ツール選定時のポイント:接続先>データ加工
    https://consult.nikkeibp.co.jp/info/news/2019/0902df/
    データ加工=
    ETL/ELTのT(変換部分)

    View Slide

  17. © 2020 CData Software Japan, LLC | www.cdata.com/jp
    とは言え、
    現実はツールを試すまでにも時間が
    掛かって導入までいかない・・・

    View Slide

  18. © 2020 CData Software Japan, LLC | www.cdata.com/jp
    ”最近使った” すぐ始められるETL/ELT サービス・ツール
    ELT:Sticth
    ETL:Google Cloud Data Fusion
    ELT:CDataSync

    View Slide

  19. © 2020 CData Software Japan, LLC | www.cdata.com/jp
    ETL:Google Cloud Data Fusion
    • GCPのフルマネージドなETLサービス
    • GUI で全て設定可能
    • $1.80 / 1時間。毎月120Hは無料
    けどインスタンス停止中でも課金されます
    とりあえずで試す場合はインスタンスの放置は厳禁・・
    ➢ ETLなので変換や接続部分のコネクタが豊富
    (Speech to Text とかもある)
    ➢ GUI で設定が完結するので、アドホックに試す
    分にはお手軽な感じ
    ➢ サードパーティのJDBCを利用できるのでCData
    JDBC Driver も使えた!

    View Slide

  20. © 2020 CData Software Japan, LLC | www.cdata.com/jp
    • SaaS 型のELTサービスですぐに連携ジ
    ョブを実行できる
    • GUI で全て設定可能
    • 500万件まで無料
    有料になってました・・・
    100ドル/月 (500万件まで)
    ELT:Stitch
    ➢ SaaS 型なのでアカウントさえ作ってしまえばす
    ぐに使える
    ➢ データソースからまるっとロードするタイプ。
    覚えることが少なく始めるまでの障壁が少ない
    ➢ データソースが豊富

    View Slide

  21. © 2020 CData Software Japan, LLC | www.cdata.com/jp
    • インストール型(AWS AMIあり)
    • オンプレでもクラウド上でも利用可能
    • FREEプランあり※条件付き
    (AirTable,SendGrid,ZohoCRM,GShee
    tなど)
    ELT:CDataSync
    ➢ WEBサーバが同梱されてるので、インストール
    直後からすぐに使える
    ➢ オンプレ内での閉じた環境内でも利用可能
    ➢ データソースに加えて連携先も主要RDBやS3、
    Accessなど充実

    View Slide

  22. © 2020 CData Software Japan, LLC | www.cdata.com/jp
    Sync+ BigQuery を使った
    ELT モデルのデータ分析基盤

    View Slide

  23. © 2020 CData Software Japan, LLC | www.cdata.com/jp
    • エンジニアやデータ整備人の負荷を軽減させるなら、
    ツールやサービスを利用するのは全然あり
    • データ分析基盤のアーキテクチャを考える際、ETL、ELTどっちの方式
    (どこで変換させるか)を採用するかもポイント
    • 検討しすぎるよりはまずはツールやサービスを使って、さくっとデー
    タ連携から可視化までをミニマムで試してみるのは◎
    まとめ

    View Slide

  24. © 2020 CData Software Japan, LLC | www.cdata.com/jp
    ● CDataSync ハンズオン
    今日紹介したELTツールのCDataSync のハン
    ズオンを、クラウドエースさん主催の「OPEN
    DX 2020」というイベントで明日9/25
    15:00-16:00で開催します。
    無料でご参加いただけます!
    宣伝

    View Slide

  25. © 2020 CData Software Japan, LLC | www.cdata.com/jp
    Thank you!!

    View Slide