Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ノーコード×分析基盤で複数データソースからのデータ収集を楽しようの話 / multi-saas-data-extract

Miyamotok
September 15, 2021
310

ノーコード×分析基盤で複数データソースからのデータ収集を楽しようの話 / multi-saas-data-extract

Miyamotok

September 15, 2021
Tweet

Transcript

  1. ノーコード×分析基盤で複数データソースからのデータ収集を
    楽しようの話
    Data Analysis Study #1
    データ分析環境について
    2021/09/15
    CData Software Japan
    宮本

    View full-size slide

  2. Me
    • CData Software Japan(コネクタ屋さん)
    テクニカルサポートエンジニア
    • 宮本 航太(@miyamon44)
    • CData Sync という ELTツール 主にサポート
    • データストアへのデータローディング方法を色々探って
    いる

    View full-size slide

  3. 目次
    1.データ分析基盤で楽した方が良いプロセス
    2.自社での利用ケース
    3.ノーコード系のクラウド/オンプレのELT

    View full-size slide

  4. データを分析・活用するまでが⾧い

    View full-size slide

  5. データを分析・活用するまでが⾧い
    収集 加工 分析 活用

    View full-size slide

  6. 収集 加工 分析 活用
    データを分析・活用するまでが⾧い
    「データ準備80%、データ分析20%」と言われている
    収集 加工 分析
    活用
    【現実】

    View full-size slide

  7. いや、けど自分達でAPI経由でデータ取得するから

    View full-size slide

  8. いや、けど自分達でAPI経由でデータ取得するから
    ドキュメントの確認だけで相当時間食いそうだ・・・

    View full-size slide

  9. よっしゃ、XXXからデータを取得する仕組み作った!

    View full-size slide

  10. ビジネス部門より
    すまんけど、XXXと〇〇〇のSaaSデータも
    ダッシュボードで見れるようにしてほしいんだが。

    View full-size slide

  11. 1企業におけるSaaS利用数
    2020_StateofSaaSOpsReport

    View full-size slide

  12. 1企業におけるSaaS利用数
    2020_StateofSaaSOpsReport
    これだけ多いと、データ収集
    だけで一大プロジェクトに
    なってしまう

    View full-size slide

  13. データ分析基盤で楽したい部分=データ収集
    収集 加工 分析
    活用
    ETL/ELTツールに置き換え
    ETL/ELT どちらを選択すべきか迷ったら・・・
    ⇒ クラウドDWHの利用なら生データのままデータストアに格納するELTを選択するのがベター
    最近は変換処理専用のサービスも出てるので併用するなどできる

    View full-size slide

  14. 目次
    1.データストアへのデータロード(収集)を楽したい理由
    2.自社での利用ケース
    3.ノーコード系のクラウド/オンプレのELT

    View full-size slide

  15. ELT + BigQuery + DataPortal

    View full-size slide

  16. データポータルから直接参照
    データポータル 標準コネクタの利用

    View full-size slide

  17. データポータルから直接参照
    データ
    レイク
    BigQuery
    1日1回 複数データソースからBigQuery へ同期
    ELTツール
    ローカルPC
    で起動

    View full-size slide

  18. データポータルから直接参照
    データ
    レイク
    BigQuery
    データ
    マート
    BigQuery 上でビュー作成
    ELTツール
    SQLで
    ・1日1回の定期実行
    ・データマート作成時にSQL使ってる
    ・1人の方が業務と並行して数日で
    作った
    ローカルPC
    で起動

    View full-size slide

  19. 目次
    1.データストアへのデータロード(収集)を楽したい理由
    2.自社での利用ケース
    3.ノーコード系のクラウド/オンプレのELT

    View full-size slide

  20. クラウド編:SaaS版ノーコードELT
    • サービスのアカウント一つでデータストアへの定期ローディングが可能
    • データソースの追加もコネクタがあれば容易
    • GUI操作でほぼ選択式でジョブ作成可
    • 料金はデータ量によって決まったり、無料のデータソースもあったりする印象
    • だいたい対象データはまるっとコピー的な感じ(=無駄なデータが増えやすい)
    • ログが取得できない、内容が少ないことも(リクエスト、レスポンス内容が把握できないな
    ど)
    例:Stich, Singer, Fivetran など
    ➢ とりあえずロード。変換処理はDB側で。
    ➢ SaaSかつGUI操作ですぐにデータロード可
    ➢ コネクタ多数
    ➢ データ量による料金体系がよくある印象
    BigQuery
    変換処理

    View full-size slide

  21. AWS編:ETL/ELT
    AWS Glue
    Amazon AppFlow
    ➢ Glue Studio の利用でGUIでSaaSデータをS3にストアできる。
    ➢ サードパーティコネクタ:有
    ➢ JDBCDriver:利用可
    ➢ データソースはまだ少なめ。
    ➢ SaaSへの書き戻しができる。
    ➢ データソース:Salesforce,Zendesk,Marketo,Slackなど

    View full-size slide

  22. GCP編:ETL/ELT
    Cloud Data Fusion
    Dataflow(JDBCテンプレート版)
    ➢ ETLなので変換や接続部分のコネクタが豊富
    (Speech to Text とかもある)
    ➢ GUI で設定が完結するので、アドホックに試す分にはお手軽な感じ
    ➢ サードパーティのJDBC Driverの利用が可能
    ➢ テンプレートの使用で単純なデータロードはすぐできる
    ➢ JDBC Driver をもとにしたテンプレートなので、サードパーティ
    のJDBC Driver をGCSに置くだけで利用可

    View full-size slide

  23. オンプレ編:インストール型ELT
    AirByte
    ➢ Dockerコンテナ上で利用
    ➢ コミュニティ版だとフリーで利用可
    ➢ 変換処理はDBT
    ➢ WEBサーバの同梱で、インストール直後からすぐに使える
    ➢ オンプレ内での閉じた環境内でも利用可能
    ➢ APIでのジョブ実行も可能
    インストール型ETLは豊富すぎるので割愛してます・・・
    CData Sync

    View full-size slide

  24. まとめ
    • SaaSデータを活用する機会は必ず増えるので、限りある人的リソース
    をどこで使うか考える
    • ELTツールでノーコードで複数データソースにも対応できる基盤
    (データ収集部分)を構築しよう
    • ELTツールはクラウドサービス以外にもオンプレ版もあるよ

    View full-size slide

  25. Thanks☺
    もし ETL ツールでコネクタが足りなかったらCData に連絡してネ!

    View full-size slide