Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ノーコード×分析基盤で複数データソースからのデータ収集を楽しようの話 / multi-saas-data-extract

Miyamotok
September 15, 2021
310

ノーコード×分析基盤で複数データソースからのデータ収集を楽しようの話 / multi-saas-data-extract

Miyamotok

September 15, 2021
Tweet

More Decks by Miyamotok

Transcript

  1. Me • CData Software Japan(コネクタ屋さん) テクニカルサポートエンジニア • 宮本 航太(@miyamon44) •

    CData Sync という ELTツール 主にサポート • データストアへのデータローディング方法を色々探って いる
  2. データポータルから直接参照 データ レイク BigQuery データ マート BigQuery 上でビュー作成 ELTツール SQLで

    ・1日1回の定期実行 ・データマート作成時にSQL使ってる ・1人の方が業務と並行して数日で 作った ローカルPC で起動
  3. クラウド編:SaaS版ノーコードELT • サービスのアカウント一つでデータストアへの定期ローディングが可能 • データソースの追加もコネクタがあれば容易 • GUI操作でほぼ選択式でジョブ作成可 • 料金はデータ量によって決まったり、無料のデータソースもあったりする印象 •

    だいたい対象データはまるっとコピー的な感じ(=無駄なデータが増えやすい) • ログが取得できない、内容が少ないことも(リクエスト、レスポンス内容が把握できないな ど) 例:Stich, Singer, Fivetran など ➢ とりあえずロード。変換処理はDB側で。 ➢ SaaSかつGUI操作ですぐにデータロード可 ➢ コネクタ多数 ➢ データ量による料金体系がよくある印象 BigQuery 変換処理
  4. AWS編:ETL/ELT AWS Glue Amazon AppFlow ➢ Glue Studio の利用でGUIでSaaSデータをS3にストアできる。 ➢

    サードパーティコネクタ:有 ➢ JDBCDriver:利用可 ➢ データソースはまだ少なめ。 ➢ SaaSへの書き戻しができる。 ➢ データソース:Salesforce,Zendesk,Marketo,Slackなど
  5. GCP編:ETL/ELT Cloud Data Fusion Dataflow(JDBCテンプレート版) ➢ ETLなので変換や接続部分のコネクタが豊富 (Speech to Text

    とかもある) ➢ GUI で設定が完結するので、アドホックに試す分にはお手軽な感じ ➢ サードパーティのJDBC Driverの利用が可能 ➢ テンプレートの使用で単純なデータロードはすぐできる ➢ JDBC Driver をもとにしたテンプレートなので、サードパーティ のJDBC Driver をGCSに置くだけで利用可
  6. オンプレ編:インストール型ELT AirByte ➢ Dockerコンテナ上で利用 ➢ コミュニティ版だとフリーで利用可 ➢ 変換処理はDBT ➢ WEBサーバの同梱で、インストール直後からすぐに使える

    ➢ オンプレ内での閉じた環境内でも利用可能 ➢ APIでのジョブ実行も可能 インストール型ETLは豊富すぎるので割愛してます・・・ CData Sync