Slide 1

Slide 1 text

ノーコード×分析基盤で複数データソースからのデータ収集を 楽しようの話 Data Analysis Study #1 データ分析環境について 2021/09/15 CData Software Japan 宮本

Slide 2

Slide 2 text

Me • CData Software Japan(コネクタ屋さん) テクニカルサポートエンジニア • 宮本 航太(@miyamon44) • CData Sync という ELTツール 主にサポート • データストアへのデータローディング方法を色々探って いる

Slide 3

Slide 3 text

目次 1.データ分析基盤で楽した方が良いプロセス 2.自社での利用ケース 3.ノーコード系のクラウド/オンプレのELT

Slide 4

Slide 4 text

データを分析・活用するまでが⾧い

Slide 5

Slide 5 text

データを分析・活用するまでが⾧い 収集 加工 分析 活用

Slide 6

Slide 6 text

収集 加工 分析 活用 データを分析・活用するまでが⾧い 「データ準備80%、データ分析20%」と言われている 収集 加工 分析 活用 【現実】

Slide 7

Slide 7 text

いや、けど自分達でAPI経由でデータ取得するから

Slide 8

Slide 8 text

いや、けど自分達でAPI経由でデータ取得するから ドキュメントの確認だけで相当時間食いそうだ・・・

Slide 9

Slide 9 text

よっしゃ、XXXからデータを取得する仕組み作った!

Slide 10

Slide 10 text

ビジネス部門より すまんけど、XXXと〇〇〇のSaaSデータも ダッシュボードで見れるようにしてほしいんだが。

Slide 11

Slide 11 text

1企業におけるSaaS利用数 2020_StateofSaaSOpsReport

Slide 12

Slide 12 text

1企業におけるSaaS利用数 2020_StateofSaaSOpsReport これだけ多いと、データ収集 だけで一大プロジェクトに なってしまう

Slide 13

Slide 13 text

データ分析基盤で楽したい部分=データ収集 収集 加工 分析 活用 ETL/ELTツールに置き換え ETL/ELT どちらを選択すべきか迷ったら・・・ ⇒ クラウドDWHの利用なら生データのままデータストアに格納するELTを選択するのがベター 最近は変換処理専用のサービスも出てるので併用するなどできる

Slide 14

Slide 14 text

目次 1.データストアへのデータロード(収集)を楽したい理由 2.自社での利用ケース 3.ノーコード系のクラウド/オンプレのELT

Slide 15

Slide 15 text

ELT + BigQuery + DataPortal

Slide 16

Slide 16 text

データポータルから直接参照 データポータル 標準コネクタの利用

Slide 17

Slide 17 text

データポータルから直接参照 データ レイク BigQuery 1日1回 複数データソースからBigQuery へ同期 ELTツール ローカルPC で起動

Slide 18

Slide 18 text

データポータルから直接参照 データ レイク BigQuery データ マート BigQuery 上でビュー作成 ELTツール SQLで ・1日1回の定期実行 ・データマート作成時にSQL使ってる ・1人の方が業務と並行して数日で 作った ローカルPC で起動

Slide 19

Slide 19 text

目次 1.データストアへのデータロード(収集)を楽したい理由 2.自社での利用ケース 3.ノーコード系のクラウド/オンプレのELT

Slide 20

Slide 20 text

クラウド編:SaaS版ノーコードELT • サービスのアカウント一つでデータストアへの定期ローディングが可能 • データソースの追加もコネクタがあれば容易 • GUI操作でほぼ選択式でジョブ作成可 • 料金はデータ量によって決まったり、無料のデータソースもあったりする印象 • だいたい対象データはまるっとコピー的な感じ(=無駄なデータが増えやすい) • ログが取得できない、内容が少ないことも(リクエスト、レスポンス内容が把握できないな ど) 例:Stich, Singer, Fivetran など ➢ とりあえずロード。変換処理はDB側で。 ➢ SaaSかつGUI操作ですぐにデータロード可 ➢ コネクタ多数 ➢ データ量による料金体系がよくある印象 BigQuery 変換処理

Slide 21

Slide 21 text

AWS編:ETL/ELT AWS Glue Amazon AppFlow ➢ Glue Studio の利用でGUIでSaaSデータをS3にストアできる。 ➢ サードパーティコネクタ:有 ➢ JDBCDriver:利用可 ➢ データソースはまだ少なめ。 ➢ SaaSへの書き戻しができる。 ➢ データソース:Salesforce,Zendesk,Marketo,Slackなど

Slide 22

Slide 22 text

GCP編:ETL/ELT Cloud Data Fusion Dataflow(JDBCテンプレート版) ➢ ETLなので変換や接続部分のコネクタが豊富 (Speech to Text とかもある) ➢ GUI で設定が完結するので、アドホックに試す分にはお手軽な感じ ➢ サードパーティのJDBC Driverの利用が可能 ➢ テンプレートの使用で単純なデータロードはすぐできる ➢ JDBC Driver をもとにしたテンプレートなので、サードパーティ のJDBC Driver をGCSに置くだけで利用可

Slide 23

Slide 23 text

オンプレ編:インストール型ELT AirByte ➢ Dockerコンテナ上で利用 ➢ コミュニティ版だとフリーで利用可 ➢ 変換処理はDBT ➢ WEBサーバの同梱で、インストール直後からすぐに使える ➢ オンプレ内での閉じた環境内でも利用可能 ➢ APIでのジョブ実行も可能 インストール型ETLは豊富すぎるので割愛してます・・・ CData Sync

Slide 24

Slide 24 text

まとめ • SaaSデータを活用する機会は必ず増えるので、限りある人的リソース をどこで使うか考える • ELTツールでノーコードで複数データソースにも対応できる基盤 (データ収集部分)を構築しよう • ELTツールはクラウドサービス以外にもオンプレ版もあるよ

Slide 25

Slide 25 text

Thanks☺ もし ETL ツールでコネクタが足りなかったらCData に連絡してネ!