2021/2/24 JAWS-UG TOHOKU
AWS Glue を試してみたら、カスタムコネクタのありがたさを感じたことJAWS-UG TOHOKU2021/02/24CData Software Japan宮本
View Slide
自己紹介宮本 航太(@miyamon44)CData Software Japan 合同会社CData Syncを年中触ってる人普段は製品サポートを中心に、開発、他社サービスとの検証これからAWSと仲良しになりたいので、今はお気に入りになりそうなサービスを調査中
CData Glue Connectors Release!!
リリースするのは知っていたけど・・・ぐるー?名前は聞いたことあるけど?
ちょっと調べてみた公式ページより、 ‘‘分析、機械学習、アプリケーション開発のためのデータの検出、準備、結合を簡単に行える、サーバーレスデータ統合サービス’’AWS上のETLサービス データパイプラインの作成が可能
ざっくりこんなイメージ店舗ごとの売上データデータレイク データマート変換売上分析
データパイプラインの作成の前に・・AWS Glue Studio というのがなんか新機能っぽいぞ実際にやってみる
‘‘AWS Glue Studio は、AWS Glue で抽出、変換、およびロード (ETL) ジョブの作成、実行、監視を容易にする新しいグラフィカルインターフェイスです。’’AWS Glue Studio
キャンバス上でポチポチデータパイプラインを作成するなら「Blank graph」を選択するJobの作成
+でNodeを追加■対応データソースS3、Kinesis、Kafka、JDBC、Redshift■変換処理データマージやマッピングなどカスタムで定義可■連携先S3、AWS Glue Data CatalogJobの作成
フローを定義するとコード(Python)が生成される
実行
ここでちょっと思ったお、GUIでデータパイプラインの定義ができるのはよさげ。けど、ETLならSaaS のデータも取得したいんだけどなぁ。自分で実装するのは辛し。
データソースDBDBDBDWHETLおさらい(従来のETL)変換 ロード社内システム毎に保持してるデータ
データソースDBDBDBDWHETLおさらい変換 ロードETL:Extract Transform Load の略データを抽出して → 変換して → ターゲットDBにロードするという構成のこと
データソース最近よくみるETLツール・サービスはこんな感じ変換 ロード
ざっくりこんなイメージ(SaaSデータ版)SaaSデータマート変換SaaSを横断したデータ活用コードを書かずGUIだけでこの構成を作りたい!
どうやってSaaSに接続するのか?最近の話⇒コネクタをサブスクライブ!以上!
コネクタをサブスクライブしたら例えば CData AWS GlueConnector for Salesforce を登録したら、Node type に表示され選択できる
Salesforce から S3 へS3を軸に、これまで以上に色んなサービスやツールでのデータ活用が活性化されるDB
・Glue でカスタムコネクタというものが提供開始されてた・SaaS をソースとしたデータパイプライン作成が容易・S3を軸としたデータ活用が更に活性化されそうまとめThank you!