2021/4/14 JAWS-UG TOHOKU
Amazon AppFlow で SaaS データ取込みを自動化してQuickSightで可視化してみたJAWS-UG TOHOKU2021/04/14CData Software Japan宮本
View Slide
Amazon AppFlow で SaaS データ取込みを自動化してQuickSightで可視化Crawler AWS GlueData CatalogAmazon S3Athena QuickSightAWS Glue連携データBackUpAmazon AppFlow
Me• CData Software Japan のエンジニア• 宮本 航太(@miyamon44)• CData Sync (ELTツール) を年中触ってる人• テクニカルサポート、開発、他社サービスとの検証も• ETL/ELT、データ仮想化というワードをウォッチ中最近はAWS Glue、Athenaのカスタムコネクタ、S3Lambda あたりが気になってる
ノーコードデータ連携Glue Studio Azure Data Factory Google Cloud Data Fusion・ 海外、国内問わず GUI 上で完結できる(ノーコード)データ連携サービス・ツールは多くなってきてる・ 最近では ELT と呼ばれるデータ転送を主とした方式がフォーカスされているノーコード=アプリ開発というイメージが強いけど
データ連携:ETLのケースSaaSDB/S3などデータ抽出 変換 ロードDB
データ連携:ELTのケースSaaSデータ抽出 変換DB/S3などロードDBDWH:Redshift, BigQuery, Snowflake, etc…データレイク(クラウドストレージ):S3、GCS, etc…取得したデータをほぼそのままロード ロード後に必要であれば変換
Amazon AppFlow
Amazon AppFlowでそれが簡単にできるhttps://aws.amazon.com/jp/appflow/faqs/公式サイトにて
いろいろなパターンの連携が可能データ抽出 変換 ロード・ 面倒なAPI仕様もあまり気にしなくても使える・ SaaS → DWH/S3、 SaaS/File → SaaS がすぐできるAmazon RedshiftAmazon AppFlow
この連携をやってみたデータ抽出 変換 ロードSaaS to DWH、S3への転送に加え、SaaS to SaaS もできる!Amazon Redshift
AppFlowで連携後の構成Crawler AWS GlueData CatalogAmazon S3Athena QuickSightAWS Glueテーブル作成するだけなので初回だけ実行連携データBackUpAmazon AppFlow
Salesforce to S3データソース、送信先の設定は選択形式Salesforce ではイベントドリブンでジョブを実行できる例)商談データが変更された、リードデータが変更されたなど
Salesforce to S3 (トリガー)取込みを自動化したいのでスケジュール実行
Salesforce to S3 (変換)• データソースと同期先のフィールドマッピング• 取込みデータの妥当性• フィルター条件• 追加フィールドの取込み• 値のマスキング、文字列の切り捨て設定※Salesforceの場合は削除レコードの扱いを設定できた以上で設定完了。すぐに始められる。言い換えると、複雑なデータパイプラインは作成できない。
AWS Glue クローラーGlue でS3に格納したファイルをもとに推論でスキーマ情報をデータカタログに作成してくれる
AWS Glue クローラーこっちもGUI 上で選択するだけ。1回の実行でOK
AWS Glue クローラー実行後、スキーマ情報を編集できる
Athena で連携データにクエリこれでAthena上でクエリできる。→CTASで複数データソース(Salesforce と Marketoなど)を結合したテーブルを作成できる
スケジュール実行の場合、古いファイルは退避複数回の連携でファイルの中身が重複してしまうので、既存ファイルはどこかに退避すると良い。(AWS Batchなどで)
QuickSightで可視化データソースにAthenaのテーブルを選択するだけ
QuickSightで可視化データは準備できたので可視化するだけ
マルチデータソースでも同じ構成で可視化できるCrawler AWS GlueData CatalogAmazon S3Athena QuickSightAWS GlueAmazon AppFlow
まとめ1.SaaS APIのエンドポイントを熟知しなくても簡単にデータを抜き出せる2.AppFlow + Glue クローラー + Athena + QuickSight で、SaaS データを可視化できる3.データソースが変わっても同じ手法で利用できるα.SaaS への連携もできる!(CSV → Salesforce など)
Thank you!