Upgrade to Pro — share decks privately, control downloads, hide ads and more …

re:Growth2022「Analytics系アップデートまとめ」

suto
December 06, 2022

 re:Growth2022「Analytics系アップデートまとめ」

suto

December 06, 2022
Tweet

More Decks by suto

Other Decks in Technology

Transcript

  1. Analytics系アップデートまとめ 地味にうれしいアップデートあるよ 2022/12/6 データアナリティクス事業本部・須藤健志

  2. 2 ⾃⼰紹介 須藤 健志 (suto takeshi) 所属 データアナリティクス事業本部 [データ分析基盤や機械学習基盤の技術⽀援を担当] Blog

    h$ps://dev.classmethod.jp/author/suto-takeshi/ Twi(er @metronom9145 好きなAWSサービス Glue DataBrew、CDK 趣味 ⾳ゲー(beatmania iidx) 2022 APN AWS Top Engineers (Analy:cs) , 2022 APN ALL AWS Cer:fica:ons Engineers
  3. 3 Analytics系 今年の推しは︖ データカタログ︕ データガバナンス︕

  4. 4 Analuytics系の新サービス • Amazon DataZone • AWS Clean Rooms

  5. 5 Amazon DataZone (Preview) • 管理者が、⾃分が持つデータに 対して分類、ポリシー、連携可 能範囲を設定してデータカタロ グを作成 •

    Redshift、Athena、QuickSight の他、APIでSnowflakeや Tableauなどのサードパーティ製 サービスにも連携可能 組織内に存在するデータを共有・検索・発⾒するデータカタロ グサービス ※OSSのデータカタログツールでは、OpenMetaData、Datahub などがある
  6. 6 Amazon Clean Rooms (Preview) • 必要なデータは提供しつつ全体 は秘匿するといった制御を可能 にする •

    Clean Roomを介してやりとり することで、双⽅安全に必要最 ⼩限のデータを交換 • カラムレベルを含むアクセス制 御、クエリ制御、クエリ結果制 限、ロギング、暗号コンピュー ティングツールなどを提供 社外のコラボレーション相⼿に対してデータの細かいアクセス 制御を可能にするサービス
  7. 7 他のAnalyticsのアップデート 細かいのが多いけど、良いものあるよ︕

  8. 8 Analyticsアップデート⼀覧 (詳細はブログで) • Redshift • Apache Spark統合 • Multi-AZのプレビュー開始

    • SQL機能を強化(MERGE, ROLLUP, CUBEなど) • S3からの⾃動データ取込み • Real-time Streaming Ingestion • 動的データマスキング • Centralized Access Control • Informatica Data Loaderが利⽤可能に • AWS Backupがサポート • Zero-ETL • QuickSight • QuickSight Qでデータの⾃動プレパレーション、 新しい質問タイプ • Operational Paginated Reports、API強化 • Glue • Glue4.0 • Glue Data Quality • Glue for Ray • Custom visual transforms • 3つのデータレイクフレームワーク • その他 • OpenSearch Serverless • DocumentDB Elastic Cluster • Athena for Apache Spark • Kinesis FirehoseがOpenSearch Serverlessをサポート • Amazon AppFlowで利⽤可能なコネクタ が22+
  9. 9 Redshi<︓Apache Spark統合 • EMR/Glue/SageMakerで稼働するApache Sparkアプリケーショ ンで、Amazon Redshift上のデータを直接読み書き可能に • EMR

    6.9, Glue 4.0, Redshiftが利⽤可能な全てのリージョンでGA
  10. 10 Redshift︓Multi AZ対応可能(Preview) • RA3インスタンスで構成されるクラスタに限定 • 東京をはじめ6つのリージョンにてプレビュー開始

  11. 11 Redshift︓S3からの⾃動データ取込み(Preview) • Event BridgeのS3イベントトリガーやスケジューラ実⾏が不要に • 東京をはじめ6つのリージョンにてプレビュー開始 # コピージョブ作成 COPY

    schema_name.table_name FROM 's3://<your-bucket-name>/dir/’ IAM_ROLE 'arn:aws:iam::<aws-account-id>:role/<role-name>’ FORMAT CSV IGNOREHEADER 1 JOB CREATE "job_name" AUTO ON;; # コピージョブの確認 COPY JOB LIST;
  12. 12 Redshift︓Real-time Streaming Ingestion • MSKやKinesis Data Streamから直接リアルタイムストリーミン グ データを投⼊可能に

    • Redshiftをサポートする全てのリージョンでGA # Kinesis Data Streams から Amazon Redshift オブジェクトにマッピング CREATE EXTERNAL SCHEMA schema_name FROM KINESIS IAM_ROLE 'arn:aws:iam::0123456789:role/redshift-streaming-role’; #マテリアライズド ビューを作成(ビューは⾃動更新に設定されており、データがストリームに到着し続けると更新する) CREATE MATERIALIZED VIEW ev_station_data_extract DISTKEY(6) sortkey(1) AUTO REFRESH YES AS SELECT json_extract_path_text(from_varbyte(kinesis_data, 'utf-8'), '_id',true)::character(36) as ID, ~省略~ FROM schema_name.”kinesis_datastream_name" WHERE LENGTH(kinesis_data) < 65355; 【Kinesis Data Streamの場合の例】
  13. 13 Glue︓Glue4.0 • Apache Spark 3.3.0、Python 3.10、Scala 2.12に対応 • Spark

    3.3.0対応によりPandas APIをシームレス利⽤できる • Apache Hudi、Apache Iceberg、Delta Lake形式のデータフォー マットをサポート • RDS, MySQL, SQL Serverに対するデータベースコネクタ が更新 され接続が簡素化 • Spark⽤のCloud Shuffle Storage Pluginがネイティブサ ポートさ れ、処理実⾏時にディスク使⽤量をスケール可能 • 実⾏中にクエリを動的に最適化するAdaptive Query Executionも 利⽤可能に
  14. 14 Glue︓Custom Visual Transforms • ETLジョブをビジュアルエディタから⾃由に定義 • AWS Glueをサポートする全てのリージョンで利⽤可能に

  15. 15 Amazon OpenSearch Serverless (Preview) • Redshift、EMR、 MSKに続き、OSSも サーバレスオプション 追加

    • OpenSearch Dashboardによる データ分析や 可視化 もサポート • 東京をはじめ5つの リージョンで利⽤可能
  16. 16 AppFlow︓新たに22のデータコネクタが利⽤可能 • マーケティング:Facebook Ads、Google Ads、Instagrm Ads、 LinkedIn Ads など

    • カスタマサービス:MailChimp、SendGrid、Zendesk Sell、 Freshdesk、Okta、Typeform など • ビジネスオペレーション: Microsoft Teams、Zoom Meetings、 Stripe、QuickBooks Online、Jira Cloud、 GitHub など • ※個⼈的にGoogle Analytics4に対応したのがうれしい
  17. None