Slide 1

Slide 1 text

Analytics系アップデートまとめ 地味にうれしいアップデートあるよ 2022/12/6 データアナリティクス事業本部・須藤健志

Slide 2

Slide 2 text

2 ⾃⼰紹介 須藤 健志 (suto takeshi) 所属 データアナリティクス事業本部 [データ分析基盤や機械学習基盤の技術⽀援を担当] Blog h$ps://dev.classmethod.jp/author/suto-takeshi/ Twi(er @metronom9145 好きなAWSサービス Glue DataBrew、CDK 趣味 ⾳ゲー(beatmania iidx) 2022 APN AWS Top Engineers (Analy:cs) , 2022 APN ALL AWS Cer:fica:ons Engineers

Slide 3

Slide 3 text

3 Analytics系 今年の推しは︖ データカタログ︕ データガバナンス︕

Slide 4

Slide 4 text

4 Analuytics系の新サービス • Amazon DataZone • AWS Clean Rooms

Slide 5

Slide 5 text

5 Amazon DataZone (Preview) • 管理者が、⾃分が持つデータに 対して分類、ポリシー、連携可 能範囲を設定してデータカタロ グを作成 • Redshift、Athena、QuickSight の他、APIでSnowflakeや Tableauなどのサードパーティ製 サービスにも連携可能 組織内に存在するデータを共有・検索・発⾒するデータカタロ グサービス ※OSSのデータカタログツールでは、OpenMetaData、Datahub などがある

Slide 6

Slide 6 text

6 Amazon Clean Rooms (Preview) • 必要なデータは提供しつつ全体 は秘匿するといった制御を可能 にする • Clean Roomを介してやりとり することで、双⽅安全に必要最 ⼩限のデータを交換 • カラムレベルを含むアクセス制 御、クエリ制御、クエリ結果制 限、ロギング、暗号コンピュー ティングツールなどを提供 社外のコラボレーション相⼿に対してデータの細かいアクセス 制御を可能にするサービス

Slide 7

Slide 7 text

7 他のAnalyticsのアップデート 細かいのが多いけど、良いものあるよ︕

Slide 8

Slide 8 text

8 Analyticsアップデート⼀覧 (詳細はブログで) • Redshift • Apache Spark統合 • Multi-AZのプレビュー開始 • SQL機能を強化(MERGE, ROLLUP, CUBEなど) • S3からの⾃動データ取込み • Real-time Streaming Ingestion • 動的データマスキング • Centralized Access Control • Informatica Data Loaderが利⽤可能に • AWS Backupがサポート • Zero-ETL • QuickSight • QuickSight Qでデータの⾃動プレパレーション、 新しい質問タイプ • Operational Paginated Reports、API強化 • Glue • Glue4.0 • Glue Data Quality • Glue for Ray • Custom visual transforms • 3つのデータレイクフレームワーク • その他 • OpenSearch Serverless • DocumentDB Elastic Cluster • Athena for Apache Spark • Kinesis FirehoseがOpenSearch Serverlessをサポート • Amazon AppFlowで利⽤可能なコネクタ が22+

Slide 9

Slide 9 text

9 Redshi<︓Apache Spark統合 • EMR/Glue/SageMakerで稼働するApache Sparkアプリケーショ ンで、Amazon Redshift上のデータを直接読み書き可能に • EMR 6.9, Glue 4.0, Redshiftが利⽤可能な全てのリージョンでGA

Slide 10

Slide 10 text

10 Redshift︓Multi AZ対応可能(Preview) • RA3インスタンスで構成されるクラスタに限定 • 東京をはじめ6つのリージョンにてプレビュー開始

Slide 11

Slide 11 text

11 Redshift︓S3からの⾃動データ取込み(Preview) • Event BridgeのS3イベントトリガーやスケジューラ実⾏が不要に • 東京をはじめ6つのリージョンにてプレビュー開始 # コピージョブ作成 COPY schema_name.table_name FROM 's3:///dir/’ IAM_ROLE 'arn:aws:iam:::role/’ FORMAT CSV IGNOREHEADER 1 JOB CREATE "job_name" AUTO ON;; # コピージョブの確認 COPY JOB LIST;

Slide 12

Slide 12 text

12 Redshift︓Real-time Streaming Ingestion • MSKやKinesis Data Streamから直接リアルタイムストリーミン グ データを投⼊可能に • Redshiftをサポートする全てのリージョンでGA # Kinesis Data Streams から Amazon Redshift オブジェクトにマッピング CREATE EXTERNAL SCHEMA schema_name FROM KINESIS IAM_ROLE 'arn:aws:iam::0123456789:role/redshift-streaming-role’; #マテリアライズド ビューを作成(ビューは⾃動更新に設定されており、データがストリームに到着し続けると更新する) CREATE MATERIALIZED VIEW ev_station_data_extract DISTKEY(6) sortkey(1) AUTO REFRESH YES AS SELECT json_extract_path_text(from_varbyte(kinesis_data, 'utf-8'), '_id',true)::character(36) as ID, ~省略~ FROM schema_name.”kinesis_datastream_name" WHERE LENGTH(kinesis_data) < 65355; 【Kinesis Data Streamの場合の例】

Slide 13

Slide 13 text

13 Glue︓Glue4.0 • Apache Spark 3.3.0、Python 3.10、Scala 2.12に対応 • Spark 3.3.0対応によりPandas APIをシームレス利⽤できる • Apache Hudi、Apache Iceberg、Delta Lake形式のデータフォー マットをサポート • RDS, MySQL, SQL Serverに対するデータベースコネクタ が更新 され接続が簡素化 • Spark⽤のCloud Shuffle Storage Pluginがネイティブサ ポートさ れ、処理実⾏時にディスク使⽤量をスケール可能 • 実⾏中にクエリを動的に最適化するAdaptive Query Executionも 利⽤可能に

Slide 14

Slide 14 text

14 Glue︓Custom Visual Transforms • ETLジョブをビジュアルエディタから⾃由に定義 • AWS Glueをサポートする全てのリージョンで利⽤可能に

Slide 15

Slide 15 text

15 Amazon OpenSearch Serverless (Preview) • Redshift、EMR、 MSKに続き、OSSも サーバレスオプション 追加 • OpenSearch Dashboardによる データ分析や 可視化 もサポート • 東京をはじめ5つの リージョンで利⽤可能

Slide 16

Slide 16 text

16 AppFlow︓新たに22のデータコネクタが利⽤可能 • マーケティング:Facebook Ads、Google Ads、Instagrm Ads、 LinkedIn Ads など • カスタマサービス:MailChimp、SendGrid、Zendesk Sell、 Freshdesk、Okta、Typeform など • ビジネスオペレーション: Microsoft Teams、Zoom Meetings、 Stripe、QuickBooks Online、Jira Cloud、 GitHub など • ※個⼈的にGoogle Analytics4に対応したのがうれしい

Slide 17

Slide 17 text

No content