Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Speaker Deck
PRO
Sign in
Sign up for free
re:Growth2022「Analytics系アップデートまとめ」
suto
December 06, 2022
Technology
0
310
re:Growth2022「Analytics系アップデートまとめ」
suto
December 06, 2022
Tweet
Share
More Decks by suto
See All by suto
OSSデータカタログツール「DataHub」を触ってみた
sutotakeshi
0
1.6k
Glue DataBrewでデータを クリーニング、加工してみよう
sutotakeshi
0
230
Other Decks in Technology
See All in Technology
KyvernoとRed Hat ACMを用いたマルチクラスターの一元的なポリシー制御
ry
0
230
OCI技術資料 : ロード・バランサー 詳細 / Load Balancer 200
ocise
2
7.2k
ラズパイとGASで加湿器の消し忘れをLINEでリマインド&操作
minako__ph
0
150
UEでPLATEAU触ってみた
41h0_shiho
0
230
金属加工屋の営業マンがSTマイクロで・・・
usashirou
0
180
AWS Cloud Forensics & Incident Response
e11i0t_4lders0n
0
410
Oracle Cloud Infrastructure:2023年1月度サービス・アップデート
oracle4engineer
PRO
0
170
re:Inventで発表があったIoT事例の紹介と考察
kizawa2020
0
200
Periodic Multi-Agent Path Planning
hziwara
0
120
re:Invent発表のサービスを取り入れて加速する弥生のSecurity&Governance / accelerating YAYOI's Security and Governance with services announced at reinvent
yayoi_dd
0
150
ユーザーテストガイドライン VERSION 2.0
kouzoukaikaku
0
1.5k
Raspberry Pi Camera 3 介紹
piepie_tw
PRO
0
160
Featured
See All Featured
The Invisible Side of Design
smashingmag
292
48k
WebSockets: Embracing the real-time Web
robhawkes
58
6k
GraphQLの誤解/rethinking-graphql
sonatard
39
7.8k
Web development in the modern age
philhawksworth
197
9.6k
Agile that works and the tools we love
rasmusluckow
320
20k
Fontdeck: Realign not Redesign
paulrobertlloyd
74
4.3k
Designing for humans not robots
tammielis
245
24k
Building an army of robots
kneath
301
40k
Happy Clients
brianwarren
90
5.8k
Java REST API Framework Comparison - PWX 2021
mraible
PRO
13
5.4k
How To Stay Up To Date on Web Technology
chriscoyier
779
250k
Three Pipe Problems
jasonvnalue
89
8.9k
Transcript
Analytics系アップデートまとめ 地味にうれしいアップデートあるよ 2022/12/6 データアナリティクス事業本部・須藤健志
2 ⾃⼰紹介 須藤 健志 (suto takeshi) 所属 データアナリティクス事業本部 [データ分析基盤や機械学習基盤の技術⽀援を担当] Blog
h$ps://dev.classmethod.jp/author/suto-takeshi/ Twi(er @metronom9145 好きなAWSサービス Glue DataBrew、CDK 趣味 ⾳ゲー(beatmania iidx) 2022 APN AWS Top Engineers (Analy:cs) , 2022 APN ALL AWS Cer:fica:ons Engineers
3 Analytics系 今年の推しは︖ データカタログ︕ データガバナンス︕
4 Analuytics系の新サービス • Amazon DataZone • AWS Clean Rooms
5 Amazon DataZone (Preview) • 管理者が、⾃分が持つデータに 対して分類、ポリシー、連携可 能範囲を設定してデータカタロ グを作成 •
Redshift、Athena、QuickSight の他、APIでSnowflakeや Tableauなどのサードパーティ製 サービスにも連携可能 組織内に存在するデータを共有・検索・発⾒するデータカタロ グサービス ※OSSのデータカタログツールでは、OpenMetaData、Datahub などがある
6 Amazon Clean Rooms (Preview) • 必要なデータは提供しつつ全体 は秘匿するといった制御を可能 にする •
Clean Roomを介してやりとり することで、双⽅安全に必要最 ⼩限のデータを交換 • カラムレベルを含むアクセス制 御、クエリ制御、クエリ結果制 限、ロギング、暗号コンピュー ティングツールなどを提供 社外のコラボレーション相⼿に対してデータの細かいアクセス 制御を可能にするサービス
7 他のAnalyticsのアップデート 細かいのが多いけど、良いものあるよ︕
8 Analyticsアップデート⼀覧 (詳細はブログで) • Redshift • Apache Spark統合 • Multi-AZのプレビュー開始
• SQL機能を強化(MERGE, ROLLUP, CUBEなど) • S3からの⾃動データ取込み • Real-time Streaming Ingestion • 動的データマスキング • Centralized Access Control • Informatica Data Loaderが利⽤可能に • AWS Backupがサポート • Zero-ETL • QuickSight • QuickSight Qでデータの⾃動プレパレーション、 新しい質問タイプ • Operational Paginated Reports、API強化 • Glue • Glue4.0 • Glue Data Quality • Glue for Ray • Custom visual transforms • 3つのデータレイクフレームワーク • その他 • OpenSearch Serverless • DocumentDB Elastic Cluster • Athena for Apache Spark • Kinesis FirehoseがOpenSearch Serverlessをサポート • Amazon AppFlowで利⽤可能なコネクタ が22+
9 Redshi<︓Apache Spark統合 • EMR/Glue/SageMakerで稼働するApache Sparkアプリケーショ ンで、Amazon Redshift上のデータを直接読み書き可能に • EMR
6.9, Glue 4.0, Redshiftが利⽤可能な全てのリージョンでGA
10 Redshift︓Multi AZ対応可能(Preview) • RA3インスタンスで構成されるクラスタに限定 • 東京をはじめ6つのリージョンにてプレビュー開始
11 Redshift︓S3からの⾃動データ取込み(Preview) • Event BridgeのS3イベントトリガーやスケジューラ実⾏が不要に • 東京をはじめ6つのリージョンにてプレビュー開始 # コピージョブ作成 COPY
schema_name.table_name FROM 's3://<your-bucket-name>/dir/’ IAM_ROLE 'arn:aws:iam::<aws-account-id>:role/<role-name>’ FORMAT CSV IGNOREHEADER 1 JOB CREATE "job_name" AUTO ON;; # コピージョブの確認 COPY JOB LIST;
12 Redshift︓Real-time Streaming Ingestion • MSKやKinesis Data Streamから直接リアルタイムストリーミン グ データを投⼊可能に
• Redshiftをサポートする全てのリージョンでGA # Kinesis Data Streams から Amazon Redshift オブジェクトにマッピング CREATE EXTERNAL SCHEMA schema_name FROM KINESIS IAM_ROLE 'arn:aws:iam::0123456789:role/redshift-streaming-role’; #マテリアライズド ビューを作成(ビューは⾃動更新に設定されており、データがストリームに到着し続けると更新する) CREATE MATERIALIZED VIEW ev_station_data_extract DISTKEY(6) sortkey(1) AUTO REFRESH YES AS SELECT json_extract_path_text(from_varbyte(kinesis_data, 'utf-8'), '_id',true)::character(36) as ID, ~省略~ FROM schema_name.”kinesis_datastream_name" WHERE LENGTH(kinesis_data) < 65355; 【Kinesis Data Streamの場合の例】
13 Glue︓Glue4.0 • Apache Spark 3.3.0、Python 3.10、Scala 2.12に対応 • Spark
3.3.0対応によりPandas APIをシームレス利⽤できる • Apache Hudi、Apache Iceberg、Delta Lake形式のデータフォー マットをサポート • RDS, MySQL, SQL Serverに対するデータベースコネクタ が更新 され接続が簡素化 • Spark⽤のCloud Shuffle Storage Pluginがネイティブサ ポートさ れ、処理実⾏時にディスク使⽤量をスケール可能 • 実⾏中にクエリを動的に最適化するAdaptive Query Executionも 利⽤可能に
14 Glue︓Custom Visual Transforms • ETLジョブをビジュアルエディタから⾃由に定義 • AWS Glueをサポートする全てのリージョンで利⽤可能に
15 Amazon OpenSearch Serverless (Preview) • Redshift、EMR、 MSKに続き、OSSも サーバレスオプション 追加
• OpenSearch Dashboardによる データ分析や 可視化 もサポート • 東京をはじめ5つの リージョンで利⽤可能
16 AppFlow︓新たに22のデータコネクタが利⽤可能 • マーケティング:Facebook Ads、Google Ads、Instagrm Ads、 LinkedIn Ads など
• カスタマサービス:MailChimp、SendGrid、Zendesk Sell、 Freshdesk、Okta、Typeform など • ビジネスオペレーション: Microsoft Teams、Zoom Meetings、 Stripe、QuickBooks Online、Jira Cloud、 GitHub など • ※個⼈的にGoogle Analytics4に対応したのがうれしい
None