Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
re:Growth2022「Analytics系アップデートまとめ」
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
suto
December 06, 2022
Technology
860
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
re:Growth2022「Analytics系アップデートまとめ」
suto
December 06, 2022
More Decks by suto
See All by suto
モダンデータスタック (MDS) の話とデータ分析が起こすビジネス変革
sutotakeshi
0
1.4k
DevelopersIO2023「Amazon DataZoneを触ってみた」
sutotakeshi
0
1.8k
OSSデータカタログツール「DataHub」を触ってみた
sutotakeshi
0
6.2k
Glue DataBrewでデータを クリーニング、加工してみよう
sutotakeshi
0
10k
Other Decks in Technology
See All in Technology
作って終わりにしない タイミーのセマンティックレイヤー育成の現在地
chanyou0311
4
2.4k
エラーバジェットのアラートのタイミングを考える.pdf
kairim0
0
150
Socrates × Looker 〜セマンティックレイヤーで進化するデータ分析エージェント〜
hanon52_
3
2.3k
【NRUG vol.18】KubernetesにおけるNew Relicデータ取得量削減の考え方
nrug_member
0
110
Bedrock AgentCore RuntimeでAuth0 Changelog調査AIをアップグレードした話
t5u8a5a
1
140
エンジニアリング戦略の作り方 / Crafting Engineering Strategy
iwashi86
21
6.9k
やさしいA2A入門
minorun365
PRO
12
1.9k
Kubernetesにおける学習基盤とLLMOpsの概要
ry
1
300
フロンティアAIのゲート化と地政学リスク
nagatsu
0
140
なぜ Platform Engineering の土台に Kubernetes を選ぶのか
r4ynode
2
640
RAG を使わないという選択肢
tatsutaka
1
230
"何を作るか"を任される エンジニアは、どう育つのか
yutaokafuji
1
680
Featured
See All Featured
A Soul's Torment
seathinner
6
2.9k
sira's awesome portfolio website redesign presentation
elsirapls
0
280
VelocityConf: Rendering Performance Case Studies
addyosmani
333
25k
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
62
44k
Technical Leadership for Architectural Decision Making
baasie
3
410
HDC tutorial
michielstock
2
710
Accessibility Awareness
sabderemane
1
140
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
3.5k
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
530
My Coaching Mixtape
mlcsv
0
150
Sam Torres - BigQuery for SEOs
techseoconnect
PRO
0
290
How to Ace a Technical Interview
jacobian
281
24k
Transcript
Analytics系アップデートまとめ 地味にうれしいアップデートあるよ 2022/12/6 データアナリティクス事業本部・須藤健志
2 ⾃⼰紹介 須藤 健志 (suto takeshi) 所属 データアナリティクス事業本部 [データ分析基盤や機械学習基盤の技術⽀援を担当] Blog
h$ps://dev.classmethod.jp/author/suto-takeshi/ Twi(er @metronom9145 好きなAWSサービス Glue DataBrew、CDK 趣味 ⾳ゲー(beatmania iidx) 2022 APN AWS Top Engineers (Analy:cs) , 2022 APN ALL AWS Cer:fica:ons Engineers
3 Analytics系 今年の推しは︖ データカタログ︕ データガバナンス︕
4 Analuytics系の新サービス • Amazon DataZone • AWS Clean Rooms
5 Amazon DataZone (Preview) • 管理者が、⾃分が持つデータに 対して分類、ポリシー、連携可 能範囲を設定してデータカタロ グを作成 •
Redshift、Athena、QuickSight の他、APIでSnowflakeや Tableauなどのサードパーティ製 サービスにも連携可能 組織内に存在するデータを共有・検索・発⾒するデータカタロ グサービス ※OSSのデータカタログツールでは、OpenMetaData、Datahub などがある
6 Amazon Clean Rooms (Preview) • 必要なデータは提供しつつ全体 は秘匿するといった制御を可能 にする •
Clean Roomを介してやりとり することで、双⽅安全に必要最 ⼩限のデータを交換 • カラムレベルを含むアクセス制 御、クエリ制御、クエリ結果制 限、ロギング、暗号コンピュー ティングツールなどを提供 社外のコラボレーション相⼿に対してデータの細かいアクセス 制御を可能にするサービス
7 他のAnalyticsのアップデート 細かいのが多いけど、良いものあるよ︕
8 Analyticsアップデート⼀覧 (詳細はブログで) • Redshift • Apache Spark統合 • Multi-AZのプレビュー開始
• SQL機能を強化(MERGE, ROLLUP, CUBEなど) • S3からの⾃動データ取込み • Real-time Streaming Ingestion • 動的データマスキング • Centralized Access Control • Informatica Data Loaderが利⽤可能に • AWS Backupがサポート • Zero-ETL • QuickSight • QuickSight Qでデータの⾃動プレパレーション、 新しい質問タイプ • Operational Paginated Reports、API強化 • Glue • Glue4.0 • Glue Data Quality • Glue for Ray • Custom visual transforms • 3つのデータレイクフレームワーク • その他 • OpenSearch Serverless • DocumentDB Elastic Cluster • Athena for Apache Spark • Kinesis FirehoseがOpenSearch Serverlessをサポート • Amazon AppFlowで利⽤可能なコネクタ が22+
9 Redshi<︓Apache Spark統合 • EMR/Glue/SageMakerで稼働するApache Sparkアプリケーショ ンで、Amazon Redshift上のデータを直接読み書き可能に • EMR
6.9, Glue 4.0, Redshiftが利⽤可能な全てのリージョンでGA
10 Redshift︓Multi AZ対応可能(Preview) • RA3インスタンスで構成されるクラスタに限定 • 東京をはじめ6つのリージョンにてプレビュー開始
11 Redshift︓S3からの⾃動データ取込み(Preview) • Event BridgeのS3イベントトリガーやスケジューラ実⾏が不要に • 東京をはじめ6つのリージョンにてプレビュー開始 # コピージョブ作成 COPY
schema_name.table_name FROM 's3://<your-bucket-name>/dir/’ IAM_ROLE 'arn:aws:iam::<aws-account-id>:role/<role-name>’ FORMAT CSV IGNOREHEADER 1 JOB CREATE "job_name" AUTO ON;; # コピージョブの確認 COPY JOB LIST;
12 Redshift︓Real-time Streaming Ingestion • MSKやKinesis Data Streamから直接リアルタイムストリーミン グ データを投⼊可能に
• Redshiftをサポートする全てのリージョンでGA # Kinesis Data Streams から Amazon Redshift オブジェクトにマッピング CREATE EXTERNAL SCHEMA schema_name FROM KINESIS IAM_ROLE 'arn:aws:iam::0123456789:role/redshift-streaming-role’; #マテリアライズド ビューを作成(ビューは⾃動更新に設定されており、データがストリームに到着し続けると更新する) CREATE MATERIALIZED VIEW ev_station_data_extract DISTKEY(6) sortkey(1) AUTO REFRESH YES AS SELECT json_extract_path_text(from_varbyte(kinesis_data, 'utf-8'), '_id',true)::character(36) as ID, ~省略~ FROM schema_name.”kinesis_datastream_name" WHERE LENGTH(kinesis_data) < 65355; 【Kinesis Data Streamの場合の例】
13 Glue︓Glue4.0 • Apache Spark 3.3.0、Python 3.10、Scala 2.12に対応 • Spark
3.3.0対応によりPandas APIをシームレス利⽤できる • Apache Hudi、Apache Iceberg、Delta Lake形式のデータフォー マットをサポート • RDS, MySQL, SQL Serverに対するデータベースコネクタ が更新 され接続が簡素化 • Spark⽤のCloud Shuffle Storage Pluginがネイティブサ ポートさ れ、処理実⾏時にディスク使⽤量をスケール可能 • 実⾏中にクエリを動的に最適化するAdaptive Query Executionも 利⽤可能に
14 Glue︓Custom Visual Transforms • ETLジョブをビジュアルエディタから⾃由に定義 • AWS Glueをサポートする全てのリージョンで利⽤可能に
15 Amazon OpenSearch Serverless (Preview) • Redshift、EMR、 MSKに続き、OSSも サーバレスオプション 追加
• OpenSearch Dashboardによる データ分析や 可視化 もサポート • 東京をはじめ5つの リージョンで利⽤可能
16 AppFlow︓新たに22のデータコネクタが利⽤可能 • マーケティング:Facebook Ads、Google Ads、Instagrm Ads、 LinkedIn Ads など
• カスタマサービス:MailChimp、SendGrid、Zendesk Sell、 Freshdesk、Okta、Typeform など • ビジネスオペレーション: Microsoft Teams、Zoom Meetings、 Stripe、QuickBooks Online、Jira Cloud、 GitHub など • ※個⼈的にGoogle Analytics4に対応したのがうれしい
None