2022.09.26 JAWS#21 での発表資料です。
イベント URL https://jawsug-bigdata.connpass.com/event/257903/
© 2022, Amazon Web Services, Inc. or its affiliates.© 2022, Amazon Web Services, Inc. or its affiliates.BigData-JAWS #21秋の夜⻑に語る AWS Analytics最新アップデートJunpei OzonoSenior Solutions ArchitectAmazon Web Services Japan G.K.Sep 26, 2022
View Slide
© 2022, Amazon Web Services, Inc. or its affiliates.⾃⼰紹介⼤薗 純平 (おおぞの じゅんぺい)Analytics Specialist SALike: Travel, Beer, Soccer, BicycleTwitter: @jostandard
© 2022, Amazon Web Services, Inc. or its affiliates.© 2022, Amazon Web Services, Inc. or its affiliates.AWS Analytics Update 20223
© 2022, Amazon Web Services, Inc. or its affiliates.AWS Analytics Services収集 ETL/統合/蓄積 分析 BI/可視化Amazon KinesisData StreamsAmazon KinesisData FirehoseAmazon ManagedStreaming forApache Kafka(MSK)Amazon KinesisData AnalyticsAWS Lake FormationAWS Glue DataBrewAWS GlueAmazon S3Amazon Athena Amazon RedshiftAmazon OpenSearchServiceAmazon EMRAmazon QuickSight蓄積
© 2022, Amazon Web Services, Inc. or its affiliates.© 2022, Amazon Web Services, Inc. or its affiliates.収集5収集 ETL/統合/蓄積 分析 BI/可視化Amazon KinesisData StreamsAmazon KinesisData FirehoseAmazon ManagedStreaming forApache Kafka(MSK)Amazon KinesisData AnalyticsAWS Lake FormationAWS Glue DataBrewAWS GlueAmazon S3Amazon Athena Amazon RedshiftAmazon OpenSearchServiceAmazon EMRAmazon QuickSight蓄積
© 2022, Amazon Web Services, Inc. or its affiliates.Amazon MSK Serverless が⼀般利⽤可能 (GA)かつ、東京リージョンで利⽤可能に6Service VPCCustomer VPCAWS PrivateLink Amazon ManagedStreaming for Apache KafkaElastic networkinterfaceApache Kafka のフルマネージドサービス Amazon Managed Streaming for Kafka (Amazon MSK) で、キャパシティ管理の⼿間が不要になる新機能• 最⼤ 200 MB/s (書き込み)、400 MB/s(読み取り) まで動的にスケール• ブローカーインスタンス管理は不要。トピックのパーティション配置も⾃動で最適化される• ブローカーインスタンス毎の課⾦は発⽣しない。保持データおよび書き込み、読み取りに対する課⾦• 東京リージョンを含む 9 リージョンで利⽤可能クライアントは broker を意識する必要は無く、単⼀の bootstrap エンドポイントを指定して接続するboot-xxxxxxxx.cN.kafka-serverless.us-east-2.amazonaws.com:9098
© 2022, Amazon Web Services, Inc. or its affiliates.7MSK, MSK Serverless の使い分けMSK Serverless の利⽤を検討するケース• ワークロードが予測不可能で安定しない• キャパシティ管理をサービス側にオフロードしたい• 精緻なサイジングを⾏わず, すぐに MSK の利⽤を開始したいMSK の利⽤を検討するケース• 設定を詳細にコントロールしたい• ワークロードが安定しており, 予測可能• ワークロードが⼤きい
© 2022, Amazon Web Services, Inc. or its affiliates.© 2022, Amazon Web Services, Inc. or its affiliates.ETL/統合/蓄積8収集 ETL/統合/蓄積 分析 BI/可視化Amazon KinesisData StreamsAmazon KinesisData FirehoseAmazon ManagedStreaming forApache Kafka(MSK)Amazon KinesisData AnalyticsAWS Lake FormationAWS Glue DataBrewAWS GlueAmazon S3Amazon Athena Amazon RedshiftAmazon OpenSearchServiceAmazon EMRAmazon QuickSight蓄積
© 2022, Amazon Web Services, Inc. or its affiliates. 9Glue Jobs Auto Scaling が ⼀般利⽤可能 (GA) にGlue Jobs とは• 抽出/変換/ロード (ETL) 処理をスケジュールし実⾏するためのデータ統合サービス• 従来、必要な処理能⼒に応じて DPUsを設定する必要があったワークロードに応じて⾃動的にリソースをスケールアップ・ダウンできるように• Glue ETL Jobs とGlue Streaming Jobsの両⽅に対応• 利⽤可能なインスタンスタイプはG.1X, G.2X, G.025X (new) をサポート
© 2022, Amazon Web Services, Inc. or its affiliates. 10Glue が 低コストの Flex 実⾏オプションをサポート• 余剰なコンピューティングリソースの活⽤によって、通常の Glue Job と⽐較して約 34 % コストカットした料⾦で Glue Job の実⾏ができるオプション• その代わり、ジョブの開始時間・実⾏時間が変動する• ⾼速にジョブを開始する必要のないユースケースに最適• pre-production, test, and non-urgent なデータ処理• 現状 Apache Spark ジョブ (Glue version 3.0 and later) のみ対応• 東京リージョンも利⽤可能For each Apache Spark job with flexible execution $0.29 per DPU-HourFor each Apache Spark job $0.44 per DPU-Hour* 東京リージョン、2022/09 時点
© 2022, Amazon Web Services, Inc. or its affiliates. 11AWS Glue Interactive SessionGlue studio や ローカル PC 上のエディタなど任意の環境で Jupyter Notebook を起動して、インタラクティブにジョブを作成AWS GlueClientInteractive SessionJupyter Notebook上でジョブを実⾏するとAWS Glue ETLでジョブが実⾏される任意の環境の Jupyter Notebook から Glue ETL ジョブのインタラクティブな開発や出⼒確認が可能にGlue が利⽤できる全リージョンで、Glue 2.0以降でサポート
© 2022, Amazon Web Services, Inc. or its affiliates.© 2022, Amazon Web Services, Inc. or its affiliates.分析12収集 ETL/統合/蓄積 分析 BI/可視化Amazon KinesisData StreamsAmazon KinesisData FirehoseAmazon ManagedStreaming forApache Kafka(MSK)Amazon KinesisData AnalyticsAWS Lake FormationAWS Glue DataBrewAWS GlueAmazon S3Amazon Athena Amazon RedshiftAmazon OpenSearchServiceAmazon EMRAmazon QuickSight蓄積
© 2022, Amazon Web Services, Inc. or its affiliates. 13Redshift Serverless が⼀般利⽤可能 (GA) に• ⾃動でプロビジョン/スケールし、⼀貫した⾼速なパフォーマンスを提供• ワークロードの継続時間に応じた秒単位課⾦、アイドル時間は課⾦対象外• GA のタイミングで以下の機能が追加– 複数のサーバレスエンドポイント、パブリックエンドポイント、拡張 VPC ルーティング– クエリの実⾏時間制限、イベント通知、リソースのタグ付けAmazonRedshiftServerlessJDBC/ODBCDatasharingclustersData APIComputeStorage AccelerationOperationalDatabasesQuery Live DataIncremental MVsIntelligent and dynamiccompute managementAmazon SageMakerRedshift MLRedshiftManagedStorageAmazon S3ML-based workload monitoringAutomatic tuningAutomatic scalingAutomatic workload managementPay for usePerformance at scaleAutomatic maintenance
© 2022, Amazon Web Services, Inc. or its affiliates.Provisioned, Serverless の使い分けServerlessをおすすめする環境• クエリが実⾏されない時間帯が⽐較的⻑い• インフラ担当者がおらず、利⽤者が直接管理しなければならない• 開発環境• アドホックなクエリが多く、クエリごとに特に明⽰的なSLAが決まっていない• light usageのために⼩さなクラスタを利⽤しているが、そのためにしばしばパフォーマンス課題が発⽣する• パフォーマンスチューニングするための知⾒を持つ⼈がいない⼀⾔でいうと「ゆるい」環境Provisionedのままが良い環境• 常にクエリが実⾏されている• インフラ担当者が継続的にクラスタのメトリクスなどを監視することができる• ダッシュボードクエリなどに明確なSLAが存在し、安定した性能が求められる• STL_*, SVL_* などのシステムビューから得られるメトリクスを元にアプリを設計している• バッチ処理など、必要とされる時間と処理能⼒が予め予測可能• 安定稼働のためにパフォーマンスチューニングなどが定常的に求められる⼀⾔でいうと「かちっとした」環境14上記は、Provisioned と Serverless とを使い分けるとき、どちらがより向いているかを⽰したものです。もちろん「かちっとした」環境でServerless を使うことも、「ゆるい」環境でProvisioned を使うこともできます。
© 2022, Amazon Web Services, Inc. or its affiliates.Provisioned, Serverless の共存Data Sharingやデータレイククエリなど、両者の性質を考慮して⽤途別に使い分けることにより、より効率の良い運⽤をすることも可能例えば• 夜間バッチ処理はprovisioned clusterで⼀気に処理し、⽇中は停⽌• そのデータをServerlessで共有し、分析担当者がアドホッククエリを⽇中に断続的に実⾏Redshift Serverlessは暗号化されているため、Data Sharingを⾏う場合は、provisioned cluster側も暗号化する必要があることに注意する15
© 2022, Amazon Web Services, Inc. or its affiliates.AmazonAthenaAmazonRedshiftProvisioned簡易な処理クエリスキャン量(別途ストレージサービス使⽤料)クラスタ稼働時間(リザーブドインスタンス適応可能)RMS ストレージ使⽤量クエリスキャン量(Spectrum 利⽤時)低頻度または予測不能ワークロード(⼩〜中規模)予測可能ワークロード(中〜超⼤規模)最⼤ ra3.16xlarge 128 ノードプロビジョニング詳細なチューニング可⾃動基盤管理費⽤⽤途規模AmazonRedshiftServerlessワークロード実⾏時間RMS ストレージ使⽤量簡易〜複雑な処理(例︓複数の結合やサブクエリ)低頻度または予測不能ワークロード(⼩〜⼤規模)最⼤ RPU 512⾃動簡易〜複雑な処理(例︓複数の結合やサブクエリ)参考)各種クエリサービスの使い分け16
© 2022, Amazon Web Services, Inc. or its affiliates. 17Redshift その他のアップデート• ⾏レベルセキュリティ (RLS) を利⽤可能にhttps://aws.amazon.com/about-aws/whats-new/2022/07/amazon-redshift-row-level-security/https://aws.amazon.com/blogs/big-data/achieve-fine-grained-data-security-with-row-level-access-control-in-amazon-redshift/• テーブル内の⾏のサブセットに対する SELECT/DELETE/UPDATE などの操作をアクセス制御できる• ⾃動マテリアライズドビュー (AutoMV) が⼀般利⽤可能 (GA) にhttps://aws.amazon.com/about-aws/whats-new/2022/07/automated-materialized-view-amazon-redshift/• 機械学習を利⽤してワークロードを継続的にモニタリングし、⾃動的にマテリアライズドビューを新規作成/削除する• ワークロードの変化に応じてマテリアライズドビューの設計や解析の⼿間なく、クエリレイテンシの効率化が可能• クエリはマテリアライズドビューを利⽤するように⾃動で書き換えられる• ⼤阪含む 19 リージョンで利⽤可能 (東京リージョンは近⽇中に対応予定)• Classic Resize のパフォーマンスが⼤幅に改善https://aws.amazon.com/about-aws/whats-new/2022/07/amazon-redshift-improves-cluster-resize-performance-flexibility-cluster-restore/https://aws.amazon.com/blogs/big-data/accelerate-resize-and-encryption-of-amazon-redshift-clusters-with-faster-classic-resize/• Redshift Provisioned Cluster のリサイズ⽅式の⼀つ “Classic Resize” が⾼速化し、数分でオンラインに復旧するように• 通常は “Elastic Resize” が利⽤推奨• 幾つかの制限により Classic Resize を利⽤する場⾯がある (ブログ参照)• 暗号化されていないクラスタのスナップショットから暗号化されたクラスタに直接リストアしたり、暗号化鍵を変更することも可能にcol_1(ID)col_2(name)col_3 col_4(sensitive)1 aaa xxx2 bbb yyy3 ccc zzzstore owner locs1 Joe SFs2 Ann NYs3 Lisa SFitem store cust pricei1 s1 c1 12.00i2 s2 c1 3.00i3 s2 c2 7.00[store_info] [sales]loc total_salesSF 12.00NY 10.00[AutoMV][loc_sales (AutoMV)]
© 2022, Amazon Web Services, Inc. or its affiliates. 18Amazon EMR Serverless が⼀般利⽤可能 (GA) にSpark および Hive アプリケーションの実⾏に必要なコンピューティングリソースを迅速にプロビジョンし、きめ細かにスケーリングする• クラスターの構成、最適化、調整、管理は不要• 費⽤は実際に使⽤されたリソースにのみ発⽣• EMR Studio と統合され、 GUI 上から実⾏したジョブのステータスや履歴の確認、デバッグが容易に• バージニア北部、オレゴン、東京、アイルランドおよび 他 12 リージョンでも利⽤可能 Jobson Amazon EC2Create an applicationSubmit jobson Amazon EMR ServerlessstartstopDetermine instance and cluster sizeCreate clusterTerminate clustersSubmit jobsstartstopAmazon EMR ServerlessapplicationAvailability Zone 1Spark Spark SparkSpark Spark SparkSpark Spark SparkSpark Spark SparkSpark Spark SparkSparkSparkSparkSparkService Accounthttps://aws.amazon.com/jp/about-aws/whats-new/2022/09/amazon-emr-serverless-available-additional-aws-regions/
© 2022, Amazon Web Services, Inc. or its affiliates.• 特徴- 最新世代の汎⽤ SSD ボリューム。gp2 と同等以上のパフォーマンス、9.6% のコスト削減効果• 性能- 最低で 3000 IOPS、125 MB/s のパフォーマンススループットを提供- ストレージ容量に応じて⾃動的に追加の IOPS、スループットを提供(Amazon OpenSearch Service 独⾃の追加ベースライン)- 更に追加コストを⽀払うことで、 IOPS とスループットの増強が可能• 拡張性- gp2 ボリュームと⽐較して インスタンスあたりのボリュームサイズ制限が 2 倍に(m5, m6g, r5, r6g)General Purpose SSDgp3Amazon OpenSearch Service が gp3 ボリュームをサポート
© 2022, Amazon Web Services, Inc. or its affiliates. 20Amazon OpenSearch Service がOpenSearch バージョン 1.1, 1.2, 1.3 をサポート• Performance Optimization: インデックス、検索、マージ処理の性能改善• Cross Cluster Replication: OpenSearch エンジンで利⽤可能に• Bucket Level Monitor: 詳細な粒度でのアラート通知が可能に• Observability 関連機能の強化• PPL によるデータ検索、加⼯、可視化をサポート• Runtime Field (フィールドの動的⽣成)や Live Tail によるリアルタイムログ閲覧をサポート• Continuous Mode for Transforms: Index Transform の差分実⾏をサポート
© 2022, Amazon Web Services, Inc. or its affiliates.© 2022, Amazon Web Services, Inc. or its affiliates.BI/可視化21収集 ETL/統合/蓄積 分析 BI/可視化Amazon KinesisData StreamsAmazon KinesisData FirehoseAmazon ManagedStreaming forApache Kafka(MSK)Amazon KinesisData AnalyticsAWS Lake FormationAWS Glue DataBrewAWS GlueAmazon S3Amazon Athena Amazon RedshiftAmazon OpenSearchServiceAmazon EMRAmazon QuickSight蓄積
© 2022, Amazon Web Services, Inc. or its affiliates.アプリケーションにダッシュボードを埋め込むQuickSightを内部のポータルページやパブリックウェブサイトに埋め込むことが可能• 分析作成機能やダッシュボードを活⽤してアプリケーションを拡張• サーバ不要、メンテナンスを楽に• ⾼速動作、埋め込みも容易• 1-Clickで埋め込みも可能に• ダッシュボードの埋め込みに加え、ビジュアル(表やグラフなど)単位での埋め込みも可能にnew!Enterprise Editionnew!
© 2022, Amazon Web Services, Inc. or its affiliates.1クリック埋め込み︓プログラム不要な簡単組み込み組み込み⽤HTMLコードのコピー&ペーストで組み込みが完了JSとAPIを使ったプログラム実装が不要にQuickSightユーザーとフェデレーテッドユーザーのいずれにも対応ダッシュボード共有画面からコードをコピー HTMLコードを好きなWebアプリにペーストEnterprise EditionAmazon QuickSight の新しいワンクリック埋め込み機能で、インタラクティブなダッシュボードをアプリやポータルに数分で埋め込むhttps://aws.amazon.com/jp/blogs/news/embed-interactive-dashboards-in-your-apps-and-portals-in-minutes-with-amazon-quicksights-new-1-click-embedding-feature/Amazon QuickSight のワンクリックパブリック埋め込み機能https://aws.amazon.com/jp/blogs/news/amazon-quicksight-1-click-public-embedding/
© 2022, Amazon Web Services, Inc. or its affiliates.AWS Analytics services continue evolving!収集 ETL/統合/蓄積 分析 BI/可視化Amazon KinesisData StreamsAmazon KinesisData FirehoseAmazon ManagedStreaming forApache Kafka(MSK)Amazon KinesisData AnalyticsAWS Lake FormationAWS Glue DataBrewAWS GlueAmazon S3Amazon Athena Amazon RedshiftAmazon OpenSearchServiceAmazon EMRAmazon QuickSight蓄積
© 2022, Amazon Web Services, Inc. or its affiliates.Thank you!© 2022, Amazon Web Services, Inc. or its affiliates.
© 2022, Amazon Web Services, Inc. or its affiliates.内容についての注意点• 本資料では2022年9⽉時点でのサービス内容および価格に基づいたスライドや説明になっています。最新の情報はAWS公式ウェブサイト(http://aws.amazon.com)にてご確認ください。• 資料作成には⼗分注意しておりますが、資料内の価格とAWS公式ウェブサイト記載の価格に相違があった場合、AWS公式ウェブサイトの価格を優先とさせていただきます。• AWS does not offer binding price quotes. AWS pricing is publicly available and is subject to changein accordance with the AWS Customer Agreement available at http://aws.amazon.com/agreement/.Any pricing information included in this document is provided only as an estimate of usage chargesfor AWS services based on certain information that you have provided. Monthly charges will bebased on your actual use of AWS services, and may vary from the estimates provided.26