Upgrade to Pro — share decks privately, control downloads, hide ads and more …

BigData-JAWS #21 秋の夜長に語る AWS Analytics 最新アップデート/bigdata-jaws-21-analytics-update

jozono
September 26, 2022

BigData-JAWS #21 秋の夜長に語る AWS Analytics 最新アップデート/bigdata-jaws-21-analytics-update

2022.09.26 JAWS#21 での発表資料です。

イベント URL
https://jawsug-bigdata.connpass.com/event/257903/

jozono

September 26, 2022
Tweet

More Decks by jozono

Other Decks in Technology

Transcript

  1. © 2022, Amazon Web Services, Inc. or its affiliates.
    © 2022, Amazon Web Services, Inc. or its affiliates.
    BigData-JAWS #21
    秋の夜⻑に語る AWS Analytics
    最新アップデート
    Junpei Ozono
    Senior Solutions Architect
    Amazon Web Services Japan G.K.
    Sep 26, 2022

    View Slide

  2. © 2022, Amazon Web Services, Inc. or its affiliates.
    ⾃⼰紹介
    ⼤薗 純平 (おおぞの じゅんぺい)
    Analytics Specialist SA
    Like: Travel, Beer, Soccer, Bicycle
    Twitter: @jostandard

    View Slide

  3. © 2022, Amazon Web Services, Inc. or its affiliates.
    © 2022, Amazon Web Services, Inc. or its affiliates.
    AWS Analytics Update 2022
    3

    View Slide

  4. © 2022, Amazon Web Services, Inc. or its affiliates.
    AWS Analytics Services
    収集 ETL/統合/蓄積 分析 BI/可視化
    Amazon Kinesis
    Data Streams
    Amazon Kinesis
    Data Firehose
    Amazon Managed
    Streaming for
    Apache Kafka
    (MSK)
    Amazon Kinesis
    Data Analytics
    AWS Lake Formation
    AWS Glue DataBrew
    AWS Glue
    Amazon S3
    Amazon Athena Amazon Redshift
    Amazon OpenSearch
    Service
    Amazon EMR
    Amazon QuickSight
    蓄積

    View Slide

  5. © 2022, Amazon Web Services, Inc. or its affiliates.
    © 2022, Amazon Web Services, Inc. or its affiliates.
    収集
    5
    収集 ETL/統合/蓄積 分析 BI/可視化
    Amazon Kinesis
    Data Streams
    Amazon Kinesis
    Data Firehose
    Amazon Managed
    Streaming for
    Apache Kafka
    (MSK)
    Amazon Kinesis
    Data Analytics
    AWS Lake Formation
    AWS Glue DataBrew
    AWS Glue
    Amazon S3
    Amazon Athena Amazon Redshift
    Amazon OpenSearch
    Service
    Amazon EMR
    Amazon QuickSight
    蓄積

    View Slide

  6. © 2022, Amazon Web Services, Inc. or its affiliates.
    Amazon MSK Serverless が⼀般利⽤可能 (GA)
    かつ、東京リージョンで利⽤可能に
    6
    Service VPC
    Customer VPC
    AWS PrivateLink Amazon Managed
    Streaming for Apache Kafka
    Elastic network
    interface
    Apache Kafka のフルマネージドサービス Amazon Managed Streaming for Kafka (Amazon MSK) で、
    キャパシティ管理の⼿間が不要になる新機能
    • 最⼤ 200 MB/s (書き込み)、400 MB/s(読み取り) まで動的にスケール
    • ブローカーインスタンス管理は不要。トピックのパーティション配置も⾃動で最適化される
    • ブローカーインスタンス毎の課⾦は発⽣しない。保持データおよび書き込み、読み取りに対する課⾦
    • 東京リージョンを含む 9 リージョンで利⽤可能
    クライアントは broker を意識する必要は無く、単⼀の bootstrap エンドポイントを指定して接続する
    boot-xxxxxxxx.cN.kafka-
    serverless.us-east-
    2.amazonaws.com:9098

    View Slide

  7. © 2022, Amazon Web Services, Inc. or its affiliates.
    7
    MSK, MSK Serverless の使い分け
    MSK Serverless の利⽤を検討するケース
    • ワークロードが予測不可能で安定しない
    • キャパシティ管理をサービス側にオフロードしたい
    • 精緻なサイジングを⾏わず, すぐに MSK の利⽤を開始したい
    MSK の利⽤を検討するケース
    • 設定を詳細にコントロールしたい
    • ワークロードが安定しており, 予測可能
    • ワークロードが⼤きい

    View Slide

  8. © 2022, Amazon Web Services, Inc. or its affiliates.
    © 2022, Amazon Web Services, Inc. or its affiliates.
    ETL/統合/
    蓄積
    8
    収集 ETL/統合/蓄積 分析 BI/可視化
    Amazon Kinesis
    Data Streams
    Amazon Kinesis
    Data Firehose
    Amazon Managed
    Streaming for
    Apache Kafka
    (MSK)
    Amazon Kinesis
    Data Analytics
    AWS Lake Formation
    AWS Glue DataBrew
    AWS Glue
    Amazon S3
    Amazon Athena Amazon Redshift
    Amazon OpenSearch
    Service
    Amazon EMR
    Amazon QuickSight
    蓄積

    View Slide

  9. © 2022, Amazon Web Services, Inc. or its affiliates. 9
    Glue Jobs Auto Scaling が ⼀般利⽤可能 (GA) に
    Glue Jobs とは
    • 抽出/変換/ロード (ETL) 処理を
    スケジュールし実⾏するための
    データ統合サービス
    • 従来、必要な処理能⼒に応じて DPUs
    を設定する必要があった
    ワークロードに応じて⾃動的にリソースを
    スケールアップ・ダウンできるように
    • Glue ETL Jobs とGlue Streaming Jobs
    の両⽅に対応
    • 利⽤可能なインスタンスタイプは
    G.1X, G.2X, G.025X (new) をサポート

    View Slide

  10. © 2022, Amazon Web Services, Inc. or its affiliates. 10
    Glue が 低コストの Flex 実⾏オプションをサポート
    • 余剰なコンピューティングリソースの活⽤によって、通常の Glue Job と⽐較
    して約 34 % コストカットした料⾦で Glue Job の実⾏ができるオプション
    • その代わり、ジョブの開始時間・実⾏時間が変動する
    • ⾼速にジョブを開始する必要のないユースケースに最適
    • pre-production, test, and non-urgent なデータ処理
    • 現状 Apache Spark ジョブ (Glue version 3.0 and later) のみ対応
    • 東京リージョンも利⽤可能
    For each Apache Spark job with flexible execution $0.29 per DPU-Hour
    For each Apache Spark job $0.44 per DPU-Hour
    * 東京リージョン、2022/09 時点

    View Slide

  11. © 2022, Amazon Web Services, Inc. or its affiliates. 11
    AWS Glue Interactive Session
    Glue studio や ローカル PC 上のエディタなど
    任意の環境で Jupyter Notebook を起動して、
    インタラクティブにジョブを作成
    AWS Glue
    Client
    Interactive Session
    Jupyter Notebook上でジョブを実⾏する
    とAWS Glue ETLでジョブが実⾏される
    任意の環境の Jupyter Notebook から Glue ETL ジョブのインタラクティブな
    開発や出⼒確認が可能に
    Glue が利⽤できる全リージョンで、Glue 2.0以降でサポート

    View Slide

  12. © 2022, Amazon Web Services, Inc. or its affiliates.
    © 2022, Amazon Web Services, Inc. or its affiliates.
    分析
    12
    収集 ETL/統合/蓄積 分析 BI/可視化
    Amazon Kinesis
    Data Streams
    Amazon Kinesis
    Data Firehose
    Amazon Managed
    Streaming for
    Apache Kafka
    (MSK)
    Amazon Kinesis
    Data Analytics
    AWS Lake Formation
    AWS Glue DataBrew
    AWS Glue
    Amazon S3
    Amazon Athena Amazon Redshift
    Amazon OpenSearch
    Service
    Amazon EMR
    Amazon QuickSight
    蓄積

    View Slide

  13. © 2022, Amazon Web Services, Inc. or its affiliates. 13
    Redshift Serverless が⼀般利⽤可能 (GA) に
    • ⾃動でプロビジョン/スケールし、⼀貫した⾼速なパフォーマンスを提供
    • ワークロードの継続時間に応じた秒単位課⾦、アイドル時間は課⾦対象外
    • GA のタイミングで以下の機能が追加
    – 複数のサーバレスエンドポイント、パブリックエンドポイント、拡張 VPC ルーティング
    – クエリの実⾏時間制限、イベント通知、リソースのタグ付け
    Amazon
    Redshift
    Serverless
    JDBC/ODBC
    Data
    sharing
    clusters
    Data API
    Compute
    Storage Acceleration
    Operational
    Databases
    Query Live Data
    Incremental MVs
    Intelligent and dynamic
    compute management
    Amazon SageMaker
    Redshift ML
    Redshift
    Managed
    Storage
    Amazon S3
    ML-based workload monitoring
    Automatic tuning
    Automatic scaling
    Automatic workload management
    Pay for use
    Performance at scale
    Automatic maintenance

    View Slide

  14. © 2022, Amazon Web Services, Inc. or its affiliates.
    Provisioned, Serverless の使い分け
    Serverlessをおすすめする環境
    • クエリが実⾏されない時間帯が⽐較的⻑い
    • インフラ担当者がおらず、利⽤者が直接管理しな
    ければならない
    • 開発環境
    • アドホックなクエリが多く、クエリごとに特に明
    ⽰的なSLAが決まっていない
    • light usageのために⼩さなクラスタを利⽤してい
    るが、そのためにしばしばパフォーマンス課題が
    発⽣する
    • パフォーマンスチューニングするための知⾒を持
    つ⼈がいない
    ⼀⾔でいうと「ゆるい」環境
    Provisionedのままが良い環境
    • 常にクエリが実⾏されている
    • インフラ担当者が継続的にクラスタのメトリク
    スなどを監視することができる
    • ダッシュボードクエリなどに明確なSLAが存在
    し、安定した性能が求められる
    • STL_*, SVL_* などのシステムビューから得られ
    るメトリクスを元にアプリを設計している
    • バッチ処理など、必要とされる時間と処理能⼒
    が予め予測可能
    • 安定稼働のためにパフォーマンスチューニング
    などが定常的に求められる
    ⼀⾔でいうと「かちっとした」環境
    14
    上記は、Provisioned と Serverless とを使い分けるとき、どちらがより向いているかを⽰したものです。
    もちろん「かちっとした」環境でServerless を使うことも、「ゆるい」環境でProvisioned を使うこともできます。

    View Slide

  15. © 2022, Amazon Web Services, Inc. or its affiliates.
    Provisioned, Serverless の共存
    Data Sharingやデータレイククエリなど、両者の性質を考慮して⽤途別に使い分け
    ることにより、より効率の良い運⽤をすることも可能
    例えば
    • 夜間バッチ処理はprovisioned clusterで⼀気に処理し、⽇中は停⽌
    • そのデータをServerlessで共有し、分析担当者がアドホッククエリを⽇中に断続的に実⾏
    Redshift Serverlessは暗号化されているため、Data Sharingを⾏う場合は、
    provisioned cluster側も暗号化する必要があることに注意する
    15

    View Slide

  16. © 2022, Amazon Web Services, Inc. or its affiliates.
    Amazon
    Athena
    Amazon
    Redshift
    Provisioned
    簡易な処理
    クエリスキャン量
    (別途ストレージサービス使⽤料)
    クラスタ稼働時間
    (リザーブドインスタンス適応可能)
    RMS ストレージ使⽤量
    クエリスキャン量
    (Spectrum 利⽤時)
    低頻度または予測不能
    ワークロード
    (⼩〜中規模)
    予測可能
    ワークロード
    (中〜超⼤規模)
    最⼤ ra3.16xlarge 128 ノード
    プロビジョニング
    詳細なチューニング可
    ⾃動
    基盤管理
    費⽤
    ⽤途
    規模
    Amazon
    Redshift
    Serverless
    ワークロード実⾏時間
    RMS ストレージ使⽤量
    簡易〜複雑な処理
    (例︓複数の結合やサブクエリ)
    低頻度または予測不能
    ワークロード
    (⼩〜⼤規模)
    最⼤ RPU 512
    ⾃動
    簡易〜複雑な処理
    (例︓複数の結合やサブクエリ)
    参考)各種クエリサービスの使い分け
    16

    View Slide

  17. © 2022, Amazon Web Services, Inc. or its affiliates. 17
    Redshift その他のアップデート
    • ⾏レベルセキュリティ (RLS) を利⽤可能に
    https://aws.amazon.com/about-aws/whats-new/2022/07/amazon-redshift-row-level-security/
    https://aws.amazon.com/blogs/big-data/achieve-fine-grained-data-security-with-row-level-access-control-in-amazon-redshift/
    • テーブル内の⾏のサブセットに対する SELECT/DELETE/UPDATE などの
    操作をアクセス制御できる
    • ⾃動マテリアライズドビュー (AutoMV) が⼀般利⽤可能 (GA) に
    https://aws.amazon.com/about-aws/whats-new/2022/07/automated-materialized-view-amazon-redshift/
    • 機械学習を利⽤してワークロードを継続的にモニタリングし、
    ⾃動的にマテリアライズドビューを新規作成/削除する
    • ワークロードの変化に応じてマテリアライズドビューの設計や解析の⼿間なく、
    クエリレイテンシの効率化が可能
    • クエリはマテリアライズドビューを利⽤するように⾃動で書き換えられる
    • ⼤阪含む 19 リージョンで利⽤可能 (東京リージョンは近⽇中に対応予定)
    • Classic Resize のパフォーマンスが⼤幅に改善
    https://aws.amazon.com/about-aws/whats-new/2022/07/amazon-redshift-improves-cluster-resize-performance-flexibility-cluster-restore/
    https://aws.amazon.com/blogs/big-data/accelerate-resize-and-encryption-of-amazon-redshift-clusters-with-faster-classic-resize/
    • Redshift Provisioned Cluster のリサイズ⽅式の⼀つ “Classic Resize” が⾼速化し、
    数分でオンラインに復旧するように
    • 通常は “Elastic Resize” が利⽤推奨
    • 幾つかの制限により Classic Resize を利⽤する場⾯がある (ブログ参照)
    • 暗号化されていないクラスタのスナップショットから暗号化されたクラスタに
    直接リストアしたり、暗号化鍵を変更することも可能に
    col_1
    (ID)
    col_2
    (name)
    col_3 col_4
    (sensitive)
    1 aaa xxx
    2 bbb yyy
    3 ccc zzz
    store owner loc
    s1 Joe SF
    s2 Ann NY
    s3 Lisa SF
    item store cust price
    i1 s1 c1 12.00
    i2 s2 c1 3.00
    i3 s2 c2 7.00
    [store_info] [sales]
    loc total_sales
    SF 12.00
    NY 10.00
    [AutoMV]
    [loc_sales (AutoMV)]

    View Slide

  18. © 2022, Amazon Web Services, Inc. or its affiliates. 18
    Amazon EMR Serverless が⼀般利⽤可能 (GA) に
    Spark および Hive アプリケーションの実⾏に必要な
    コンピューティングリソースを迅速にプロビジョンし、
    きめ細かにスケーリングする
    • クラスターの構成、最適化、調整、管理は不要
    • 費⽤は実際に使⽤されたリソースにのみ発⽣
    • EMR Studio と統合され、 GUI 上から実⾏した
    ジョブのステータスや履歴の確認、
    デバッグが容易に
    • バージニア北部、オレゴン、東京、アイルランド
    および 他 12 リージョンでも利⽤可能 Jobs
    on Amazon EC2
    Create an application
    Submit jobs
    on Amazon EMR Serverless
    start
    stop
    Determine instance and cluster size
    Create cluster
    Terminate clusters
    Submit jobs
    start
    stop
    Amazon EMR Serverless
    application
    Availability Zone 1
    Spark Spark Spark
    Spark Spark Spark
    Spark Spark Spark
    Spark Spark Spark
    Spark Spark Spark
    Spark
    Spark
    Spark
    Spark
    Service Account
    https://aws.amazon.com/jp/about-aws/whats-new/2022/09/amazon-emr-serverless-
    available-additional-aws-regions/

    View Slide

  19. © 2022, Amazon Web Services, Inc. or its affiliates.
    • 特徴
    - 最新世代の汎⽤ SSD ボリューム。gp2 と同等以上の
    パフォーマンス、9.6% のコスト削減効果
    • 性能
    - 最低で 3000 IOPS、125 MB/s のパフォーマンス
    スループットを提供
    - ストレージ容量に応じて⾃動的に追加の IOPS、
    スループットを提供(Amazon OpenSearch Service 独
    ⾃の追加ベースライン)
    - 更に追加コストを⽀払うことで、 IOPS とスループッ
    トの増強が可能
    • 拡張性
    - gp2 ボリュームと⽐較して インスタンスあたりのボ
    リュームサイズ制限が 2 倍に(m5, m6g, r5, r6g)
    General Purpose SSD
    gp3
    Amazon OpenSearch Service が gp3 ボリュームをサポート

    View Slide

  20. © 2022, Amazon Web Services, Inc. or its affiliates. 20
    Amazon OpenSearch Service が
    OpenSearch バージョン 1.1, 1.2, 1.3 をサポート
    • Performance Optimization: インデックス、検索、マージ処理の性能改善
    • Cross Cluster Replication: OpenSearch エンジンで利⽤可能に
    • Bucket Level Monitor: 詳細な粒度でのアラート通知が可能に
    • Observability 関連機能の強化
    • PPL によるデータ検索、加⼯、可視化をサポート
    • Runtime Field (フィールドの動的⽣成)や Live Tail によるリアルタイムログ閲覧をサポート
    • Continuous Mode for Transforms: Index Transform の差分実⾏をサポート

    View Slide

  21. © 2022, Amazon Web Services, Inc. or its affiliates.
    © 2022, Amazon Web Services, Inc. or its affiliates.
    BI/可視化
    21
    収集 ETL/統合/蓄積 分析 BI/可視化
    Amazon Kinesis
    Data Streams
    Amazon Kinesis
    Data Firehose
    Amazon Managed
    Streaming for
    Apache Kafka
    (MSK)
    Amazon Kinesis
    Data Analytics
    AWS Lake Formation
    AWS Glue DataBrew
    AWS Glue
    Amazon S3
    Amazon Athena Amazon Redshift
    Amazon OpenSearch
    Service
    Amazon EMR
    Amazon QuickSight
    蓄積

    View Slide

  22. © 2022, Amazon Web Services, Inc. or its affiliates.
    アプリケーションにダッシュボードを埋め込む
    QuickSightを内部のポータルページやパブリックウェブサイトに埋め込むことが可能
    • 分析作成機能やダッシュボードを活
    ⽤してアプリケーションを拡張
    • サーバ不要、メンテナンスを楽に
    • ⾼速動作、埋め込みも容易
    • 1-Clickで埋め込みも可能に
    • ダッシュボードの埋め込みに加え、
    ビジュアル(表やグラフなど)単位での
    埋め込みも可能に
    new!
    Enterprise Edition
    new!

    View Slide

  23. © 2022, Amazon Web Services, Inc. or its affiliates.
    1クリック埋め込み︓プログラム不要な簡単組み込み
    組み込み⽤HTMLコードのコピー&ペーストで組み込みが完了
    JSとAPIを使ったプログラム実装が不要に
    QuickSightユーザーとフェデレーテッドユーザーのいずれにも対応
    ダッシュボード共有画面からコードをコピー HTMLコードを好きなWebアプリにペースト
    Enterprise Edition
    Amazon QuickSight の新しいワンクリック埋め込み機能で、インタラクティブなダッシュボードをアプリやポータルに数分で埋め込む
    https://aws.amazon.com/jp/blogs/news/embed-interactive-dashboards-in-your-apps-and-portals-in-minutes-with-amazon-quicksights-new-1-click-embedding-feature/
    Amazon QuickSight のワンクリックパブリック埋め込み機能
    https://aws.amazon.com/jp/blogs/news/amazon-quicksight-1-click-public-embedding/

    View Slide

  24. © 2022, Amazon Web Services, Inc. or its affiliates.
    AWS Analytics services continue evolving!
    収集 ETL/統合/蓄積 分析 BI/可視化
    Amazon Kinesis
    Data Streams
    Amazon Kinesis
    Data Firehose
    Amazon Managed
    Streaming for
    Apache Kafka
    (MSK)
    Amazon Kinesis
    Data Analytics
    AWS Lake Formation
    AWS Glue DataBrew
    AWS Glue
    Amazon S3
    Amazon Athena Amazon Redshift
    Amazon OpenSearch
    Service
    Amazon EMR
    Amazon QuickSight
    蓄積

    View Slide

  25. © 2022, Amazon Web Services, Inc. or its affiliates.
    Thank you!
    © 2022, Amazon Web Services, Inc. or its affiliates.

    View Slide

  26. © 2022, Amazon Web Services, Inc. or its affiliates.
    内容についての注意点
    • 本資料では2022年9⽉時点でのサービス内容および価格に基づいたスライドや説明になっています。最
    新の情報はAWS公式ウェブサイト(http://aws.amazon.com)にてご確認ください。
    • 資料作成には⼗分注意しておりますが、資料内の価格とAWS公式ウェブサイト記載の価格に相違が
    あった場合、AWS公式ウェブサイトの価格を優先とさせていただきます。
    • AWS does not offer binding price quotes. AWS pricing is publicly available and is subject to change
    in accordance with the AWS Customer Agreement available at http://aws.amazon.com/agreement/.
    Any pricing information included in this document is provided only as an estimate of usage charges
    for AWS services based on certain information that you have provided. Monthly charges will be
    based on your actual use of AWS services, and may vary from the estimates provided.
    26

    View Slide