$30 off During Our Annual Pro Sale. View Details »

re:Inventで発表されたBig Data関連アップデート / re:invent 2020 Analytics update

re:Inventで発表されたBig Data関連アップデート / re:invent 2020 Analytics update

2021年3月1日開催 BigData-JAWS 勉強会#16 での発表資料です。
https://jawsug-bigdata.connpass.com/event/200841/

Akira Shimosako

March 01, 2021
Tweet

More Decks by Akira Shimosako

Other Decks in Technology

Transcript

  1. © 2021, Amazon Web Services, Inc. or its affiliates. All rights reserved.
    BigData-JAWS 勉強会 #16
    re:Inventで発表されたBig Data関連アップデート
    Akira Shimosako
    Analytics Specialist SA, AWS Japan
    2021.03
    @simosako

    View Slide

  2. 2
    © 2021, Amazon Web Services, Inc. or its affiliates. All rights reserved.
    自己紹介
    下佐粉 昭(しもさこ あきら)
    アマゾン ウェブ サービス ジャパン
    シニアソリューションアーキテクト (アナリティクス)
    「AWSではじめるデータレイク」
    https://techiemedia.co.jp/
    週刊AWS : 毎週AWSのアップデートをサマリしてお届け
    @simosako

    View Slide

  3. View Slide

  4. 4
    © 2021, Amazon Web Services, Inc. or its affiliates. All rights reserved.
    Amazon S3で書き込み後の読み取り一貫性を提供開始
    • Amazon S3で強い書き込み後の読み取り一貫性
    (read-after-write-consistency)が提供開始
    • 従来上書きは結果整合性(eventual consistency)であり、上書き
    の後に読み取りを行うと古いデータが読み取れる可能性があった
    • 今回のアップデートにより書き込みが完了したデータは、以後読
    み取りを行うと常に書き込まれたデータが読めるようになった
    • ビッグデータ分析等では上書きの直後に読み込み
    を行う必要が多く、独自に結果整合性を制御する
    手間をかける必要があったが、これが不要に
    • GET/PUT/LISTおよびオブジェクトタグ、ACL、メタデータ操作
    にも強い整合性が提供される
    PUT File A
    GET File A
    または
    GET File A
    PUT File A
    GET File A
    GET File A
    結果整合性により
    古いデータが読める
    可能性がある区間
    書き込み後には
    常に新しいデータを
    読み取ることを保証

    View Slide

  5. 5
    © 2021, Amazon Web Services, Inc. or its affiliates. All rights reserved.
    AWS Lake Formationの機能強化
    • AWS Lake Formationの新機能を発表(Preview)
    • トランザクション
    ACID特性を満たすトランザクション機能を利用可能に。管理
    テーブル(governed table)というテーブルタイプと、トランザ
    クションに対応した新しいAPI
    • 行レベルセキュリティ
    列レベルのアクセス制御に加え、行レベルアクセス制御が可能に
    • アクセラレーション
    小さいファイルを自動的に結合しクエリを最大7倍高速に。新し
    いストレージオプティマイザが自動的に処理
    • バージニアリージョンでプレビューを受付中
    AWS Lake Formation

    View Slide

  6. View Slide

  7. 7
    © 2021, Amazon Web Services, Inc. or its affiliates. All rights reserved.
    AWS Glue DataBrew
    • 分析や処理を開始する前にデータを整形・サニタ
    イズするための新しいビジュアルツール、AWS
    Glue DataBrewを一般提供開始
    • コードを記述することなく後段で必要な形にデー
    タを整形できるので、データ分析者やサイエン
    ティストが容易に前処理を構成できる
    • 250以上の構築済み変換処理を用意。これらを利用
    して効率的に異常値の排除やフォーマットの整理
    を行い、分析処理や学習処理を開始

    View Slide

  8. 8
    © 2021, Amazon Web Services, Inc. or its affiliates. All rights reserved.
    AWS Glue Elastic Views (Preview)
    • 複数のデータソースにまたがるマテリアライズド
    ビュー(仮想テーブル)を作成できる
    • SQLを利用して利用したいデータを指定すると、
    ターゲットデータベースに対して自動的にコピー
    を行いマテリアライズドビューを構築する
    • 継続的にデータソースをモニタし、データの変更
    が発生したら迅速で反映することが可能
    • 各システムのデータをデータウェアハウスで集約するために利用
    することもできる
    • インフラ管理は不要。キャパシティは自動的に制御される
    • 東京、バージニア、オハイオ、オレゴン、アイル
    ランドでプレビュー登録を受付中
    Amazon DynamoDB Amazon Redshift
    Amazon Simple
    Storage Service (S3)
    Amazon Elasticsearch
    Service
    Target
    Database
    AWS Glue

    View Slide

  9. 9
    © 2021, Amazon Web Services, Inc. or its affiliates. All rights reserved.
    [補足] プレビュー時にサポートされるSourceとTarget
    Source Target
    Amazon DynamoDB ✓
    Amazon Elasticsearch Service ✓
    Amazon S3 ✓
    Amazon Redshift ✓

    View Slide

  10. 10
    © 2021, Amazon Web Services, Inc. or its affiliates. All rights reserved.
    Anazon Redshift Data Sharing
    Redshift クラスター間でセキュアに簡単にデータを共有することが可能
    プロデューサー
    クラスター
    コンピュート
    ノード
    コンピュート
    ノード
    コンピュート
    ノード
    コンピュート
    ノード
    リーダーノード
    コンシューマー
    クラスター
    コンピュート
    ノード
    コンピュート
    ノード
    コンピュート
    ノード
    リーダーノード
    コンピュート
    ノード
    コンピュート
    ノード
    共有データにアクセスするプロデューサー/コンシューマーそれぞれのワークロードを分離
    Amazon Redshift マネージドストレージ
    共有データの
    読み込み
    プライベートデータの
    読み込みと書き込み

    View Slide

  11. 11
    © 2021, Amazon Web Services, Inc. or its affiliates. All rights reserved.
    Athena Engine version 2 一般提供開始
    • Federated Query
    • S3以外のデータソースにまたがった横断的なクエリを可能に
    • DynamoDB, JDBC, Redis等のコネクタを用意
    • 独自コネクター作成も可能
    • https://github.com/awslabs/aws-athena-query-
    federation/wiki/Available-Connectors
    • 他のアップデート
    • 地理空間関数をサポート
    • ネストされたスキーマの読み取りをサポート
    • スキーマエボリューションのサポート
    • パフォーマンス改善(JOIN, ORDER BY, AGGREGATEなど)
    AWS Lambda
    Amazon Athena
    (Engine version 2)
    Amazon Redshift Amazon DocumentDB (with
    MongoDB compatibility)
    Amazon CloudWatch
    Generic
    database

    View Slide

  12. 12
    © 2021, Amazon Web Services, Inc. or its affiliates. All rights reserved.
    Amazon Redshift Federated Query アップデート
    RDS PostgreSQL および Aurora PostgreSQL に
    クエリが可能
    データ移動なしに最新のデータを分析
    DWH、データレイク、業務DBにまたがった
    データを統合して分析
    データの取り込み手順が柔軟で簡単に
    セキュアで高パフォーマンスなデータアクセス
    RDS/Aurora MySQL をサポート (プレビュー)
    JDBC/ODBC
    New!

    View Slide

  13. View Slide

  14. 14
    © 2021, Amazon Web Services, Inc. or its affiliates. All rights reserved.
    Amazon QuickSight Q
    • 機械学習の技術により、自然言語で入力された質
    問に対して、回答を自動的に可視化
    • 自動的にビジネスデータの関係性や意味合いを解
    析。機械学習の専門知識は不要
    • データセットのフィールドにわかりやすい名前や別名を定義
    • 複数のデータセットやその説明(description)、用途をまとめた
    “Q Topic”というデータを作成
    • バージニア、オハイオ、オレゴン、アイルランド
    にて、英語でのプレビューを実施中
    What is the weekly sales in
    california versus new york this
    year (今年のカリフォルニアとNYの
    週単位売り上げを比べると?)
    質問に適した可
    視化が自動生成
    される

    View Slide

  15. 15
    © 2021, Amazon Web Services, Inc. or its affiliates. All rights reserved.
    Amazon Redshift ML
    SQL 経由で Amazon SageMaker と連携し、機械学習モデルの作成・トレーニングが可能に
    CREATE MODEL demo_ml.customer_churn
    FROM (SELECT c.age, c.zip, c.monthly_spend,
    c.monthly_cases, c.active FROM
    customer_info_table c)
    TARGET c.active;
    ユースケース : 製品のリコメンデーション、
    不正防止、顧客離反の削減など
    SQL で機械学習モデルの作成、トレーニング、
    デプロイ
    推論モデルを Amazon Redshift 上にデプロイし
    SQL ステートメントの一部としてユーザー定義
    関数を呼び出すように推論を実行可能
    機械学習アルゴリズムは自動選択 または
    XGBoost を指定可能
    モデルの前処理、作成、トレーニング、
    デプロイを自動で実行
    https://aws.amazon.com/jp/about-aws/whats-new/2020/12/aws-announces-amazon-redshift-ml-preview/

    View Slide

  16. View Slide

  17. 17
    © 2021, Amazon Web Services, Inc. or its affiliates. All rights reserved.
    AWS Graviton2 – 利用可能なサービスの増加
    • AWS Graviton2 – 高いコストパフォーマンスを提
    供するArmベースデザインのプロセッサ
    利用可能サービスが増加
    • Amazon EC2
    • Amazon RDS (MySQL, PostgerSQL, MariaDB)
    • Amazon EMR
    • AWS Graviton2 powered Aurora (プレビュー)
    Amazon Aurora
    https://aws.amazon.com/jp/blogs/big-data/
    amazon-emr-now-provides-up-to-30-lower-cost-and-
    up-to-15-improved-performance-for-spark-workloads-
    on-graviton2-based-instances/
    New!

    View Slide

  18. 18
    © 2021, Amazon Web Services, Inc. or its affiliates. All rights reserved.
    AQUA - (Advanced Query Accelerator)
    新たな分散型ハードウェアアクセラレーション処理レイヤにより、
    追加コストなしに他のクラウドデータウェアハウスの10倍の性能を実現
    コン
    ピュート
    ノード
    コン
    ピュート
    ノード
    コン
    ピュート
    ノード
    コン
    ピュート
    ノード
    AQUA
    ノード
    AWSデザインのカ
    スタムプロセッサ
    AQUA
    ノード
    AWSデザインのカ
    スタムプロセッサ
    AQUA
    ノード
    AWSデザインのカ
    スタムプロセッサ
    AQUA
    ノード
    AWSデザインのカ
    スタムプロセッサ
    並列処理
    AQUA ノードに処理をプッシュダウンすることで
    コンピュートノードとマネージドストレージの間
    のデータ移動を最小化
    AQUA ノードは AWS がデザインした分析処理向け
    のカスタムプロセッサを備え、
    データの圧縮、暗号化、フィルタリングや集計の処
    理を従来の CPU よりも遥かに高速に処理
    RA3 インスタンスのみで追加コスト不要で利用可能
    現行の Redshift の SQL やその他オペレーションは
    変更する必要なくそのまま利用が可能
    現在 US East (Ohio), US East (N. Virginia), US West
    (Oregon) で一般プレビュー開始。2021年にGA予定
    https://pages.awscloud.com/AQUA_Preview.html
    Redshift マネージドストレージ (RMS)
    スケールアウト

    View Slide

  19. 19
    © 2021, Amazon Web Services, Inc. or its affiliates. All rights reserved.
    Amazon Redshift クロス AZ クラスターリカバリー
    クラスターを別の AZ にフェールオーバー可能
    AZ–1 AZ–2
    Redshift マネージドストレージ
    データロスなしにリカバリー (RPO = 0)
    スナップショットからのリストアが不要に
    オンデマンドフェールオーバー
    クラスターは別の AZ にオンデマンドで作成さ
    れるため、スタンバイレプリカクラスター不要
    RA3インスタンスでサポート

    View Slide

  20. 20
    © 2021, Amazon Web Services, Inc. or its affiliates. All rights reserved.
    Amazon Redshift 自動テーブル最適化
    • Amazon Redsfhitでテーブルの自動最適化を発表
    • ソートキーと分散キー(Dist Key)を自動的に設定するとともに、
    テーブルの物理設計を最適化する自動チューニング機能
    • Redshiftがキーの変更により性能向上が見込めると判断すると、
    自動的に数時間でテーブルの設定が変更される
    • ソートキーと分散キーを明示的に指定せずにテー
    ブルを作成すれば利用できる
    • 自動Analyzeや自動Vacuum Delete等と合わせ、
    運用管理がより容易に
    Distribution/Sort
    key advisors
    Automatic
    Analyze
    Automatic
    Vacuum Delete
    Automatic
    Table Sort
    Automatic Table
    Distribution Style
    Amazon Redshift

    View Slide

  21. Thank you!
    © 2021, Amazon Web Services, Inc. or its affiliates. All rights reserved.

    View Slide