Upgrade to Pro — share decks privately, control downloads, hide ads and more …

re:Inventで発表されたBig Data関連アップデート / re:invent 2020 Analytics update

re:Inventで発表されたBig Data関連アップデート / re:invent 2020 Analytics update

2021年3月1日開催 BigData-JAWS 勉強会#16 での発表資料です。
https://jawsug-bigdata.connpass.com/event/200841/

Akira Shimosako

March 01, 2021
Tweet

More Decks by Akira Shimosako

Other Decks in Technology

Transcript

  1. © 2021, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. BigData-JAWS 勉強会 #16 re:Inventで発表されたBig Data関連アップデート Akira Shimosako Analytics Specialist SA, AWS Japan 2021.03 @simosako
  2. 2 © 2021, Amazon Web Services, Inc. or its affiliates.

    All rights reserved. 自己紹介 下佐粉 昭(しもさこ あきら) アマゾン ウェブ サービス ジャパン シニアソリューションアーキテクト (アナリティクス) 「AWSではじめるデータレイク」 https://techiemedia.co.jp/ 週刊AWS : 毎週AWSのアップデートをサマリしてお届け @simosako
  3. 4 © 2021, Amazon Web Services, Inc. or its affiliates.

    All rights reserved. Amazon S3で書き込み後の読み取り一貫性を提供開始 • Amazon S3で強い書き込み後の読み取り一貫性 (read-after-write-consistency)が提供開始 • 従来上書きは結果整合性(eventual consistency)であり、上書き の後に読み取りを行うと古いデータが読み取れる可能性があった • 今回のアップデートにより書き込みが完了したデータは、以後読 み取りを行うと常に書き込まれたデータが読めるようになった • ビッグデータ分析等では上書きの直後に読み込み を行う必要が多く、独自に結果整合性を制御する 手間をかける必要があったが、これが不要に • GET/PUT/LISTおよびオブジェクトタグ、ACL、メタデータ操作 にも強い整合性が提供される PUT File A GET File A または GET File A PUT File A GET File A GET File A 結果整合性により 古いデータが読める 可能性がある区間 書き込み後には 常に新しいデータを 読み取ることを保証
  4. 5 © 2021, Amazon Web Services, Inc. or its affiliates.

    All rights reserved. AWS Lake Formationの機能強化 • AWS Lake Formationの新機能を発表(Preview) • トランザクション ACID特性を満たすトランザクション機能を利用可能に。管理 テーブル(governed table)というテーブルタイプと、トランザ クションに対応した新しいAPI • 行レベルセキュリティ 列レベルのアクセス制御に加え、行レベルアクセス制御が可能に • アクセラレーション 小さいファイルを自動的に結合しクエリを最大7倍高速に。新し いストレージオプティマイザが自動的に処理 • バージニアリージョンでプレビューを受付中 AWS Lake Formation
  5. 7 © 2021, Amazon Web Services, Inc. or its affiliates.

    All rights reserved. AWS Glue DataBrew • 分析や処理を開始する前にデータを整形・サニタ イズするための新しいビジュアルツール、AWS Glue DataBrewを一般提供開始 • コードを記述することなく後段で必要な形にデー タを整形できるので、データ分析者やサイエン ティストが容易に前処理を構成できる • 250以上の構築済み変換処理を用意。これらを利用 して効率的に異常値の排除やフォーマットの整理 を行い、分析処理や学習処理を開始
  6. 8 © 2021, Amazon Web Services, Inc. or its affiliates.

    All rights reserved. AWS Glue Elastic Views (Preview) • 複数のデータソースにまたがるマテリアライズド ビュー(仮想テーブル)を作成できる • SQLを利用して利用したいデータを指定すると、 ターゲットデータベースに対して自動的にコピー を行いマテリアライズドビューを構築する • 継続的にデータソースをモニタし、データの変更 が発生したら迅速で反映することが可能 • 各システムのデータをデータウェアハウスで集約するために利用 することもできる • インフラ管理は不要。キャパシティは自動的に制御される • 東京、バージニア、オハイオ、オレゴン、アイル ランドでプレビュー登録を受付中 Amazon DynamoDB Amazon Redshift Amazon Simple Storage Service (S3) Amazon Elasticsearch Service Target Database AWS Glue
  7. 9 © 2021, Amazon Web Services, Inc. or its affiliates.

    All rights reserved. [補足] プレビュー時にサポートされるSourceとTarget Source Target Amazon DynamoDB ✓ Amazon Elasticsearch Service ✓ Amazon S3 ✓ Amazon Redshift ✓
  8. 10 © 2021, Amazon Web Services, Inc. or its affiliates.

    All rights reserved. Anazon Redshift Data Sharing Redshift クラスター間でセキュアに簡単にデータを共有することが可能 プロデューサー クラスター コンピュート ノード コンピュート ノード コンピュート ノード コンピュート ノード リーダーノード コンシューマー クラスター コンピュート ノード コンピュート ノード コンピュート ノード リーダーノード コンピュート ノード コンピュート ノード 共有データにアクセスするプロデューサー/コンシューマーそれぞれのワークロードを分離 Amazon Redshift マネージドストレージ 共有データの 読み込み プライベートデータの 読み込みと書き込み
  9. 11 © 2021, Amazon Web Services, Inc. or its affiliates.

    All rights reserved. Athena Engine version 2 一般提供開始 • Federated Query • S3以外のデータソースにまたがった横断的なクエリを可能に • DynamoDB, JDBC, Redis等のコネクタを用意 • 独自コネクター作成も可能 • https://github.com/awslabs/aws-athena-query- federation/wiki/Available-Connectors • 他のアップデート • 地理空間関数をサポート • ネストされたスキーマの読み取りをサポート • スキーマエボリューションのサポート • パフォーマンス改善(JOIN, ORDER BY, AGGREGATEなど) AWS Lambda Amazon Athena (Engine version 2) Amazon Redshift Amazon DocumentDB (with MongoDB compatibility) Amazon CloudWatch Generic database
  10. 12 © 2021, Amazon Web Services, Inc. or its affiliates.

    All rights reserved. Amazon Redshift Federated Query アップデート RDS PostgreSQL および Aurora PostgreSQL に クエリが可能 データ移動なしに最新のデータを分析 DWH、データレイク、業務DBにまたがった データを統合して分析 データの取り込み手順が柔軟で簡単に セキュアで高パフォーマンスなデータアクセス RDS/Aurora MySQL をサポート (プレビュー) JDBC/ODBC New!
  11. 14 © 2021, Amazon Web Services, Inc. or its affiliates.

    All rights reserved. Amazon QuickSight Q • 機械学習の技術により、自然言語で入力された質 問に対して、回答を自動的に可視化 • 自動的にビジネスデータの関係性や意味合いを解 析。機械学習の専門知識は不要 • データセットのフィールドにわかりやすい名前や別名を定義 • 複数のデータセットやその説明(description)、用途をまとめた “Q Topic”というデータを作成 • バージニア、オハイオ、オレゴン、アイルランド にて、英語でのプレビューを実施中 What is the weekly sales in california versus new york this year (今年のカリフォルニアとNYの 週単位売り上げを比べると?) 質問に適した可 視化が自動生成 される
  12. 15 © 2021, Amazon Web Services, Inc. or its affiliates.

    All rights reserved. Amazon Redshift ML SQL 経由で Amazon SageMaker と連携し、機械学習モデルの作成・トレーニングが可能に CREATE MODEL demo_ml.customer_churn FROM (SELECT c.age, c.zip, c.monthly_spend, c.monthly_cases, c.active FROM customer_info_table c) TARGET c.active; ユースケース : 製品のリコメンデーション、 不正防止、顧客離反の削減など SQL で機械学習モデルの作成、トレーニング、 デプロイ 推論モデルを Amazon Redshift 上にデプロイし SQL ステートメントの一部としてユーザー定義 関数を呼び出すように推論を実行可能 機械学習アルゴリズムは自動選択 または XGBoost を指定可能 モデルの前処理、作成、トレーニング、 デプロイを自動で実行 https://aws.amazon.com/jp/about-aws/whats-new/2020/12/aws-announces-amazon-redshift-ml-preview/
  13. 17 © 2021, Amazon Web Services, Inc. or its affiliates.

    All rights reserved. AWS Graviton2 – 利用可能なサービスの増加 • AWS Graviton2 – 高いコストパフォーマンスを提 供するArmベースデザインのプロセッサ 利用可能サービスが増加 • Amazon EC2 • Amazon RDS (MySQL, PostgerSQL, MariaDB) • Amazon EMR • AWS Graviton2 powered Aurora (プレビュー) Amazon Aurora https://aws.amazon.com/jp/blogs/big-data/ amazon-emr-now-provides-up-to-30-lower-cost-and- up-to-15-improved-performance-for-spark-workloads- on-graviton2-based-instances/ New!
  14. 18 © 2021, Amazon Web Services, Inc. or its affiliates.

    All rights reserved. AQUA - (Advanced Query Accelerator) 新たな分散型ハードウェアアクセラレーション処理レイヤにより、 追加コストなしに他のクラウドデータウェアハウスの10倍の性能を実現 コン ピュート ノード コン ピュート ノード コン ピュート ノード コン ピュート ノード AQUA ノード AWSデザインのカ スタムプロセッサ AQUA ノード AWSデザインのカ スタムプロセッサ AQUA ノード AWSデザインのカ スタムプロセッサ AQUA ノード AWSデザインのカ スタムプロセッサ 並列処理 AQUA ノードに処理をプッシュダウンすることで コンピュートノードとマネージドストレージの間 のデータ移動を最小化 AQUA ノードは AWS がデザインした分析処理向け のカスタムプロセッサを備え、 データの圧縮、暗号化、フィルタリングや集計の処 理を従来の CPU よりも遥かに高速に処理 RA3 インスタンスのみで追加コスト不要で利用可能 現行の Redshift の SQL やその他オペレーションは 変更する必要なくそのまま利用が可能 現在 US East (Ohio), US East (N. Virginia), US West (Oregon) で一般プレビュー開始。2021年にGA予定 https://pages.awscloud.com/AQUA_Preview.html Redshift マネージドストレージ (RMS) スケールアウト
  15. 19 © 2021, Amazon Web Services, Inc. or its affiliates.

    All rights reserved. Amazon Redshift クロス AZ クラスターリカバリー クラスターを別の AZ にフェールオーバー可能 AZ–1 AZ–2 Redshift マネージドストレージ データロスなしにリカバリー (RPO = 0) スナップショットからのリストアが不要に オンデマンドフェールオーバー クラスターは別の AZ にオンデマンドで作成さ れるため、スタンバイレプリカクラスター不要 RA3インスタンスでサポート
  16. 20 © 2021, Amazon Web Services, Inc. or its affiliates.

    All rights reserved. Amazon Redshift 自動テーブル最適化 • Amazon Redsfhitでテーブルの自動最適化を発表 • ソートキーと分散キー(Dist Key)を自動的に設定するとともに、 テーブルの物理設計を最適化する自動チューニング機能 • Redshiftがキーの変更により性能向上が見込めると判断すると、 自動的に数時間でテーブルの設定が変更される • ソートキーと分散キーを明示的に指定せずにテー ブルを作成すれば利用できる • 自動Analyzeや自動Vacuum Delete等と合わせ、 運用管理がより容易に Distribution/Sort key advisors Automatic Analyze Automatic Vacuum Delete Automatic Table Sort Automatic Table Distribution Style Amazon Redshift
  17. Thank you! © 2021, Amazon Web Services, Inc. or its

    affiliates. All rights reserved.