Upgrade to Pro — share decks privately, control downloads, hide ads and more …

re:Growth 2023 - AWS re:Invent 2023 Analytics Updates

re:Growth 2023 - AWS re:Invent 2023 Analytics Updates

re:Invent2023の新機能・アップデート情報を中心に最新動向をご紹介します。

Satoru Ishikawa

December 14, 2023
Tweet

More Decks by Satoru Ishikawa

Other Decks in Technology

Transcript

  1. 1

  2. 3 Agenda •Introduction •Pre re:Invent / November Updates •re:invent 2023

    •Amazon Redshift Upadtes •Amazon Athena Upadtes •Amazon QuickSight Upadtes •AWS Glue Upadtes •Amazon DataZone
  3. 5 ⾃⼰紹介 名前︓⽯川 覚(いしかわ さとる) 所属︓データアナリティクス事業本部 インテグレーション部 コンサルティングチーム 担当︓コンサルタント、ブログ・登壇等 経歴︓メーカーでSE、研究開発

    →ITベンチャーで製品開発、受託研究 →クラスメソッド(2014/6〜) 好きなサービス︓Amazon Redshift/Athena、Google BigQuery 5 Sapporo 2020-2023 Japan AWS Top Engineers 2020-2023 Japan AWS All Certifications Engineers
  4. 8 re:Invent2023 直前のアップデート • Amazon RedshiftがマルチAZ がRA3クラスター向けに⼀般提供開始 • 昨年のre:Invent2022に発表された機能が⼀般提供(GA) •

    Redshiftを複数のアベイラビリティーゾーン (AZ) で同時に実⾏し、予期しない障害シナリ オでも運⽤を続けることができる • Amazon Athenaがクエリパフォーマンスを強化するコストベースのオプティ マイザーを追加 • ついにコストベースオプティマイザー (CBO) に対応 • CBOによるクエリプランを最適化、SQLコードを変更することなくパフォーマンスが向上 • AWS GlueデータカタログがApache Icebergテーブルの⾃動圧縮をサポート • ⾃動圧縮を有効にすると、Glueデータカタログが新しいデータ書き込みを継続的にモニタ リングし、S3ストレージの⼩さなファイルをバックグラウンドで⾃動圧縮 • Icebergテーブルに合わせてS3のレイアウトが常に最適化、データレイクの読み取りパフォ ーマンスが向上 • Amazon QuickSightでGoogle BigQueryに対する接続のサポートを開始 • QuickSightからBigQueryに直接接続できるネイティブコネクタの⼀般提供を開始 • BigQueryの⼤規模なデータセットの分析を迅速に実⾏するためのQuickSight の SPICE (超 ⾼速、並列、インメモリ計算エンジン) サポートが提供
  5. 9 re:Invent2023 直前のアップデート • Amazon QuickSight launches a new redesigned

    analysis experience • 3 つのペインに分割、データ、可視化構築、オブジェクトプロパティ間を簡単に移動できる • 分析ツールバーにより、必須の作成、編集、ペイン管理機能にワンクリックでアクセス 機能メニューがツールバーに集約 フィールドウェルの配置変更 参考: [アップデート]Amazon QuickSightの分析画⾯が新しくなりました | Developers.IO
  6. 12 AWS re:Invent 2023 •AWS 最⼤の技術イベント •毎年 100 を超えるアップデートを発表 •今年は

    2023/11/27 〜 12/1 で開催 •オンラインとオフライン(ラスベガス)の同時開催 •オンデマンド配信 https://reinvent.awsevents.com/on-demand/
  7. 17 Zero-ETL︕Zero-ETL︕Zero-ETL︕ • Amazon Aurora PostgreSQL, Amazon DynamoDB, Amazon RDS

    for MySQLで Amazon Redshift とのZero-ETL がプレビューで利⽤可能に • Amazon Aurora MySQL(11⽉にGA)に続き、Zero-ETLをサポートするサービスの追加 • Redshiftから各DBのデータにアクセス、ほぼリアルタイムの分析や機械学習が可能になる • 「Zero」と名前についているようにETLの複雑なデータパイプラインの構築不要
  8. 18 • Amazon DynamoDB から Amazon Opensearch Service(Provision Cluster、Serverless)とのZero-ETLが利⽤可能(GA) •

    Amazon S3 から Amazon Opensearch Service(Provision Cluster) とのZero-ETL がプレビューで利⽤可能 Zero-ETL︕ Zero-ETL︕Zero-ETL︕Zero-ETL︕Zero-ETL︕
  9. 19 Redshift Serverless AIドリブンのスケーリングと最適化 • Amazon Redshift Serverlessの次世代AIドリブンなスケーリングと最適化 機能がプレビューで利⽤可能に •

    Redshift Serverlessは、データ量の変化・同時接続ユーザー・クエリの複雑さなどの、ワ ークロードにおける主要な観点の変化に応じて⾃動的にスケーリング • 内部テストでは、変化のあるワークロードに対して⾃動でコストパフォーマンスの向上 • クエリの複雑さやデータ量などの側 ⾯に基づいてワークロードパターン を学習 • 1⽇を通してリソースを継続的に調整 • 実際のワークロードのニーズに基づ いて容量を⾃動的に・プロアクティ ブに調整 • ⾃動マテリアライズドビューやデー タの⾃動的な整理 • パフォーマンススライダーを使⽤し て、ワークロードに対する希望のコ スト・パフォーマンス⽬標を設定
  10. 20 Amazon Q generative SQLがQueryEditorV2で利⽤可能 • Amazon Redshift クエリエディタがAmazon Q

    generative SQLの新機能 が発表されました(プレビュー) • Amazon Q generative SQL in Amazon Redshift Query Editor V2という、データから抽 出したいことを⾃然⾔語で問い合わせして、SQLを⽣成する新機能が発表 • ⽣成AI(Generative AI)をSQLに応⽤した⽣成SQL(Generative SQL)サービス
  11. 21 データ共有が複数のDWHからの書き込みクエリをサポート • Amazon Redshift データ共有が複数のデータウェアハウスからの書き込みク エリをサポートしました(プレビュー) • データ共有を介した複数のデータウェアハウスからの書き込みクエリをサポート •

    AWSアカウント内またはアカウント間で読み取りと書き込みの両⽅のクエリをデータ共有 で実⾏できるようになりました。 参考: AWS re:Invent 2023 - Multi-data warehouse writes through Amazon Redshift data sharing (ANT351)
  12. 22 Amazon Redshift その他アップデート • Redshiftは、その他にも期間中に多くのアップデートが発表されました • https://dev.classmethod.jp/articles/20231126-amazon-redshift-ml-llm-support/ • https://dev.classmethod.jp/articles/20231126-amazon-redshift-concurrency-

    scaling-ctas-supported/ • https://dev.classmethod.jp/articles/20231126-amazon-redshift-multi-data- warehouse-writes-through-data-sharing-preview/ • https://dev.classmethod.jp/articles/20231128-amazon-redshift-fgac-to-nested- objects/ • https://dev.classmethod.jp/articles/20231128-amazon-redshift-multidimensional- data-layouts/ • https://dev.classmethod.jp/articles/20231128-amazon-redshift-incremental- refresh-for-mv/ • https://aws.amazon.com/jp/about-aws/whats-new/2023/11/amazon-redshift- metadata-security-tenant-applications/ • https://aws.amazon.com/jp/about-aws/whats-new/2023/11/amazon-redshift-row- level-security-enhancements/ • https://aws.amazon.com/jp/about-aws/whats-new/2023/11/amazon-redshift- serverless-manageability-usability-features/
  13. 24 Amazon AthenaとS3 Express One Zoneによるクエリを⾼速化 • Amazon AthenaとAmazon S3

    Express One Zoneによるクエリを⾼速化 • Amazon S3 Express One Zoneは、S3 Standardよりも最⼤10倍優れたパフォーマンス、 ⼀貫した1桁ミリ秒のレイテンシで毎秒数⼗万のリクエストを処理するように設計された新 しいS3ストレージクラス • Amazon AthenaとAmazon S3 Express One Zoneストレージクラスに保存されたデータ 使⽤すると、S3 Standardよりも最⼤2.1倍⾼速なクエリパフォーマンスの改善すると説明 参考: AWS re:Invent 2023 - Whatʼs new with Amazon S3 (STG204)
  14. 26 ⽣成BI機能でデータ探索簡単に Amazon Q in QuickSightを発表 • QuickSight Q+⽣成BI機能をさらに拡張した「Amazon Q

    in QuickSight」 が発表されました(プレビュー) • 従来のQuickSight Q は⾃然⾔語で問い合わせでダッシュボードなどにインサイトを提供 • Bedrock がリリースされたタイミングで、QuickSight Q に⽣成BI機能が追加、⽣成AI機能 を使って⾃然⾔語で実現したい分析を伝えることでダッシュボードや分析を⾃動作成でした • 今回のアップデートは、「QuickSight Q アドオンの機能強化」 として新たに 「データス トーリー機能」 と 「エグゼクティブサマリー機能」 が追加(プレビュー)
  15. 28 AWS Glue の Amazon Q 統合が発表 • AWS GlueのAmazon

    Q統合が発表、⾃然⾔語でのデータ統合パイプライン作 成が可能に(Coming Soon) • ⽣成系AIアシスタントサービスであるAmazon Qを使うことで、⾃然⾔語でGlueによるデ ータパイプラインを作成 • チャットインターフェースで⾃然⾔語でのトラブルシューティングも可能になり、Glue Job の作成がスムーズになる
  16. 29 AWS Glue Data Qualityが異常検出と動的ルールに対応 • AWS Glue Data Qualityが異常検出と動的ルールに対応(プレビュー)

    • 従来のGlue Data Quorityは、ユーザーが定義したルールに従って、データの品質検査を実 施できる機能 • 今回の新機能で、データの変化を監視し、監視しているメトリクスが予想される値の範囲外 の場合でも検知が可能になる 参考:AWS re:Invent 2023 - Reimagine data integration with generative AI and machine learning (ANT216)
  17. 31 Amazon DataZone AI recommendationsを発表 • Amazon DataZoneで⽣成系AIベースのビジネスデータカタログ強化のため の機能が発表されました(プレビュー) •

    データカタログに記載する概要およびカラムの説明⽂を⽣成系AIでワンクリックで⾃動作成 • ⾃動⽣成された説明⽂は、検索結果が詳細な説明、考えられる使⽤例、主要な列に基づいて 表⽰されるようになるため、より充実した検索体験を可能にする
  18. 32 まとめ •Amazon Q • セキュリティとプライバシが組み込まれた⽣成AIアシスタント • 今後、開発者やデータを利活⽤するビジネスパーソンも⽀援する • 将来的なAmazon

    DataZoneとの連携を鑑み、ビジネスメタデータを今から登 録・充実させることが鍵となる •Amazon Redshift / Redshift Serverless • Data Sharingの読み書きも可能になり、1つのクラスタに集約する • OLTPとOLAPの混在するワークロードは、Zero-ETLというアプローチで解決 (not HTAP) • Redshift Serverlessは、データ量の変化・同時接続ユーザー・クエリの複雑さ など、AIが必要に応じて⾃動的にスケーリング •Amazon S3 Express One Zone • Athena2.1倍、EMRが4.0倍、SageMaker5.8倍 • 将来的に、他のアナリティクスサービスもパフォーマンス改善が期待できる