Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Amazon SageMaker Unified Studio(Preview)、Lakeho...

Amazon SageMaker Unified Studio(Preview)、Lakehouse と Amazon S3 Tables

アナリティクス関連サービスのSageMakerとの統合、Amazon SageMaker LakehouseとAmazon S3 Tablesの登場について解説します。

Satoru Ishikawa

December 12, 2024
Tweet

More Decks by Satoru Ishikawa

Other Decks in Technology

Transcript

  1. Amazon SageMaker Unified Studioとは Amazon SageMaker Unified Studio とはデータとアナリティク スとAIにまつわる総合プラットフォームです。

    - これまでのSageMakerとAnalytics関連サービスが新しいUIに統合された - Amazon SageMaker Unified Studio(プレビュー)という統合環境にまとめら れ、Amazon SageMaker platform と呼ばれるようになる - AI/MLのサービスであるこれまでのAmazon SageMakerは、Amazon SageMaker AIと呼ばれるようになる
  2. Amazon SageMaker Unified Studioの特⻑ - 基本的な思想として、1つのツールでデータ加⼯‧分析、モデルの開発に⾄る ⼀連の作業ができることを⽬指した統合環境です - Amazon SageMaker

    Unified Studioは、クエリエディタやVisual ETLツール が新たに提供されており、将来的に刷新しようという意欲が感じられます - 今⽇時点では、従来の各サービスの画⾯と併⽤することも可能です。
  3. Amazon SageMaker Unified Studio という統合環境 - Amazon SageMaker Unified Studio

    の中 で、アナリティクスの機能の部分は、Data processing and SQL analytics です。 - その他 - ML and generative AI model development - ML/DLの開発⽀援 - Generative AI app development - ⽣成AIの開発⽀援 - Data and AI governance - データとAIのガバナンス⽀援機能
  4. Amazon SageMaker Unified Studio の階層(ややこしい) マネジメントコンソールから「Amazon SageMaker platform」 - Amazon

    SageMaker - The center of data, analytics and AI - Domain(複数) - Amazon SageMaker Unified Studio - プロジェクト(複数)/ ロールが割り当てられる - Member(複数) - Amazon DataZone Domain
  5. Amazon SageMaker Lakehouse とは 分析と⼈⼯知能(AI)を簡素化する統合された、オープンで安全なデータ レイクハウスである Amazon SageMaker Lakehouse を発表

    Amazon S3データレイクとAmazon Redshiftデータウェアハウスにまたがるす べてのデータを統合し、単⼀のデータを複 製や移動することなく分析およびAI/MLアプ リケーションの構築
  6. Amazon SageMaker Lakehouse の特⻑ データの統合 - Amazon S3データレイクとAmazon Redshiftデータウェアハウスのデータを統合 -

    単⼀のデータでコピーや複製をすることなく分析とAI/MLアプリケーションを構築可能 柔軟なデータアクセス - Apache Icebergと互換性のあるすべてのエンジンとツールでデータにアクセス可能 - 既存のデータレイクやデータウェアハウスからのシームレスなデータアクセス セキュリティとコラボレーション - LakeFormationとの連携によって、細かい権限設定を⼀元的に定義し、複数のAWSサービス間で適 ⽤可能 - データ共有とコラボレーションの簡素化 多様なデータソースとの統合 - Amazon Aurora、Amazon RDS for MySQL、Amazon DynamoDBなどの運⽤データベースからのゼ ロETL統合 - SalesforceやSAPなどのアプリケーションとの連携
  7. S3 Tables Amazon S3 Tablesは、Amazonが提供する新しいストレージサービスで、 Apache Iceberg形式の表形式データ に最適化されたソリューション S3 Tablesは以下の主要コンポーネントで

    構成されています 1. Table bucket: Icebergテーブルを保 存するための新しいバケットタイプ 2. Namespace: テーブルを論理的に グループ化し、アクセス管理を容易 にする 3. Table: 構造化データで構成される テーブル
  8. S3 Tablesの特⻑ パフォーマンス向上 - 一般的なS3バケットと比較して、最大3倍のクエリパフォーマンス - 最大10倍高いトランザクション処理能力(TPS) 自動管理機能 - テーブルのメンテナンスタスクを自動化

    - コンパクション、スナップショット管理、孤立ファイルの削除などを自動実行 AWS統合 - Amazon Athena、Amazon Redshift、Amazon EMR、Amazon QuickSightなどのAWS アナリティクスサービスと統合 Apache Iceberg対応 - Apache Iceberg形式をネイティブにサポート - 行レベルのトランザクション、スキーマ進化、パーティション進化などの機能を利用可能