Slide 1

Slide 1 text

データ事業本部 機械学習チーム 鈴木那由太 目玉アップデート!の SageMaker LakehouseとUnified Studioは何たるかを見てみよう!

Slide 2

Slide 2 text

自己紹介 名前:鈴木 那由太(スズキ ナユタ) 所属:クラスメソッド株式会社 データ事業本部 インテグレーション部 機械学習チーム 現在の業務: 機械学習用途のデータ分析基盤構築 機械学習システム構築 X:@nayuyu_ns Osaka から夜更かし参加!! 次世代のSageMakerの話をします

Slide 3

Slide 3 text

3 次世代のSageMakerの登場!

Slide 4

Slide 4 text

4 次世代のSageMakerの登場!

Slide 5

Slide 5 text

5 次世代のSageMakerの登場!

Slide 6

Slide 6 text

6 re:Invent2024のMLサービスアップデート概要 • 次世代のAmazon SageMaker • Unified Studio(プレビュー) • SageMaker Lakehouse • SageMaker 推論機能のアップデート • コンテナ キャッシュ • インスタンス数0までスケールダウン可能に • NVIDIA搭載機能の追加 • Amazon SageMaker Partner AI Apps • HyperPodのアップデート • コンピューティングリソースの予約 • EKS利用時のコンピュート管理機能 • FMのファインチューニング向けレシピ 今日はこの内容を紹介します

Slide 7

Slide 7 text

7 次世代のAmazon SageMaker ● データレイク(A ma zon S 3)とデータウェアハウス(A ma zon R eds hift)のデータを統合し、 データ分析・A I/ML 開発を支援する。 ● データによる素早いビジネス展開・ソリューション構築を可能にする。 ※2024/12/6にAmazon SageMakerの製品ページより引用(https://aws.amazon.com/sagemaker/)

Slide 8

Slide 8 text

8 SageMaker Lakehouseの概要 • データレイクとデータウェアハウス双方にアクセスしデータ統合できるIceberg APIによるインターフェース提供 • Zero-ETLによる運用システム内のデータの、レイクハウスへのリアルタイム連携 • Amazon Athenaのフェデレーテットクエリによる様々なデータソースからのデータ取得 • Amazon SageMaker Unified Studioドメインやきめ細かなアクセス制御によるガバナンス Amazon Redshift Amazon S3 AWS Glue Data Catalog Iceberg API対応 ツール Amazon DynamoDB Amazon Aurora Unified Studio 対応する3rd partyシステム 運用システム Iceberg APIによる横断的な消費 データレイク データウェアハウス ・Zero-ETL ・フェデレーテッドクエリ きめ細かな アクセス制御 データカタログ・ ガバナンス機能 レイクハウス

Slide 9

Slide 9 text

9 SageMaker Lakehouseの概要 ※re:Invent2024 ANT354-NEWセッションより引用(https://www.youtube.com/watch?v=LkH6ZzzA9dM) • 「カタログ」に様々なソースからのデータを整理して管理・横断した利用ができる。 • Iceberg REST APIを提供しており、アクセス制御をしつつ互換性のあるエンジンからデータ消費ができる。 この機能により、SageMaker Unified StudioをはじめとしたAPIを利用できるインターフェースから データを利用できる。

Slide 10

Slide 10 text

10 SageMaker Lakehouseの概要 ※https://aws.amazon.com/jp/blogs/big-data/read-and-write-s3-iceberg-table-using-aws-glue-iceberg-rest-catalog-from-open-source-apache-spark/より引用 • ローカルのオープンソース版Apache SparkよりSageMaker Lakehouseを利用する例。 • Icberg REST catalog endpointの利用方法を、アクセス制御も含めて説明している。

Slide 11

Slide 11 text

11 コンソールからのアクセス • SageMaker向けのコンソールは2つになっている • Amazon SageMaker platform:SageMaker LakehouseやUnified Studio向けの機能 • Amazon SageMaker AI:従来のモデル開発向けの機能 ▼2024/12/11時点でのマネジメントコンソールからのサービス検索結果

Slide 12

Slide 12 text

12 Amazon SageMaker platform 分析用のドメインを作成できる。Unified Studioへの入口にもなっている。 ● Amazon SageMaker Unified Studioドメイン ● Amazon DataZoneドメイン

Slide 13

Slide 13 text

13 Amazon SageMaker Unified Studio IAMユーザーおよびIAM Identity CenterによるSSOでログインできる。

Slide 14

Slide 14 text

14 Amazon SageMaker Unified Studio タスクに合わせてプロジェクトを作成することで、必要となるリソースを合わせて作成してくれる。 以下のリソースが作成される。 ● Redshift Serverless関連リソース・Glueデータベース・Athenaワークグループ・CodeCommitレポジトリ etc… ※作成するプロジェクトにより使える機能が変わる

Slide 15

Slide 15 text

15 Amazon SageMaker Unified Studio クエリエディタから、Athena・Redshiftにクエリできる。

Slide 16

Slide 16 text

16 Amazon SageMaker Unified Studio ノートブックよりPythonによる分析やモデル開発を実施できる。 ※re:Invent2024 ANT354-NEWセッションより引用(https://www.youtube.com/watch?v=LkH6ZzzA9dM)

Slide 17

Slide 17 text

17 まとめ • re:Invent2024で次世代のSageMakerとしてSageMaker LakehouseとUnified Studioが発表された。 • S3(データレイク)とRedshift(データウェアハウス)のデータを統合してデータ分析・AI/ML開発に 利用できる。 • Zero-ETL・フェデレーテットクエリにより、運用システムからレイクハウスにリアルタイムに連携できる。 • Iceberg REST APIが提供されており、 Unified Studioをはじめとしたこれに対応するデータ消費用の アプリケーションから利用できる。 その際、きめ細かなアクセス制御よるセキュリティを実現できる。

Slide 18

Slide 18 text

No content