Slide 1

Slide 1 text

データ事業本部 鈴木 那由太 今年のデータ・ML系アップデートと 気になるアプデのご紹介

Slide 2

Slide 2 text

自己紹介 鈴木 那由太 ● 部署 ○ データ事業本部 ● 所属 ○ 大阪 ● 受賞 ○ 2025 Japan AWS Top Engineers (AI/ML Data Engineer) ○ APJ Snowflake Partner Champions AI & ML

Slide 3

Slide 3 text

● データ分析・機械学習にまつわるアップデートをおさらい ● そのほか、期待したいアップデートについて 内容

Slide 4

Slide 4 text

● Apache Icebergに対応した形式でデータを持つことで相互運用性が向上 ● 同時書き込みも安全に行え、従来のデータレイクの課題を解消できる AWSサービスのIceberg対応の強化 S3 Amazon Redshift AWS Glue Amazon Athena Amazon EMR AWS Glue Data Catalog Analytics系サービス Icebergテーブル AWS外のサービス など 読み書き 読み書き

Slide 5

Slide 5 text

● Amazon Redshift ○ Icebergテーブルの書き込みをサポート(append-only) ○ IcebergテーブルにおけるJust-In-Time ANALYZE機能をサポート ○ 大文字小文字を区別しない場合のSUPER型(JSONオブジェクトを格納)をサポート ● AWS Glue ○ Apache Icebergベースのマテリアライズドビューをサポート ○ データレイク上でマテリアライズドビューを簡単に実現できるように ○ Data Qualityが前処理クエリとラベルをサポート ○ Glue 5.1が一般提供 アナリティクス系アップデート一覧

Slide 6

Slide 6 text

● Amazon Athena ○ キャパシティ予約をオートスケーリングさせるための補助の仕組みをリリース ● Amazon S3 ○ S3 Tables(マネージドのIcebergテーブル)が自動レプリケーションに対応 ● Amazon EMR ○ Apache Sparkのアップグレードを支援するAIエージェントの登場 ○ Spark ジョブのローカルストレージ管理が不要なServerless StorageがGA アナリティクス系アップデート一覧

Slide 7

Slide 7 text

● Amazon SageMaker ○ AI エージェントがカタログにあるデータ資産に対してビジネス用語集から 適切な用語を自動で推薦 ■ 非常に重要な作業だが、工数も非常にかかる作業だった ○ アセットメタデータを Iceberg テーブルとしてエクスポート可能に ■ データカタログ自体の分析ができる アナリティクス系アップデート一覧

Slide 8

Slide 8 text

● Amazon SageMaker AI ○ SageMaker AIがサーバレスMLflowをサポート ○ 人気の機械学習の実験管理機能(実験時のパフォーマンス登録など)が いつでも簡単に利用できるようになった ○ SageMaker AI のサーバーレスモデルカスタマイズ機能が発表されました ○ SageMaker HyperPodでElastic Trainingがサポート ○ SageMaker HyperPod が Checkpointless Trainingをサポート ● AWS Clean Rooms ○ 合成データセット生成トレーニングとカスタム ML トレーニングをサポート 機械学習系アップデート一覧

Slide 9

Slide 9 text

● Durable FunctionsでAthenaへの長いクエリが実装しやすくなった! ○ これまでもStep Functionsでサーバレスに実現可能!ではあったものの、 SQL文をどうやって管理するの?など扱いづらい点もあった。 AWS LambdaのDurable Functions ここをLambdaにできるように!

Slide 10

Slide 10 text

● Apache Icebergに対する対応するアップデートが力を入れて行われた ● AWS Lambda Durable Functionsは待ち時間が長いデータ処理に 相性が良さそうで期待! まとめ

Slide 11

Slide 11 text

No content