Slide 1

Slide 1 text

AIが強⼒にサポート︕ データ分析・ML系サービスアップデート 2023年12⽉11⽇(⽉)20:10-20:20 データアナリティクス事業本部 インテグレーション部 機械学習チーム 鈴⽊ 那由太 1

Slide 2

Slide 2 text

名前︓鈴⽊ 那由太(スズキ ナユタ) 所属︓データアナリティクス事業本部 インテグレーション部 機械学習チーム 現在の業務︓機械学習⽤途のデータ分析機能開発 今年は⽇本から夜更かしでバーチャル参加 受賞︓ Japan AWS Top Engineers (Analytics) (2022-2023) Japan AWS All Certifications Engineers (2022-2023) 2 ⾃⼰紹介 Osaka

Slide 3

Slide 3 text

3 発表内容 • ⾃⼰紹介 • 導⼊〜データ活⽤にまつわる悩みごと〜 • ふりかえり〜これまでの分析系サービスの構成例〜 • ご紹介したいアップデート内容 • Amazon Q generative SQLによる分析クエリ⽀援(プレビュー) • Amazon SageMaker Canvasが⾃然⾔語による指⽰をサポート • AWS Glue Data Qualityが異常検出と動的ルールに対応 (プレビュー) • Amazon DataZoneのビジネスデータカタログ強化機能が発表(プレビュー)

Slide 4

Slide 4 text

データ活⽤に関するシステムの開発・運⽤はとても⼤変。 • ある⽇突然、昨⽇まで普通に動いていたデータ連携パイプラインに異常が現れる • 流れてくるデータが変わってパイプラインに障害が発⽣、早急に対応が必要になってしまった。 • ⼿動の作業が必要 • データを提供してくれている商品開発チームにお願いして、データカタログの⼤量のカラムに説明をつけたい。 • データの分析にもノウハウが必要 • 考えたロジックをSQLやPythonスクリプトに起こすのが時間がかかる。 • アドホック分析でSQLの複雑な⽂法やPythonライブラリのAPIをよく忘れて調べるのに時間が取られる。 4 導⼊〜データ活⽤にまつわる悩みごと〜 re:Invent2023では、こういった⼩さいけれども積もり積もって組織のデータ活⽤を阻害している課題に、 積極的にアプローチするアップデートが多数発表されました︕ 途中まででも⾃動でつけてくれたら、お願いしやすいんだけどな。 いつからどう変わったかを簡単に把握したい。品質チェックで失敗したならルールをどう変えたらいいかも素早く判断したい。 この処理、このあいだも書いたような気が…。いっそ、お願いしたらいいかんじにしてほしい︕

Slide 5

Slide 5 text

5 ふりかえり〜これまでのデータ分析基盤の例〜 S3とAthenaでデータの保存と分析・集計ができた。RedshiftをDWHとして使うことも可能。 ETLや品質チェックはGlueが担っていた。 データはSageMakerで機械学習モデルの訓練・推論に使うことができた。 DataZoneにより、ビジネスデータカタログへのデータの公開やほかのチームへの共有がより簡単になった。 AWS Glue Amazon DataZone Amazon S3 AWS Glue Data Catalog Amazon SageMaker Amazon Redshift Amazon Athena COPY/UNLOAD QUERY ETL Quality Check ML Publish/Subscribe Amazon Aurora AWS Glue

Slide 6

Slide 6 text

AWS Glue Amazon DataZone Amazon S3 AWS Glue Data Catalog Amazon SageMaker Amazon Redshift Amazon Athena COPY/UNLOAD QUERY ETL Quality Check ML Publish/Subscribe Amazon Aurora 6 ご紹介したいアップデート内容 re:Invent2023ではAIの⼒により、これらの機能がさらにパワーアップされた。 特に気になった機能について、 の点をご紹介したい。 ビジネスデータカタログの ⽣成系AIベースの強化機能が 発表(プレビュー) Amazon Qによる 分析クエリ⽀援(プレビュー) AWS Glue Data Qualityが 異常検出と動的ルールに対応 (プレビュー) • SageMaker Studioの ⼤幅リニューアル • セキュリティ強化 • パフォーマンス強化 • Amazon S3 Express One Zone によるクエリの ⾼速化 ほかにも数多くのアップデートが︕ それらに関しては懇親会でお話ししましょう…!!! • MySQL・PostgreSQLともに Aurora zero-ETLをサポート SageMaker Canvasが ⾃然⾔語による指⽰を サポート AWS Glue

Slide 7

Slide 7 text

7 Amazon Q generative SQLによる分析クエリ⽀援(プレビュー) Amazon SageMaker Canvasが⾃然⾔語による指⽰をサポート ▼Amazon Q Generative SQLで、⾃然⾔語から 分析⽤SQLが⽣成できる。 ▼Amazon SageMaker Canvasでも、⾃然⾔語から 可視化例とそのコードが⽣成できる。 活⽤したいデータに対して、⾃然⾔語でクエリおよび分析コードの⽣成ができるようになった。 これにより、細かな構⽂を調べることなく効率的に分析を⾏うことができるようになった。

Slide 8

Slide 8 text

8 AWS Glue Data Qualityが異常検出と動的ルールに対応 (プレビュー) パイプラインで処理したデータについて、過去データと⽐較した際の異常の検知をできるようになった。 異常があった場合、提案される推奨ルールに差し替えたり、過去の傾向との違いを⼿早く把握することが可能に。 パイプラインの復旧は迅速に⾏う必要があり(その間にもデータ連携が⽌まっているので)、 原因の確認が速やかにできることで復旧の負荷が⼤きく軽減できる。

Slide 9

Slide 9 text

9 Amazon DataZoneのビジネスデータカタログ強化機能が発表(プレビュー) このテーブルはアイリスの花の測定値を含んでいます。 sepal_width、petal_width、sepal_length、classそしてpetal_lengthの5つのカラムがあります。 sepal_width and petal_widthはそれぞれセンチメートル単位でがく(花の外側の部分)と花弁 の幅の値です。classはIris setosa、Iris virginica、Iris versicolorのアイリスの種類を示していま す。最後にpetal_lengthはセンチメートル単位の花弁の長さです。 このテーブルは、種類ごとの花の部分の量的な測定値を保存することで、アイリスの種類ご との違いの分析をすることを可能とします。 がくと花弁の長さの対の測定値から、特に花ご との形と大きさに興味をそそられます。がくと花弁の寸法から、アイリスの各種別の形態と 外見を明らかにできるかもしれません。 まとめると、Irisテーブルは花の測定データを格納しており、がくと花弁の形態に基づいた 量的な分析と種別の分類を可能にするものです。 ユースケース Irisテーブルはアイリスの花の部分の量的な測定値を有しており、アイリスの種の違いの分 類や分析を可能とします。 このデータのエンドユーザーとユースケースです: •アイリスの形態を研究する植物学者と分類学者 - 測定値はがくと花弁の寸法でのアイリスの 種類による違いの量的な分析を可能にする。これは分類学的な分類と種の違いの理解に役立 つ。 (略) ワンクリックでビジネスデータカタログのアセットの説明とカラムの説明を⽣成してくるように。 カタログ検索時にも⽀援機能が提供される。

Slide 10

Slide 10 text

10 まとめ • データ分析基盤の開発・運⽤を強⼒にサポートしてくれる、機械学習および⽣成系AIによる⽀援機能が 多数発表された。 • Aurora zero-ETLなどとも合わせて、開発・運⽤・保守の多くの場⾯で、格段に⼈間にかかる負担が ⼩さくなることが期待される。 • 組織内の様々なメンバーにデータにまつわる作業依頼がしやすくなると期待できるので、 組織全体でさらにデータ分析系サービスが取り⼊れやすくなる。 GAに先⽴って、どのように活⽤でき、どう据え付けるか今から検討しておくと良さそう。