Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AIが強力にサポート!データ分析・ML系サービスアップデート

Nayuta S.
December 14, 2023

 AIが強力にサポート!データ分析・ML系サービスアップデート

2023年12月11日 (月) に開催された『AWS re:Inventふりかえり勉強会 CM re:Growth 2023 in Osaka!』で発表した内容になります。
https://classmethod.connpass.com/event/303470/

Nayuta S.

December 14, 2023
Tweet

More Decks by Nayuta S.

Other Decks in Technology

Transcript

  1. 3 発表内容 • ⾃⼰紹介 • 導⼊〜データ活⽤にまつわる悩みごと〜 • ふりかえり〜これまでの分析系サービスの構成例〜 • ご紹介したいアップデート内容

    • Amazon Q generative SQLによる分析クエリ⽀援(プレビュー) • Amazon SageMaker Canvasが⾃然⾔語による指⽰をサポート • AWS Glue Data Qualityが異常検出と動的ルールに対応 (プレビュー) • Amazon DataZoneのビジネスデータカタログ強化機能が発表(プレビュー)
  2. データ活⽤に関するシステムの開発・運⽤はとても⼤変。 • ある⽇突然、昨⽇まで普通に動いていたデータ連携パイプラインに異常が現れる • 流れてくるデータが変わってパイプラインに障害が発⽣、早急に対応が必要になってしまった。 • ⼿動の作業が必要 • データを提供してくれている商品開発チームにお願いして、データカタログの⼤量のカラムに説明をつけたい。 •

    データの分析にもノウハウが必要 • 考えたロジックをSQLやPythonスクリプトに起こすのが時間がかかる。 • アドホック分析でSQLの複雑な⽂法やPythonライブラリのAPIをよく忘れて調べるのに時間が取られる。 4 導⼊〜データ活⽤にまつわる悩みごと〜 re:Invent2023では、こういった⼩さいけれども積もり積もって組織のデータ活⽤を阻害している課題に、 積極的にアプローチするアップデートが多数発表されました︕ 途中まででも⾃動でつけてくれたら、お願いしやすいんだけどな。 いつからどう変わったかを簡単に把握したい。品質チェックで失敗したならルールをどう変えたらいいかも素早く判断したい。 この処理、このあいだも書いたような気が…。いっそ、お願いしたらいいかんじにしてほしい︕
  3. AWS Glue Amazon DataZone Amazon S3 AWS Glue Data Catalog

    Amazon SageMaker Amazon Redshift Amazon Athena COPY/UNLOAD QUERY ETL Quality Check ML Publish/Subscribe Amazon Aurora 6 ご紹介したいアップデート内容 re:Invent2023ではAIの⼒により、これらの機能がさらにパワーアップされた。 特に気になった機能について、 の点をご紹介したい。 ビジネスデータカタログの ⽣成系AIベースの強化機能が 発表(プレビュー) Amazon Qによる 分析クエリ⽀援(プレビュー) AWS Glue Data Qualityが 異常検出と動的ルールに対応 (プレビュー) • SageMaker Studioの ⼤幅リニューアル • セキュリティ強化 • パフォーマンス強化 • Amazon S3 Express One Zone によるクエリの ⾼速化 ほかにも数多くのアップデートが︕ それらに関しては懇親会でお話ししましょう…!!! • MySQL・PostgreSQLともに Aurora zero-ETLをサポート SageMaker Canvasが ⾃然⾔語による指⽰を サポート AWS Glue
  4. 7 Amazon Q generative SQLによる分析クエリ⽀援(プレビュー) Amazon SageMaker Canvasが⾃然⾔語による指⽰をサポート ▼Amazon Q

    Generative SQLで、⾃然⾔語から 分析⽤SQLが⽣成できる。 ▼Amazon SageMaker Canvasでも、⾃然⾔語から 可視化例とそのコードが⽣成できる。 活⽤したいデータに対して、⾃然⾔語でクエリおよび分析コードの⽣成ができるようになった。 これにより、細かな構⽂を調べることなく効率的に分析を⾏うことができるようになった。
  5. 9 Amazon DataZoneのビジネスデータカタログ強化機能が発表(プレビュー) このテーブルはアイリスの花の測定値を含んでいます。 sepal_width、petal_width、sepal_length、classそしてpetal_lengthの5つのカラムがあります。 sepal_width and petal_widthはそれぞれセンチメートル単位でがく(花の外側の部分)と花弁 の幅の値です。classはIris setosa、Iris

    virginica、Iris versicolorのアイリスの種類を示していま す。最後にpetal_lengthはセンチメートル単位の花弁の長さです。 このテーブルは、種類ごとの花の部分の量的な測定値を保存することで、アイリスの種類ご との違いの分析をすることを可能とします。 がくと花弁の長さの対の測定値から、特に花ご との形と大きさに興味をそそられます。がくと花弁の寸法から、アイリスの各種別の形態と 外見を明らかにできるかもしれません。 まとめると、Irisテーブルは花の測定データを格納しており、がくと花弁の形態に基づいた 量的な分析と種別の分類を可能にするものです。 ユースケース Irisテーブルはアイリスの花の部分の量的な測定値を有しており、アイリスの種の違いの分 類や分析を可能とします。 このデータのエンドユーザーとユースケースです: •アイリスの形態を研究する植物学者と分類学者 - 測定値はがくと花弁の寸法でのアイリスの 種類による違いの量的な分析を可能にする。これは分類学的な分類と種の違いの理解に役立 つ。 (略) ワンクリックでビジネスデータカタログのアセットの説明とカラムの説明を⽣成してくるように。 カタログ検索時にも⽀援機能が提供される。
  6. 10 まとめ • データ分析基盤の開発・運⽤を強⼒にサポートしてくれる、機械学習および⽣成系AIによる⽀援機能が 多数発表された。 • Aurora zero-ETLなどとも合わせて、開発・運⽤・保守の多くの場⾯で、格段に⼈間にかかる負担が ⼩さくなることが期待される。 •

    組織内の様々なメンバーにデータにまつわる作業依頼がしやすくなると期待できるので、 組織全体でさらにデータ分析系サービスが取り⼊れやすくなる。 GAに先⽴って、どのように活⽤でき、どう据え付けるか今から検討しておくと良さそう。