Amazon Redshift ML Introduction

© 2021, Amazon Web Services, Inc. or its Affiliates. Junpei
Ozono Senior Solutions Architect Amazon Web Services Japan G.K. Amazon Redshift ML Introduction

© 2021, Amazon Web Services, Inc. or its Affiliates. 2
アジェンダ Amazon Redshift と Amaozn Redshift ML Appendix: データ分析と機械学習 (ML) Amazon Redshift ML Deep Dive Redshift ML 事例

© 2021, Amazon Web Services, Inc. or its Affiliates. Amazon
Redshift と Amazon Redshift ML

Amazon Redshift Amazon Redshift ⾼速で広く使⽤されているクラウドデータウェアハウス

Amazon Redshift SQL Amazon Redshift Query editor ⾼速で広く使⽤されているクラウドデータウェアハウス

Amazon Redshift BI & analytics apps SQL Amazon Redshift Query editor ⾼速で広く使⽤されているクラウドデータウェアハウス

Amazon Redshift Spectrum BI & analytics apps Amazon S3 data lake Keep up to exabytes of data in Amazon S3 SQL Amazon Redshift Query editor ⾼速で広く使⽤されているクラウドデータウェアハウス

Amazon Redshift Federated query Spectrum Operational databases BI & analytics apps Amazon S3 data lake Keep up to exabytes of data in Amazon S3 SQL Amazon Redshift Query editor ⾼速で広く使⽤されているクラウドデータウェアハウス

Amazon Redshift Federated query Spectrum Operational databases BI & analytics apps Amazon S3 data lake Keep up to exabytes of data in Amazon S3 SQL Amazon Redshift AWS Lambda Lambda UDF Query editor ⾼速で広く使⽤されているクラウドデータウェアハウス

Amazon Redshift Federated query Spectrum Operational databases BI & analytics apps Amazon S3 data lake Keep up to exabytes of data in Amazon S3 SQL Amazon Redshift AWS Lambda Lambda UDF AWS services like Amazon EC2, Amazon ECS, Amazon EventBridge, AWS Cloud9, and AWS CLI Data API Query editor ⾼速で広く使⽤されているクラウドデータウェアハウス

Amazon Redshift Federated query Spectrum Operational databases BI & analytics apps Amazon S3 data lake Keep up to exabytes of data in Amazon S3 ML & analytics services SQL Redshift ML Amazon Redshift AWS Lambda Lambda UDF AWS services like Amazon EC2, Amazon ECS, Amazon EventBridge, AWS Cloud9, and AWS CLI Data API Query editor ⾼速で広く使⽤されているクラウドデータウェアハウス

Amazon Redshift ML SQL 経由で Amazon SageMaker と連携し、機械学習モデルの作成・トレーニングが可能に CREATE MODEL demo_ml.customer_churn FROM (SELECT c.age, c.zip, c.monthly_spend, c.monthly_cases, c.active FROM customer_info_table c) TARGET c.active; ユースケース : 製品のリコメンデーション、不正防⽌、顧客離反の削減など SQL で機械学習モデルの作成、トレーニング、デプロイ推論モデルを Amazon Redshift 上にデプロイし SQL ステートメントの⼀部としてユーザー定義関数を呼び出すように推論を実⾏可能モデルの前処理、作成、トレーニング、デプロイを⾃動で実⾏ https://aws.amazon.com/es/about-aws/whats-new/2021/05/aws-announces-general-availability-of-amazon-redshift-ml/ 機械学習アルゴリズムは⾃動選択または XGBoost, MLP, K-means を指定可能対応リージョン: 東京, オハイオ, バージニア, オレゴン, サンフランシスコ, カナダ, フランクフルト, アイルランド, ロンドン, パリ, ストックホルム, ⾹港, シンガポール, シドニー, サンパウロ

Amazon Redshift ML のしくみ Amazon Redshift CREATE MODEL customer_churn FROM (SELECT c.age, c.zip, c.monthly_spend, c.monthly_cases, c.active AS label FROM customer_info_table c) TARGET label FUNCTION predict_customer_churn Amazon SageMaker Autopilot が実⾏されモデルを返却 SELECT n.id, n.firstName, n.lastName, predict_customer_churn(n.age,c.zip,..) AS activity_prediction FROM new_customers n WHERE n.marital_status = ‘single’ 構築済みモデルを使⽤して推論を実⾏ (処理は Amazon Redshift 内で実⾏) Amazon Redshift シンプルな SQL コマンドでモデルを作成, トレーニング, デプロイ SageMaker Autopilot を使⽤したモデルの⾃動選択, 前処理, トレーニング (アルゴリズム指定も可) トレーニングされたモデルは, Amazon Redshift 上にコンパイルされ, 以後ユーザーは SQL を使⽤して推論を⾏うことが可能

SageMaker モデルのインポート Bring your own model (BYOM) Amazon Redshift CREATE MODEL customer_ltv( integer,integer) RETURNS float4 LOCATION “S3://<bucket” IAM_ROLE ‘…’; Amazon SageMaker SELECT n.id, n.firstName, n.lastName, customer_ltv(n.age,c.zip) AS activity_prediction FROM new_customers n WHERE n.marital_status = ‘single’ 構築済みモデルを使⽤して推論を実⾏ (処理は Amazon Redshift 内で実⾏) Amazon Redshift SageMaker 側でモデルの作成、トレーニングを実施し、Redshift にインポートトレーニングされたモデルは, Amazon Redshift 上にコンパイルされ, 以後ユーザーは SQL を使⽤して推論を⾏うことが可能対応アルゴリズムは XGBoost, MLP

SageMaker モデルのリモート呼び出し Bring your own model (BYOM) Amazon Redshift CREATE MODEL customer_ltv( integer,integer) RETURNS float4 SAGEMAKER ‘…’ IAM_ROLE ‘…’; Amazon SageMaker 構築済みモデルを使⽤して推論を実⾏ (処理は Amazon SageMaker 側で実⾏) SageMaker 側でモデルの作成、トレーニングを実施し、Redshift からエンドポイント呼び出し推論処理は SageMaker 側で実⾏される。SageMaker の機能をフルに活⽤することが可能 SELECT n.id, n.firstName, n.lastName, customer_ltv(n.age,c.zip) AS activity_prediction FROM new_customers n WHERE n.marital_status = ‘single’ Amazon Redshift Amazon SageMaker

© 2021, Amazon Web Services, Inc. or its Affiliates. Thank
You!

© 2021, Amazon Web Services, Inc. or its Affiliates. データ分析と機械学習
(ML)

あらゆるユーザーがデータ分析を⾏う時代へデータエンジニア/データベース開発者データアナリストデータサイエンティストシステム管理者 BI プロフェッショナル SQL

© 2021, Amazon Web Services, Inc. or its Affiliates. 機械学習
(ML) のニーズ多くのユーザーは、過去データの分析に加えて未来の予測分析を⾏いたい顧客体験の変⾰ビジネスオペレーションの改善より最善で迅速な意思決定製品やサービスの⾰新そのために ML のテクノロジーを活⽤したい

© 2021, Amazon Web Services, Inc. or its Affiliates. ML
へのチャレンジデータ分析から機械学習へのステップの間には壁がある場合が多いデータの蓄積データレイク過去・現在の可視化ダッシュボード（データを⾒られる形に）視点を変えて過去のデータを分析 BI等予測（未来）・判断の⾃動化仮説のモデリング・機械学習

ML ワークフローは複雑で反復的トレーニングデータの収集と準備 ML アルゴリズムの選択またはビルドトレーニング⽤の環境セットアップと管理モデルのトレーニング, デバッグ, チューニング本番環境へのモデルデプロイトレーニングの実⾏を管理モデルの監視予測結果の検証本番環境のスケーリングと管理ビルド準備トレーニング & チューニングデプロイ & 管理

© 2021, Amazon Web Services, Inc. or its Affiliates. ML
に必要なスキルとのギャップ ML に必要なスキルは SQL 中⼼のデータ分析とは異なるしかし, 分析にかかわる多くのユーザーは SQL 習熟度 > ML 概念やアルゴリズムの習熟度 SQL 習熟度 > Python 習熟度 SQL 習熟度 > R 習熟度 SQL 習熟度 > Java 習熟度 ... ...

SQL, ML それぞれのユースケース例顧客の属性別の購買分析発⽣事象の原因把握全体売上の可視化製品レコメンデーション価格/売上の予測顧客の離反検知 SQL ML

ユーザーからの ML に対するさまざまな声データアナリストデータベース開発者 BI プロフェッショナルデータサイエンティスト複雑な ML の知識やツールの使い⽅を習得することなく SQL で ML モデルのトレーニングや予測を⾏いたいダッシュボードやレポートで使⽤する SQL クエリで ML ベースの予測も⾏いたい SQL プラットフォームからデータを移動させることなく ML モデルトレーニングと予測を⾏いたい

Our mission at AWS 機械学習の⼒をすべてのユーザーへ

Amazon Redshift ML https://docs.aws.amazon.com/redshift/latest/dg/machine_learning.html 対応リージョン: 東京, オハイオ, バージニア, オレゴン, サンフランシスコ, カナダ, フランクフルト, アイルランド, ロンドン, パリ, ストックホルム, ⾹港, シンガポール, シドニー, サンパウロ 2021/05 G A

© 2021, Amazon Web Services, Inc. or its Affiliates. Amazon
Redshift ML Deep Dive

ML: 教師あり学習の基本フロートレーニング推論データソース既存データ (学習データ) 前処理新規データデバッグ, チューニングモデル作成モデルモデル評価モデル推論実⾏

ML モデルの作成とトレーニングトレーニングデータをテーブル名または SELECT クエリとして指定 TARGET として実際に予測したい列を指定 FUNCTION にはあとで推論を⾏う際に使⽤されるための予測関数名を指定 AUTO ON (デフォルト) とすると、 SageMaker Autopilot によって選択されたモデルが使⽤される CREATE MODEL customer_churn FROM (SELECT c.age as feat_1, c.zip AS feat_2, c.monthly_spend AS feat_3, c.monthly_cases AS feat_4, c.active AS label FROM customer_info_table c) TARGET label FUNCTION predict_customer_churn AUTO ON

Amazon SageMaker Autopilot • データクリーニングと前処理の⾃動化 • 線形回帰、⼆値分類、多値分類から⾃動でアルゴリズム選択 • アルゴリズムサポート: XGBoost, MLP, Linear Learner • ハイパーパラメータチューニングの⾃動化 • インスタンス、クラスタサイズの⾃動選択 Amazon SageMaker Model + Python Code Data https://aws.amazon.com/jp/sagemaker/autopilot/

Problem Type と Objective を指定した ML モデルの作成とトレーニング PROBLEM_TYPE は以下の何れかを指定 REGRESSION BINARY_CLASSIFICATION MULTICLASS_CLASSIFICATION OBJECTIVE には ML の予測精度を測定するために使⽤される以下の何れかのメトリクスの名前を指定 'MSE’ 'Accuracy’ 'F1’ 'F1Macro’ 'AUC' CREATE MODEL customer_churn FROM (SELECT c.age as feat_1, c.zip AS feat_2, c.monthly_spend AS feat_3, c.monthly_cases AS feat_4, c.active AS label FROM customer_info_table c) TARGET label FUNCTION predict_customer_churn AUTO ON PROBLEM_TYPE BINARY_CLASSIFICATION OBJECTIVE 'F1'

Problem Types (アルゴリズムの種類) • Classification (分類) • 分類の⽬的: インプットデータを予め定義した 2 つ以上のラベルに分けること • 分類のユースケースの例: 不正検出(トランザクションに関する情報を取得し、それが不正であるかどうかを判断する) • ⼆値分類、多値分類など • Regression (回帰) • 回帰の⽬的: インプットデータをもとに数値を出⼒すること • 回帰のユースケースの例: 住宅販売価格を予測する • 線形回帰、ロジスティック回帰など

代表的な ML ユースケースと Problem Types ML ユースケース Problem type 顧客離反分析 Binary classification (⼆値分類) 営業予測 Multiclass classification (多値分類) 不正検知 Binary classification (⼆値分類) 価格や売上の予測 Regression (回帰) 顧客のライフタイムバリュー (LTV) の予測 Regression (回帰) 顧客のローン債務不履⾏の検知 Binary classification (⼆値分類) 広告の最適化 Multiclass classification (多値分類)

Autopilot Objectives メトリクス説明対応する Problem Type MSE 平均⼆乗誤差(予測値と実際の値の差の⼆乗の平均) デフォルトで回帰に使⽤される Regression (回帰) Accuracy 正しく分類されたアイテムの数と、そうでなかったアイテムの数の⽐率⼆値分類、多値分類に使⽤されるデフォルトで多値分類に使⽤される Binary classification (⼆値分類) Multiclass classification (多値分類) F1 適合率と再現率の調和平均デフォルトで⼆値分類に使⽤される Binary classification (⼆値分類) F1_Macro F1 スコアを多値分類に適⽤ Multiclass classification (多値分類) AUC 分類スコアに対するしきい値を変えながら分類精度を評価 Binary classification (⼆値分類)

Model Type, Objective やその他パラメータを指定した ML モデルの作成とトレーニング CREATE MODEL model_abalone_xgboost_regression FROM (SELECT shell_weight, …….rings FROM abalone_xgb_train) TARGET Rings FUNCTION func_model_abalone_xgboost_regression IAM_ROLE 'arn:aws:iam::963462676454:role/Redshift-ML' AUTO OFF MODEL_TYPE xgboost OBJECTIVE 'reg:squarederror' PREPROCESSORS 'none' HYPERPARAMETERS DEFAULT EXCEPT (NUM_ROUND '100') オプションとして以下を指定可能: Model type: XGBOOST, MLP, K-MEANS Objective: mean squared error (MSE) など Preprocessors や hyperparameters などパラメータの指定も可能

Redshift ML でサポートされるアルゴリズムアルゴリズム説明 XGBoost 複数の決定⽊からの推定値のアンサンブルにより、ターゲット変数を予測する教師あり学習アルゴリズム MLP 売上の予測、レコメンデーションシステム、コールセンターのルーティング、広告の最適化など、多クラスデータ分類のためのニューラルネットワークベースの深層学習アルゴリズム K-MEANS クラスタの平均を⽤いて、与えられたクラスタ数 k 個に分類する⾮階層型クラスタリングの教師なし学習アルゴリズム ※ 2021 年 12 ⽉現在

XGBoost Objective (学習⽅法) Type 説明 reg:squarederror ⼆乗損失による回帰 reg:squaredlogerror 対数損失の 2 乗による回帰 reg:logistic 0 から 1 までの連続値に対するロジスティック回帰 reg:pseudohubererror 絶対損失の 2 倍微分可能な代替案である PseudoHuber 損失による回帰 reg:tweedie ログリンクを使⽤した Tweedie 回帰。たとえば、保険の全損失をモデル化する場合などに役⽴つ binary:logistic ⼆値分類 (0 または 1 の離散値) のロジスティック回帰 binary:hinge ⼆値分類のヒンジ損失。確率を⽣成するのではなく、0 または 1 の予測が⾏われる multi:softmax 多値分類を⾏う。num_class (クラス数) も設定する必要がある https://xgboost.readthedocs.io/en/latest/parameter.html#learning-task-parameters

ML モデルの確認 SHOW MODEL コマンドによりモデルのステータス詳細を確認 SHOW MODEL ALL で構築済みのすべてのモデルの詳細を確認可能 validation 結果をチェックしてモデルの精度を評価 STV_ML_MODEL_INFO システムテーブルよりモデルのステータス確認も可能 Key Value Model Name customer_churn Schema Name demo_ml Owner demouser Creation Time "Tue, 24.11.2020 07:02:51" Model State READY validation:f1 0.681240 Estimated Cost 0.990443 TRAINING DATA:, Query "SELECT STATE, AREA_CODE, TOTAL_CHARGE/ACCOUNT_LENGTH AS AVERAGE_DAILY_SPEND, CUST_SERV_CALLS/ACCOUNT_LENGTH AS AVERAGE_DAILY_CASES, CHURN" FROM DEMO_ML.CUSTOMER_ACTIVITY WHERE ACCOUNT_LENGTH > 120 Target Column, Active PARAMETERS:, Model Type auto Problem Type BinaryClassification Objective F1 Function Name predict_customer_churn Function Parameters, "state area_code average_daily_spend average_daily_cases " Function Parameter Types "varchar int4 float8 int4 " IAM Role arn:aws:iam::9999999999:role/RedshiftML s3 Bucket redshiftml Max Runtime 1800 SHOW MODEL customer_churn

ML モデルを使⽤して推論を実⾏推論は UDF として利⽤可能通常の UDF と同じように任意の SQL 構造で推論を実⾏ワークロード管理機能 (WLM) を活⽤し推論のために優先的に計算リソースを割り当てることも可能推論は, Amazon Redshift の超並列処理やその他すべての機能を活⽤して⾼速に実⾏される SELECT customer_id, predict_customer_churn(age, zip, monthly_spend, monthly_cases) FROM customer_info_table;

Amazon Redshift MLを使⽤すると推論処理に対して追加費⽤なしトレーニング処理のみの料⾦お⽀払い Amazon Redshift ML: コストを最適化トレーニング 10% 推論 90% コスト https://aws.amazon.com/jp/redshift/pricing/ Amazon Redshift の料⾦

ML モデルトレーニングのコスト管理 ML モデル作成クエリの中で, max_cells (トレーニング対象データの⾏数×列数) を指定することが可能もし query で指定したクエリのデータセットが max_cells の値を超える場合, Amazon Redshift は与えるトレーニングデータを⾃動的に削減 max_cells はデフォルトで 100 万セルとなっており, $20 未満となる max_runtime をセットすることで学習時間の上限を設けることが可能デフォルトは 5,400 秒 (90 分) CREATE MODEL customer_churn FROM query … SETTINGS ( max_cells = 200000) https://aws.amazon.com/jp/redshift/pricing/ Amazon Redshift の料⾦ CREATE MODEL customer_churn FROM query … SETTINGS ( MAX_RUNTIME 3000)

Feature Importance (特徴量の重要度) • トレーニングデータの特徴量が予測結果にどう寄与したかを算出 • CREATE MODEL によるトレーニングジョブ実⾏完了後、 EXPLAIN_MODEL を実⾏することでモデルの説明を JSON 形式で確認可能 N ew ! Using model explainability with Amazon Redshift ML https://docs.aws.amazon.com/redshift/latest/dg/clarify.html

参考: Aurora, Athena, Redshift の ML 連携機能の違い DB/Analytics サービス連携 ML サービスモデル作成 / トレーニング推論コスト Amazon Comprehend (Amazon Comprehend のモデルを使⽤) SQL 内で Stored Function を実⾏して Amazon Comprehend を呼び出し追加費⽤なし (Amazon Comprehend に対する通常料⾦のみ) Amazon SageMaker (Amazon SageMaker 側にカスタムモデルを準備) UDF を作成し、SQL 内で実⾏して Amazon SageMaker を呼び出し追加費⽤なし (Amazon SageMaker に対する通常料⾦のみ) Amazon SageMaker (Amazon SageMaker 側にカスタムモデルを準備) UDF を作成し、SQL 内で実⾏して Amazon SageMaker を呼び出し追加費⽤なし (Amazon SageMaker に対する通常料⾦のみ) Amazon SageMaker (Autopilot) CREATE MODEL ⽂を実⾏し Amazon SageMaker (Autopilot) を呼び出しモデルを作成 SQL 内で UDF を実⾏し Amazon Redshift 内で処理を実⾏ (Amazon SageMaker のエンドポイントを呼び出し、 Amazon SageMaker 側で処理することも可能) CREATE MODEL 実⾏時のトレーニング対象データのセル数(⾏数×列数)を基に Amazon S3 や Amazon SageMaker の費⽤が発⽣ Amazon Redshift Amazon Athena Amazon Aurora

“当社は予測分析と機械学習を⽤いて、業務と臨床の効率と効果を改善しています。 Redshift ML を利⽤することで、当社のアナリストは、最⼩限の労⼒でMLモデルを作成・活⽤し、新薬を適切な治療条件に分類することができるようになりました。このプロセスをサポートするために Redshift ML を活⽤することで得られた効率性は、当社の⽣産性を向上させ、リソースを最適化しました。” Vice President of Clinical Outcomes Analytics and Reporting How Magellan Rx Management used Amazon Redshift ML to predict drug therapeutic conditions https://aws.amazon.com/jp/blogs/big-data/how-magellan-rx-management-used-amazon-redshift-ml-to-predict-drug-therapeutic-conditions/

How Jobcase is using Amazon Redshift ML to recommend job search content at scale https://aws.amazon.com/jp/blogs/big-data/how-jobcase-is-using-amazon-redshift-ml-to-recommend-job-search-content-at-scale/ “Jobcase には、本番環境に Amazon Redshift ML を使⽤して作成したいくつかのモデルがあります。各モデルは、データパイプラインを必要とせずに、Redshift データウェアハウスで数⼗億の予測を数分で直接実⾏します。 Redshift ML を使⽤して、推論コストを増加させることなく、いくつかの異なる電⼦メールテンプレートタイプで収益とメンバーエンゲージメント率を 5〜10％向上させるモデルアーキテクチャを進化させました。” Mike Griffin EVP Optimization & Analytics

Amazon Redshift ML Introduction

Amazon Redshift ML Introduction

More Decks by jozono

Other Decks in Technology

Featured

Transcript