Amazon Redshift Spectrum BI & analytics apps Amazon S3 data lake Keep up to exabytes of data in Amazon S3 SQL Amazon Redshift Query editor ⾼速で広く使⽤されているクラウドデータウェアハウス
Amazon Redshift Federated query Spectrum Operational databases BI & analytics apps Amazon S3 data lake Keep up to exabytes of data in Amazon S3 SQL Amazon Redshift Query editor ⾼速で広く使⽤されているクラウドデータウェアハウス
Amazon Redshift Federated query Spectrum Operational databases BI & analytics apps Amazon S3 data lake Keep up to exabytes of data in Amazon S3 SQL Amazon Redshift AWS Lambda Lambda UDF Query editor ⾼速で広く使⽤されているクラウドデータウェアハウス
Amazon Redshift Federated query Spectrum Operational databases BI & analytics apps Amazon S3 data lake Keep up to exabytes of data in Amazon S3 SQL Amazon Redshift AWS Lambda Lambda UDF AWS services like Amazon EC2, Amazon ECS, Amazon EventBridge, AWS Cloud9, and AWS CLI Data API Query editor ⾼速で広く使⽤されているクラウドデータウェアハウス
Amazon Redshift Federated query Spectrum Operational databases BI & analytics apps Amazon S3 data lake Keep up to exabytes of data in Amazon S3 ML & analytics services SQL Redshift ML Amazon Redshift AWS Lambda Lambda UDF AWS services like Amazon EC2, Amazon ECS, Amazon EventBridge, AWS Cloud9, and AWS CLI Data API Query editor ⾼速で広く使⽤されているクラウドデータウェアハウス
ユーザーからの ML に対するさまざまな声 データアナリスト データベース開発者 BI プロフェッショナル データサイエンティスト 複雑な ML の知識やツールの 使い⽅を習得することなく SQL で ML モデルのトレーニ ングや予測を⾏いたい ダッシュボードやレポートで 使⽤する SQL クエリで ML ベースの予測も⾏いたい SQL プラットフォームから データを移動させることなく ML モデルトレーニングと 予測を⾏いたい
ML モデルの作成とトレーニング トレーニングデータをテーブル名また は SELECT クエリとして指定 TARGET として実際に予測したい列を 指定 FUNCTION にはあとで推論を⾏う際に 使⽤されるための予測関数名を指定 AUTO ON (デフォルト) とすると、 SageMaker Autopilot によって 選択されたモデルが使⽤される CREATE MODEL customer_churn FROM (SELECT c.age as feat_1, c.zip AS feat_2, c.monthly_spend AS feat_3, c.monthly_cases AS feat_4, c.active AS label FROM customer_info_table c) TARGET label FUNCTION predict_customer_churn AUTO ON
Problem Type と Objective を指定した ML モデルの作成と トレーニング PROBLEM_TYPE は以下の何れかを指定 REGRESSION BINARY_CLASSIFICATION MULTICLASS_CLASSIFICATION OBJECTIVE には ML の予測精度を測定 するために使⽤される以下の何れかの メトリクスの名前を指定 'MSE’ 'Accuracy’ 'F1’ 'F1Macro’ 'AUC' CREATE MODEL customer_churn FROM (SELECT c.age as feat_1, c.zip AS feat_2, c.monthly_spend AS feat_3, c.monthly_cases AS feat_4, c.active AS label FROM customer_info_table c) TARGET label FUNCTION predict_customer_churn AUTO ON PROBLEM_TYPE BINARY_CLASSIFICATION OBJECTIVE 'F1'
Model Type, Objective やその他パラメータを指定した ML モデルの作成とトレーニング CREATE MODEL model_abalone_xgboost_regression FROM (SELECT shell_weight, …….rings FROM abalone_xgb_train) TARGET Rings FUNCTION func_model_abalone_xgboost_regression IAM_ROLE 'arn:aws:iam::963462676454:role/Redshift-ML' AUTO OFF MODEL_TYPE xgboost OBJECTIVE 'reg:squarederror' PREPROCESSORS 'none' HYPERPARAMETERS DEFAULT EXCEPT (NUM_ROUND '100') オプションとして以下を指定可能: Model type: XGBOOST, MLP, K-MEANS Objective: mean squared error (MSE) など Preprocessors や hyperparameters などパラメータの指定も可能
ML モデルの確認 SHOW MODEL コマンドにより モデルのステータス詳細を確認 SHOW MODEL ALL で構築済みの すべてのモデルの詳細を確認可能 validation 結果をチェックして モデルの精度を評価 STV_ML_MODEL_INFO システムテーブ ルよりモデルのステータス確認も可能 Key Value Model Name customer_churn Schema Name demo_ml Owner demouser Creation Time "Tue, 24.11.2020 07:02:51" Model State READY validation:f1 0.681240 Estimated Cost 0.990443 TRAINING DATA:, Query "SELECT STATE, AREA_CODE, TOTAL_CHARGE/ACCOUNT_LENGTH AS AVERAGE_DAILY_SPEND, CUST_SERV_CALLS/ACCOUNT_LENGTH AS AVERAGE_DAILY_CASES, CHURN" FROM DEMO_ML.CUSTOMER_ACTIVITY WHERE ACCOUNT_LENGTH > 120 Target Column, Active PARAMETERS:, Model Type auto Problem Type BinaryClassification Objective F1 Function Name predict_customer_churn Function Parameters, "state area_code average_daily_spend average_daily_cases " Function Parameter Types "varchar int4 float8 int4 " IAM Role arn:aws:iam::9999999999:role/RedshiftML s3 Bucket redshiftml Max Runtime 1800 SHOW MODEL customer_churn
Feature Importance (特徴量の重要度) • トレーニングデータの特徴量が 予測結果にどう寄与したかを算出 • CREATE MODEL によるトレーニング ジョブ実⾏完了後、 EXPLAIN_MODEL を実⾏することでモデルの説明を JSON 形式で確認可能 N ew ! Using model explainability with Amazon Redshift ML https://docs.aws.amazon.com/redshift/latest/dg/clarify.html
“当社は予測分析と機械学習を⽤いて、業務と臨床の効率と効果を 改善しています。 Redshift ML を利⽤することで、当社のアナリス トは、最⼩限の労⼒でMLモデルを作成・活⽤し、新薬を適切な治 療条件に分類することができるようになりました。 このプロセス をサポートするために Redshift ML を活⽤することで得られた効率 性は、当社の⽣産性を向上させ、リソースを最適化しました。” Vice President of Clinical Outcomes Analytics and Reporting How Magellan Rx Management used Amazon Redshift ML to predict drug therapeutic conditions https://aws.amazon.com/jp/blogs/big-data/how-magellan-rx-management-used-amazon-redshift-ml-to-predict-drug-therapeutic-conditions/
How Jobcase is using Amazon Redshift ML to recommend job search content at scale https://aws.amazon.com/jp/blogs/big-data/how-jobcase-is-using-amazon-redshift-ml-to-recommend-job-search-content-at-scale/ “Jobcase には、本番環境に Amazon Redshift ML を使⽤して作成した いくつかのモデルがあります。 各モデルは、データパイプラインを必 要とせずに、Redshift データウェアハウスで数⼗億の予測を数分で直 接実⾏します。 Redshift ML を使⽤して、推論コストを増加させるこ となく、いくつかの異なる電⼦メールテンプレートタイプで収益とメ ンバーエンゲージメント率を 5〜10% 向上させるモデルアーキテク チャを進化させました。” Mike Griffin EVP Optimization & Analytics