Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Auto AI 機械学習分類モデル作成 / AutoAI ML Classification

Auto AI 機械学習分類モデル作成 / AutoAI ML Classification

2021/11/24 九州大学で行った「Auto AI 機械学習分類モデル作成」のハンズオン資料を一般向けに編集したものです。

Kyoko Nishito

November 24, 2021
Tweet

More Decks by Kyoko Nishito

Other Decks in Technology

Transcript

  1. ੢ށ ژࢠ ೔ຊΞΠɾϏʔɾΤϜגࣜձࣾ ςΫϊϩδʔࣄۀ෦ %BUB"*5FDIOJDBM4BMFT github.com/kyokonishito twitter.com/KyokoNishito www.linkedin.com/in/kyokonishito qiita.com/nishikyon speakerdeck.com/kyokonishito

    ೔ຊ*#.ʹͯओʹ*#.ͷࣾ಺γεςϜ։ൃɾอकʹैࣄ͠ɺཁ ݅ఆ͔ٛΒอक·Ͱɺ։ൃऀɾ1.ɾΞʔΩςΫτͱͯ͠೔ຊɺ "1֤ࠃͷੜ࢈؅ཧγεςϜ΍ߪങγεςϜɺ*5ࢿ࢈؅ཧγε ςϜ ౳ɺ෯޿͘ܦݧ͖ͯ͠·ͨ͠ɻͦͷޙ*#.%FWFMPQFS "EWPDBUFͱͯ͠։ൃऀ΁ͷܒ໤׆ಈΛߦ͍ͬͯ·ͨ͠ɻ ݱࡏ͸%BUB"*ͷςΫχΧϧɾηʔϧε΍͍ͬͯ·͢ɻ 8PNFOJO%BUB4DJFODF 5PLZP!*#. ։࠵ ୈ ճ ೔ຊ౷ܭֶձ౷ܭڭҭ৆ ड৆ 2
  2. 機械学習 Machine Learning 8 課題: ⼼不全がおこるかどうかを判断する *BMI: 体重kg÷(⾝⻑m*⾝⻑m) 実⾏: モデルは⼼不全の有無

    を予測 学習: 学習し結果予測モデル作成のために データセットを利⽤ ⼼拍数 BMI 年齢 性別 結果 93 25 49 F False 108 24 32 M False 80 31 60 M True 93 27 58 F True ⼊⼒: ⼼拍数, BMI*, 年齢, 性別
  3. 今までのやり⽅ -- Traditional データ ルール if BPM-BMI > 60: result

    = True else: result = False 結果 アルゴリズム 9
  4. 教師あり学習 機械学習 教師なし学習 強化学習 回帰 Regression 分類 Classification 連続した数値を推定 Watson

    Studioの AutoAI機能で プログラミングなしで モデル作成が可能! 分類クラスを推定 • Decision Tree Regression • Extra Trees Regression • Gradient Boosting Regression • LGBM Regression • Linear Regression • Random Forest Regression • Ridge • XGBoost Regression • Decision Tree Classifier • Extra Trees Classifier • Gradient Boosted Tree Classifier • LGBM Classifier • Logistic Regression • Random Forest Classifier • XGBoost Classifier 13
  5. 8BUTPO4UVEJPͷಛ௃ r෼ੳͷશϓϩηεͰҰ؏ͯ͠࢖͑Δπʔϧ r *#.$MPVEͷ4BB4 4PGUXBSFBTB4FSWJDF ͱͯ͠ར༻͕ՄೳͰ͢ɻ データソース カタログ 抽出 加⼯・結合

    テーブル作成 (BIモデル 作成) データ 可視化 機械学習 モデル作成 特徴点 抽出 Tool A Tool B Tool C Watson Studio ガバナンス 再利⽤ 基盤担当 データ エンジニア データサイエンティスト アプリ開発者 データ ガバナンス担当 つなぐ 整える 分析活⽤する チームで協働する 15
  6. 整える︓データ準備 (探索・確認・加⼯) の効率化 データの品質や分布を可視化 ⽋損値や外れ値を把握・修正 ユーザー⾃⾝が、様々な データをGUIで簡単に加⼯ • 検索機能をつかって探し出す •

    他のユーザが作成した加⼯デー タ等を共有・再利⽤が出来る ⽬的に合う正しいデータを 探し取り出す データの特徴・分布状況を 簡単に確認 データ加⼯や結合を容易に ① データカタログ ② データプロファイル ③ セルフETL 17
  7. Watson Studio 機能 • カタログ機能: Connection登録 • カタログ機能: テーブル登録 •

    カタログ機能: ⽂書 • Refinery: データ分析 • Refinery: データ整形 • Cognos Service: BI Tool • 機械学習⽤GUIツール (AutoAI) • SPSS modeler機能 • R Studio機能 • Jupyter Notebook機能 • 深層学習⽤GUIツール (Neural Network Designer) • 深層学習⽤GUIツール (Experiment Builder) • 深層学習⽤の実験環境(HPO)の提供 • Decision Optimizer • Machine Learning: モデル管理機能 • Machine Learning: Webサービス化 • Machine Learning: モデルの再評価、再学 習、再配置 • Visual Recognition Model作成ツール • Natural Language Classifier model作成 ツール • NeuNetS(学習データ(イメージ)に応じて最 適な深層学習モデルを⽣成) 20
  8. Watson Studio 機能 • カタログ機能: Connection登録 • カタログ機能: テーブル登録 •

    カタログ機能: ⽂書 • Refinery: データ分析 • Refinery: データ整形 • Cognos Service: BI Tool • 機械学習⽤GUIツール (AutoAI) • SPSS modeler機能 • R Studio機能 • Jupyter Notebook機能 • 深層学習⽤GUIツール (Neural Network Designer) • 深層学習⽤GUIツール (Experiment Builder) • 深層学習⽤の実験環境(HPO)の提供 • Decision Optimizer • Machine Learning: モデル管理機能 • Machine Learning: Webサービス化 • Machine Learning: モデルの再評価、再学 習、再配置 • Visual Recognition Model作成ツール • Natural Language Classifier model作成 ツール • NeuNetS(学習データ(イメージ)に応じて最 適な深層学習モデルを⽣成) 今回はAutoAI︕ 21
  9. AutoAIの⾃動学習 データ前処理 効率のいいモデル作成に必須の処理である、⽋損値の補間、データのエンコードなどを、最適 な形で⾃動的に⾏います。 モデル選定 モデル選定に関しては、少ないデータで簡易的なモデルを作成し、有⼒な候補のモデルを絞り 込む⽅式を採⽤しています。この⽅法により、少ない処理時間で効率よく精度の⾼いモデルを 選定することが可能です。候補となるモデル数は 分類型: 7種類

    回帰型: 8種類です。 特徴量最適化 AutoAIでは、強化学習の仕組みを利⽤して、しらみつぶしではない効率のいい⽅法により、 精度の最適化をするための特徴量チューニングを⾏います。 ハイパーパラメータ最適化 モデルの精度に影響のある、ハイパーパラメータの最適化についても、計算資源をあまり使わ ない効率のいい⽅法で⾏います。 参照: https://dataplatform.cloud.ibm.com/docs/content/wsj/analyze-data/autoai-overview.html?audience=wdp 25
  10. (参考) AutoAIでサポートしているモデル(回帰) 回帰型モデルでは、次の8種類のモデルをサポートしています。 Algorithm Description Decision Tree Regression Maps observations

    about an item (represented in the branches) to conclusions about the item’s target value (represented in the leaves). It supports both continuous and categorical features. Extra Trees Regression An averaging algorithm based on randomized decision trees. Gradient Boosting Regression Produces a regression prediction model in the form of an ensemble of decision trees. It supports both continuous and categorical features. LGBM Regression Gradient boosting framework that uses tree-based learning algorithms. Linear Regression Models the linear relationship between a scalar-dependent variable y and one or more explanatory variables (or independent variables) x. Random Forest Regression Constructs multiple decision trees to produce the mean prediction of each decision tree. It supports both continuous and categorical features. Ridge Ridge regression is similar to Ordinary Least Squares but imposes a penalty on the size of coefficients. XGBoost Regression GBRT is an accurate and effective off-the-shelf procedure that can be used for regression problems. Gradient Tree Boosting models are used in a variety of areas including Web search ranking and ecology. 32
  11. (参考) AutoAIでサポートしているモデル(分類) 分類型モデルでは、次の7種類のモデルをサポートしています。 Algorithm Description Decision Tree Classifier Maps observations

    about an item (represented in branches) to conclusions about the item’s target value (represented in leaves). Supports both binary and multiclass labels, as well as both continuous and categorical features. Extra Trees Classifier An averaging algorithm based on randomized decision trees. Gradient Boosted Tree Classifier Produces a classification prediction model in the form of an ensemble of decision trees. It only supports binary labels, as well as both continuous and categorical features. LGBM Classifier Gradient boosting framework that uses leaf-wise (horizontal) tree-based learning algorithm. Logistic Regression Analyzes a data set in which there are one or more independent variables that determine one of two outcomes. Only binary logistic regression is supported Random Forest Classifier Constructs multiple decision trees to produce the label that is a mode of each decision tree. It supports both binary and multiclass labels, as well as both continuous and categorical features. XGBoost Classifier Accurate sure procedure that can be used for classification problems. XGBoost models are used in a variety of areas including Web search ranking and ecology. 33
  12. 4. Auto AI ハンズオン 1. データ準備 2. Watson Studio のセットアップ

    3. Watson Studio の起動 4. Watson Studio プロジェクトの作成 5. Machine Learningサービスの作成と追加 6. Auto AI モデル作成 7. Auto AI Deploy & テスト 35
  13. 36 ຊ೔࢖༻͢Δֶशσʔλ ػցֶशͷαϯϓϧʹΑ͘࢖ΘΕΔ ΞΠϦεσʔληοτΛ࢖༻͠·͢ɻ ௨ৗ͸σʔλΛ࢖͑ΔΑ͏ʹ͢ΔσʔλΫϨϯδϯά࡞ۀ͕ඞཁͰ͕͢ɺ͜ͷσʔλ͸ΫϨϯδϯάෆཁͰ͢ʣ छྨͷ͋΍Ί *SJTΞΠϦε ͷ਺஋σʔλ • 4&1"--&/(5)͕͘ͷ௕͞

    DN • 4&1"-8*%5)͕͘ͷ෯ DN • 1&5"--&/(5)ՖͼΒͷ௕͞ DN • 1&5"-8*%5)ՖͼΒͷ෯ DN • $-"44*SJTTFUPTB ητφ  *SJTWFSTJDPMPVS όʔγΫϧ  *SJTWJSHJOJDB όʔδχΧ
  14. 37 ༧ଌ͢Δ಺༰ ͕͘ͷ௕͞ɺ͕͘ͷ෯ɺՖͼΒͷ௕͞ɺՖͼΒͷ෯͔Β Ͳͷ͋΍Ίͷछྨ͔Λ༧ଌ • 4&1"--&/(5)͕͘ͷ௕͞ DN • 4&1"-8*%5)͕͘ͷ෯ DN

    • 1&5"--&/(5)ՖͼΒͷ௕͞ DN • 1&5"-8*%5)ՖͼΒͷ෯ DN • $-"44 *SJTTFUPTB ητφ  *SJTWFSTJDPMPVS όʔγΫϧ  *SJTWJSHJOJDB όʔδχΧ (あやめの種類)
  15. ハンズオン全体の流れ プロジェクト IBM Watson Studio (IBM Cloud Pak for Data)

    iris.csv トレーニング⽤データ Irisモデル 機械学習 (AutoAI) iris_test.csv 新たなデータ Webサービス モデルをプロモートして Webサービスとしてデプロイ 予測結果 デプロイメント・スペース Machine Learning サービス 39
  16. "VUP"*ϋϯζΦϯ 1. データ準備 2. Watson Studio のセットアップ 3. Watson Studio

    の起動 4. Watson Studio プロジェクトの作成 5. Machine Learningサービスの作成と追加 6. Auto AI モデル作成 7. Auto AI Deploy & テスト 40
  17. 1. データ準備 アイリスデータセット 学習⽤データ iris.csv を以下からダウンロードし、⾃分のPCに保存します︓ https://ibm.box.com/v/20211124iris 右上のダウンロードボタンをクリックして保存します。 • SEPAL

    LENGTH: がくの⻑さ cm • SEPAL WIDTH : がくの幅 cm • PETAL LENGTH: 花びらの⻑さ cm • PETAL WIDTH : 花びらの幅 cm • CLASS: Iris-setosa(セトナ), Iris-versicolour(バーシクル), Iris-virginica (バージニカ)41
  18. 1. データ準備 2. Watson Studio のセットアップ 3. Watson Studio の起動

    4. Watson Studio Projectの作成 5. サービスの作成と追加 6. Auto AI モデル作成 7. Auto AI Deploy & テスト "VUP"*ϋϯζΦϯ 42
  19. 1. データ準備 2. Watson Studio のセットアップ 3. Watson Studio の起動

    4. Watson Studio プロジェクトの作成 5. サービスの作成と追加 6. Auto AI モデル作成 7. Auto AI Deploy & テスト "VUP"*ϋϯζΦϯ
  20. 1. データ準備 2. Watson Studio のセットアップ 3. Watson Studio の起動

    4. Watson Studio プロジェクトの作成 5. サービスの作成と追加 6. Auto AI モデル作成 7. Auto AI Deploy & テスト "VUP"*ϋϯζΦϯ 53
  21. ハンズオン全体の流れ プロジェクト IBM Watson Studio (IBM Cloud Pak for Data)

    iris.csv トレーニング⽤データ Irisモデル 機械学習 (AutoAI) iris_test.csv 新たなデータ Webサービス モデルをプロモートして Webサービスとしてデプロイ 予測結果 デプロイメント・スペース Machine Learning サービス 54
  22. 1. データ準備 2. Watson Studio のセットアップ 3. Watson Studio の起動

    4. Watson Studio プロジェクトの作成 5. サービスの作成と追加 6. Auto AI モデル作成 7. Auto AI Deploy & テスト "VUP"*ϋϯζΦϯ
  23. ハンズオン全体の流れ プロジェクト IBM Watson Studio (IBM Cloud Pak for Data)

    iris.csv トレーニング⽤データ Irisモデル 機械学習 (AutoAI) iris_test.csv 新たなデータ Webサービス モデルをプロモートして Webサービスとしてデプロイ 予測結果 デプロイメント・スペース Machine Learning サービス
  24. 1. データ準備 2. Watson Studio のセットアップ 3. Watson Studio の起動

    4. Watson Studio プロジェクトの作成 5. サービスの作成と追加 6. Auto AI モデル作成 7. Auto AI Deploy & テスト "VUP"*ϋϯζΦϯ
  25. ハンズオン全体の流れ プロジェクト IBM Watson Studio (IBM Cloud Pak for Data)

    iris.csv トレーニング⽤データ Irisモデル 機械学習 (AutoAI) iris_test.csv 新たなデータ Webサービス モデルをプロモートして Webサービスとしてデプロイ 予測結果 デプロイメント・スペース Machine Learning サービス
  26. 4. Auto AI 課題Demo 1. データ準備 2. Watson Studio のセットアップ

    3. Watson Studio の起動 4. Watson Studio Projectの作成 5. サービスの作成と追加 6. Auto AI モデル作成 7. Auto AI Deploy & テスト
  27. ハンズオン全体の流れ プロジェクト IBM Watson Studio (IBM Cloud Pak for Data)

    iris.csv トレーニング⽤データ Irisモデル 機械学習 (AutoAI) iris_test.csv 新たなデータ Webサービス モデルをプロモートして Webサービスとしてデプロイ 予測結果 デプロイメント・スペース Machine Learning サービス
  28.  ʮ༧ଌʯϘλϯΛΫϦοΫ͠·͢ɻ͠͹Β͘͢Δͱӈଆʹ༧ଌ݁Ռ͕ දࣔ͞Ε·͢ɻ͜ͷ৔߹ɺ༧ଌ஋͸*SJTTFUPTBͰ֬཰ QSPCBCJMJUZ ͸ Ͱ͢ɻ ͜ͷ஋͸ਓ ࡞੒ͨ͠Ϟσϧ ʹΑͬͯҟͳΓ·͢ 95

    *SJT@UFTUDTWͷ$-"44ͷ஋ ͱൺ΂ͯΈ·͠ΐ͏ɻ༧ଌ ͸߹͍ͬͯ·͔ͨ͠ ଞͷߦͷ*SJT@UFTUDTWͷ஋Ͱ ΋ࢼͯ͠Έ·͠ΐ͏ɻ "VUP"*%FQMPZςετ