Watson最新ソリューション (AutoAI & OpenScale)ご紹介

Slide 1

Slide 1 text

Slide 2

Slide 2 text

© 2019 IBM Corporation 赤石雅典 Data & AI Platform W atsonテクニカルセールス Executive IT Specialist 【主な経歴】 1 9 8 7 年日本アイ・ビー・エムに入社。入社当時は、東京基礎研究所研究員としてAPL2 を利用した数式処理システム、数学教育支援システムの研究開発に従事する。 1 9 9 3 年にSE部門に異動し、 ITスペシャリストとして主にオープン系システムのインフラ設計・構築及びアプリケーションデザインを担当。 2 0 1 3 年よりスマーターシティ事業に転属し、 2 0 1 6 年8 月にワトソン事業部に異動、今に至る。いろいろな領域を幅広くやっているので、 IT基盤系・アプリ開発・プログラム言語・ SQLチューニングはもとより W atsonや機械学習、ディープラーニングまで一通り語れるのが自慢。【社外講師】金沢工業大学大学院虎ノ門キャンパス客員教授「 AI技術特論」【著作】「 W atson Stud ioで始める機械学習・深層学習」リックテレコム社「最短コースでわかるディープラーニングの数学」日経BP社 q iita (http s://q iita.com /m akaishi2 ) 、雑誌記事等執筆多数自己紹介おかげさまで大好評です! 3刷 10,000部!

Slide 3

Slide 3 text

© 2019 IBM Corporation 金沢工業大学虎ノ門キャンパスで開講中の講座です。 4学期(11/2-12/20)の受講生絶賛募集中! こちらも是非ご検討を。 (私が講師をしている技術特論以外にも3つのコースがあります) 詳細は下記リンクから https://www.kanazawa-it.ac.jp/tokyo/im/subject/s_AI_technical_advanced.htm 金沢工業大学大学院 AI講座

Slide 4

Slide 4 text

© 2019 IBM Corporation 書籍出版元の日経BP様主催のいくつかのイベントで、講演などを行います。関心のある方は是非ご参加を! 2019年09月20日（金） 19:00- @丸善・丸の内本店３Ｆ日経セミナールーム日経ＢＰ刊『独学プログラマー』著者コーリー・アルソフ氏来日記念イベント「コーリー・アルソフ×赤石雅典トークセッション」 (無料但し書籍購入が条件) https://honto.jp/store/news/deail_041000037195.html 2019年10月9日（水）14:30～15:10 @東京ビッグサイト会議棟1F xPython Meet Up & Conference 2019 「Pythonで理解するディープラーニング入門」 (無料) https://expo.nikkeibp.co.jp/xpython/ 2019年 11月 7日（木） 10：00～16：30（開場9：30）@神田エッサム神田ホール2号館「人気書籍『ディープラーニングの数学』著者が教える！最短コースで分かる機械学習」 (69,800円 (書籍代込み)) https://www.nikkeibp.co.jp/seminar/atcl/nxt/nc191107/ イベントご案内

Slide 5

Slide 5 text

© 2019 IBM Corporation Agenda 5 1. IBMのAIソリューション全体像 2. AutoAI 2-1 AIの業務利用と課題 2-2 AutoAI紹介 2-3 AutoAI詳細機能 3. OpenScale 3-1 AIの課題とIBMの取り組み 3-2 Watson OpenScale概要 3-3 ダッシュボード 3-4 説明性(Explainability) 3-5公平性(Fairness) 4. まとめ

Slide 6

Slide 6 text

Slide 7

Slide 7 text

© 2019 IBM Corporation Watson Solution 全体像 7 Watson API Visual Recognition (画像) Speech to Text (⾳声認識) Text to Speech (⾳声合成) NLC (⾃然⾔語分類) NLU(⾃然⾔語理解) Discovery(AI検索エンジン) Assistant(チャットボット) 等 Language Translator (翻訳) Watson Studio (モデル開発環境) AutoAI (モデル⾃動構築ツール) Neural Network Designer (深層学習モデル構築ツール) Experiments Builder (GPU学習環境) SPSS Modeler Flow (機械学習モデル構築ツール) Jupyter Notebook R Studio Watson Knowledge Catalog(データ基盤) 接続情報・テーブル登録アクセス管理データ整形マスキング Lineage(世代管理)等 Watson Machine Learning (モデル実⾏環境) Web Service化 CLS (継続学習システム) GPU 対応FW・ライブラリ sckit-learn SPSS Spark Mlib XGBoost Tensorflow Keras PyTorch Caffe Watson OpenScale (モデル運⽤環境) 説明性公平性正確性呼出しログ性能 NeuNetS(深層モデル⾃動構築) 事前構築済みモデルカスタムモデル開発 Knowledge Studio (カスタム学習によるアノテーション) AutoAI(機械学習モデル⾃動構築)

Slide 8

Slide 8 text

© 2019 IBM Corporation Watson Anywhere 8 オンプレミス IBM Cloud 他社Cloud Power AI Intel ESS (Storage) ACC922 (Server) Watson ML Community Edition Watson ML Accelerator PowerAI Vision H2O Driverless AI Kubernetes Docker Watson Knowledge Catalog Watson ML Watson Studio Watson OpenScale Watson API Kubernetes Docker Watson Knowledge Catalog Watson ML Watson Studio Watson OpenScale Watson API Watson Knowledge Catalog Watson Machine Learning Watson Studio Watson OpenScale Watson API Cloud Foundry Storage / Database GPU ※ ※ Think2019でIBMは「Watson Anywhere」というコンセプトを提唱しました。オープンを前提とした仮想化技術、クラウドサービス、ハードウェア製品、基礎研究などIBMの総合力を発揮して「いつでもどこでも使えるＡＩ」の提供を目指します。

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

© 2019 IBM Corporation 11 AI の業務利用について日本においてもAIの業務利用が本格化してきました。しかし、本番業務で利用できるAIシステムの開発のためには、様々な役割の専門家の協力が必要です。業務専門家・AI利用のアイデア出し・必要な入力項目の洗い出しデータ専門家・学習用データの準備 (非正規化データの作成) ・データ整形 (クレンジング) データサイエンティスト・モデルの最適化 -> 高精度のモデル実装アプリ開発者・できあがったモデルを本番環境にデプロイ・モデルを利用するオンラインアプリの実装

Slide 12

Slide 12 text

© 2019 IBM Corporation 12 AI の業務利用について前ページで説明したそれぞれの専門家の典型的な関心事を、以下に書き下してみました。業務専門家データ専門家データサイエンティストアプリ開発者テレマーケティングで効率化のため、成約予測モデルを作りたい。入力項目として意味のありそうなのは、年齢、職業、...、キャンペーン接触回数、最終キャンペーンの結果だろうな。学習データを作るため、正規化を崩した表を作る必要がある。顧客マスターと営業履歴をJOINすればいいな。モデルの精度を上げるため、以下のことをしよう。前処理で、XX項目は正規化して、YY項目の欠損値は平均値で埋めよう。このタイプのデータには勾配ブースティングがモデルとして向いているので、これを使おう。ハイパーパラメータはいくつかのパターンでテストしてみる必要があるな。できたモデルをオンランサービスにするため、基盤はどうしようか。

Slide 13

Slide 13 text

© 2019 IBM Corporation 13 AI の業務利用時の課題点 AI利用時の最大の課題は、専門家のうち、データサイエンティストが不足していることです。従来、データサイエンティストには、高度の専門知識・経験が必要でした。経験の少ないデータサイエンティストによって作られた精度の低いモデルを本番利用すると、せっかくのAI利用のアイデアが有効活用できない結果になってしまいます。業務専門家データ専門家データサイエンティストアプリ開発者テレマーケティングで効率化のため、成約予測モデルを作りたい。入力項目として意味のありそうなのは、年齢、職業、...、キャンペーン接触回数、最終キャンペーンの結果だろうな。学習データを作るため、正規化を崩した表を作る必要がある。顧客マスターと営業履歴をJOINすればいいな。モデルの精度を上げるため、以下のことをしよう。前処理で、XX項目は正規化して、YY項目の欠損値は平均値で埋めよう。このタイプのデータには勾配ブースティングがモデルとして向いているので、これを使おう。ハイパーパラメータはいくつかのパターンでテストしてみる必要があるな。できたモデルをオンランサービスにするため、基盤はどうしようか。

Slide 14

Slide 14 text

© 2019 IBM Corporation 14 AutoAIの位置付け AutoAIは、このようなデータサイエンティスト不足の課題に応えるためのソリューションです。学習データをCSV形式で与え、2,3の指示をマウスクリックで行うだけで、あとは全自動で実用に耐えうる精度の機械学習モデルを構築することが可能となります。業務専門家データ専門家 AutoAI アプリ開発者テレマーケティングで効率化のため、成約予測モデルを作りたい。入力項目として意味のありそうなのは、年齢、職業、...、キャンペーン接触回数、最終キャンペーンの結果だろうな。学習データを作るため、正規化を崩した表を作る必要がある。顧客マスターと営業履歴をJOINすればいいな。 CSVファイルのアップロードして、目的変数だけ教えてもらえば、あとはまかせて! できたモデルをオンランサービスにするため、基盤はどうしようか。

Slide 15

Slide 15 text

Slide 16

Slide 16 text

© 2019 IBM Corporation 16 想定ユースケース以下では、よりAutoAIの利用イメージが持てるよう、実際の想定ユースケースに基づいたシナリオによって説明します。想定ユースケースとしては、以下の要件を考えます。【想定業務】銀行業務のテレマーケティング。既存の顧客名簿に基づいて、コールセンターからアウトバウンドのテレマーケティングを行っている。【仮説】顧客属性を入力として、成約の確率の高い顧客を予測するモデルを作る。精度の高いモデルを作り確度の高い見込み客のみコールの対象とすれば、営業効率がよくなるはずである。

Slide 17

Slide 17 text

© 2019 IBM Corporation 17 利用データネット上に公開されている下記データセットを使います。入力項目名とそれぞれの項目の意味は以下の通りです。 ※実際のプロジェクトでは、下記のような学習データは、データ専門家により準備される想定です。変数名内容 age 年齢 job 仕事 marital 婚姻有無 education 教育水準 default クレジットカードの債務不履行有無 balance 年間平均残高（€） housing 住宅ローンの有無 loan 個人ローンの有無 contact 連絡方法 day 最終接触日 month 最終接触月 duration 最終接触時間（秒） campaign キャンペーン中の連絡数 pdays 最後に連絡した日からの日数 previous キャンペーンまでに接触した回数 poutcome 以前のマーケティングキャンペーンの結果 https://archive.ics.uci.edu/ml/datasets/bank+marketing ※ 公開データセットには、フルセットとサブセットがあります。以下のデモでは4521件あるサブセットを利用し、4000件を学習用に、521件を検証用としました。

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

© 2019 IBM Corporation 23 正解 yes no 予測 yes 22 41 no 11 447 テストデータを利用した評価デプロイしたWebサービスを呼び出すことで、学習に利用していない521件のデータを利用してモデルによる予測値を取得しました。その結果は下の表のとおりです。モデルがyesと予測した63件のうち、22件が本当にyesでした。正答率(Precision)は34.9%となり、モデルを作らない状態でコールするより、はるかに効率がいいことがわかります。この時、モデル精度の高さが業務効率に直結することもわかります。

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Slide 26

Slide 26 text

© 2019 IBM Corporation 26 AutoAIの自動学習データ前処理効率のいいモデル作成に必須の処理である、欠損値の補完、データのエンコードなどを、最適な形で自動的に行います。モデル選定モデル選定に関しては、少ないデータで簡易的なモデルを作成し、有力な候補のモデルを絞り込む方式を採用しています。この方法により、少ない処理時間で効率よく精度の高いモデルを選定することが可能です。候補となるモデル数は分類型: 30種類回帰型: 44種類です。特徴量最適化 AutoAIでは、強化学習の仕組みを利用して、しらみつぶしではない効率のいい方法により、精度の最適化をするための特徴量チューニングを行います。ハイパーパラメータ最適化モデルの精度に影響のある、ハイパーパラメータの最適化についても、計算資源をあまり使わない効率のいい方法で行います。参照: https://dataplatform.cloud.ibm.com/docs/content/wsj/analyze-data/autoai-overview.html?audience=wdp

Slide 27

Slide 27 text

© 2019 IBM Corporation 27 (参考) AutoAIでサポートしているモデル(分類) 分類型モデルでは、次の30種類のモデルをサポートしています。 AdaBoost Classifier Gaussian Naïve Bayes Classifier Label Spreading Logistic Regression Passive Aggressive Classifier Ridge Classifier with Cross- Validation Bernoulli Naïve Bayes Classifier Gaussian Process Classifier LGBM Classifier MLP Classifier Perceptron Ridge Classifier Calibrated Classifier with Cross-Validation Gradient Boosted Tree Classifier Linear Discriminant Analysis Multinomial Naïve Bayes Classifier Quadratic Discriminant Analysis SGD Classifier Decision Tree Classifier Nearest Neighbor Analysis (KNN) Classifier Linear Support Vector Classifier Nearest Centroid Radius Neighbors Classifier Support Vector Classifier Extra Trees Classifier Label Propagation Logistic Regression with Cross-Validation Nu Support Vector Classifier Random Forest Classifier XGBoost Classifier

Slide 28

Slide 28 text

© 2019 IBM Corporation 28 (参考) AutoAIでサポートしているモデル(回帰) 回帰型モデルでは、次の44種類のモデルをサポートしています。 AdaBoost Regression Elastic Net with Cross- Validation Nearest Neighbor Analysis (KNN) Lasso Lars with Cross- Validation MLP Regression Orthogonal Matching Pursuit with Cross- Validation Random Forest Regression Theil-Sen Regression ARD Regression Elastic Net Kernel Ridge Lasso Lars MultiTask Elastic Net CV Orthogonal Matching Pursuit RANSAC Regression XGBoost Regression Bayesian Ridge Regression Gaussian Process Lars with Cross- Validation Lasso Lars IC MultiTask Elastic Net Passive- Aggressive Regression Ridge with Cross- Validation CCA Gaussian Process Regression Lars LGBM Regression Multi Task Lasso CV PLS Canonical Ridge Decision Tree Regression Gradient Boosting Regression Lasso with Cross- Validation Linear Regression Multi Task Lasso PLS Regression SGD Regression Extra Trees Regression Huber Regression Lasso Linear Support Vector Regression Nu SVR Radius Neighbors Regression Support Vector Regression

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

©2019 IBM Corporation 31 日本政府が策定した「人間中心のAI社会原則」公平性、説明責任及び透明性の原則「AI-Readyな社会」においては、AIの利用によって、人々が、その人の持つ背景によって不当な差別を受けたり、人間の尊厳に照らして不当な扱いを受けたりすることがないように、公平性及び透明性のある意思決定とその結果に対する説明責任(アカウンタビリティ)が適切に確保されると共に、技術に対する信頼性(Trust)が担保される必要がある。・AIの設計思想の下において、人々がその人種、性別、国籍、年齢、政治的信念、宗教等の多様なバックグラウンドを理由に不当な差別をされることなく、全ての人々が公平に扱われなければならない。・AIを利用しているという事実、AIに利用されるデータの取得方法や使用方法、AIの動作結果の適切性を担保する仕組みなど、用途や状況に応じた適切な説明が得られなければならない。参照 https://www8.cao.go.jp/cstp/aigensoku.pdf

Slide 32

Slide 32 text

Slide 33

Slide 33 text

©2019 IBM Corporation 33 「AIの公平性」の問題被告の再犯可能性を予測するAIシステム「Compas」米国で実際に本番利用されている機械学習モデル 137問の質問への回答を入力に、再び犯罪を犯す危険性を10段階の点数として算出調査報道サイト「プロパブリカ」により、以下の調査結果が判明し大きな社会問題となりました。偽陽性 (再犯の疑いありの判定で実際には再犯なし) 偽陰性 (再犯の疑いなしの判定で実際には再犯あり) 白人 23.5% 47.7% 黒人 44.9% 28.0% 出典: https://kaztaira.wordpress.com/2018/09/22/ａｉのバイアス問題、求められる「公平」とは何/

Slide 34

Slide 34 text

©2019 IBM Corporation 34 IBMの取り組み • 2017年 Corporate Responsibility Report 最初の項目にTrust and transparencyがあり、AIに関する責任性に言及 • 2018年9月21日「AI倫理のためのガイド」出典 https://www.ibm.com/blogs/think/jp-ja/everyday-ethics-for-artificial-intelligence/

Slide 35

Slide 35 text

©2019 IBM Corporation 35 IBMの取り組み IBMでは以上の全社的な方針を受けて、次の2つの製品・サービスを提供しています。 Watson OpenScale Watson StudioやWatson Machine Learningと同じIBMクラウド上のサービス。ただし、他のサービスと異なり、他社AIも管理対象に含む。 AI Fairness 360 / AI Explainability 360 Python APIをOSSとして公開。ライブラリだけでなく、API Reference、チュートリアル、デモアプリなども一般に利用可能。ユーザーは自分でPythonコーディングを行うことが前提。 AIF360: http://aif360.mybluemix.net/ AIX360: http://aix360.mybluemix.net/

Slide 36

Slide 36 text

©2019 IBM Corporation 36 OpenScaleとAIF360 OpenScaleとAIF360/AIX360の目的・役割・対象などを整理すると次のようになります。 Watson OpenScale AIF360/AIX360 位置付け商用製品/商用サービスオープンソース想定ユーザー企業ユーザーデータサイエンティスト研究者、開発者提供形態 ICP, IBM Cloud、他社クラウド Pythonライブラリーとツールの集合利用フェーズモデル実行/運用時モデル開発時提供機能説明性 ○ ○ (AIX360) 公平性 ○ ○ (AIF360) 正確性(精度) ○ -

Slide 37

Slide 37 text

Slide 38

Slide 38 text

©2019 IBM Corporation 38 Watson OpenScaleの特徴 Watson OpenScaleのハイレベルな特徴として以下のことがあげられます。 Open (オープン): 代表的な機械学習・深層学習フレームワーク・他社AIサービス(MS Azureと Amazon Sagemaker)を管理対象とすることが可能。 Scale (拡張性): パブリック、プライベート、ハイブリッド・クラウド、どの環境でも提供可能。 Explainability (説明性): AIモデルの評価結果において、その判断理由を説明。 Fairness (公平性): AIモデルの導出した結果の公平性をチェックし、是正する。

Slide 39

Slide 39 text

©2019 IBM Corporation 39 Watson OpenScaleの主要機能 Payload Logging機能がベースの機能となっています。 Payload Loggingを使って説明性(Explainability) と公平性(Fairness) を実現しています。それぞれの拡張機能としてContrastive ExplanationとBias mitigationがあります。それ以外にモニタリング機能や、ドリフト・モニタリング機能がなどがあります。 Payload Logging 説明性 (Explainability) 公平性 (Fairness) Contrastive Explanation Bias mitigation ・Monitoring ・Performance ・Drift monitoring Watson OpenScale 主要機能

Slide 40

Slide 40 text

Slide 41

Slide 41 text

Slide 42

Slide 42 text

Slide 43

Slide 43 text

©2019 IBM Corporation 43 説明性(Explainability) Explainability(説明性)とは、機械学習モデルが特定のトランサクションに対してなぜその結論に達したかの説明を入力項目ごとの寄与率で示す機能です。 Positiveな要因の項目別寄与度 -> OpenScaleの分析結果 Negativeな要因の項目別寄与度 -> OpenScaleの分析結果最終的な機械学習モデルの結論と確信度 -> モデルからわかる情報

Slide 44

Slide 44 text

©2019 IBM Corporation 44 説明性(Explainability) 説明性(Explainability)機能の実現方法 LIME(Local Interpretable Model-agnostic Explanations)という方法をベースにしています。・特定の機械学習の結果を解析したい場合、その近傍の入力データで出力がどうなるかを調べます。・集まったデータを使って、モデルを局所的に近似する簡易モデルを作ります。・簡易モデルは構造が簡単なため、寄与度を求めることが可能です。このアプローチであれば、対象が深層学習モデルのような複雑なモデルでも解析可能になります。出典: https://arxiv.org/abs/1602.04938

Slide 45

Slide 45 text

Slide 46

Slide 46 text

Slide 47

Slide 47 text

Slide 48

Slide 48 text

©2019 IBM Corporation 48 公平性バイアス検知の方法 perturbation analysis 入力データのバリエーションを増やす監視対象モデル Payloadだけではデータが不足している場合、OpenScaleは入力データのバリエーションを増やし (perturbation analysis)、それぞれの結果を見ることで、バイアスの有無を検知します。 payloadから取得した記録増やしたデータに関して、モデルを呼び出し結果を調べる結果を統計的に処理してバイアスの有無を判断

Slide 49

Slide 49 text

Slide 50

Slide 50 text

Slide 51

Slide 51 text

Slide 52

Slide 52 text

©2019 IBM Corporation 52 まとめ IBM のAI戦略・従来のAPIのサービスだけでなく、AI開発・実行・運用基盤も提供・従来のパブリッククラウドだけなく、オンプレミス・ハイブリッドクラウドへの対応 -> Watson Anywhere AutoAI ・AI開発の最大のボトルネックである、データサイエンティスト不足へのソリューション・前処理・モデル選択・特徴量抽出・パラメータチューニングを全自動で実施 -> AIによるAI OpenScale ・AI化の課題である、説明性・公平性に対するソリューション・機械学習のスキルは不要・業務知識のみで利用可能

Slide 53

Slide 53 text

Slide 54

Slide 54 text

©2019 IBM Corporation 54 参考リンクタイトルリンク【AutoAI】 AutoAIでお手軽機械学習(その1) 準備編 https://qiita.com/makaishi2/items/d63f0bbac32a975c391e AutoAIでお手軽機械学習(その2) モデル構築編 https://qiita.com/makaishi2/items/d6cd449f7a9f7186a833 AutoAIでお手軽機械学習(その3) Webサービス編 https://qiita.com/makaishi2/items/e5ad4d068bd364fdc056 【OpenScale】 Openscaleでscikit-learn モデルの説明性を確認する【セットアップ編】 https://qiita.com/makaishi2/items/cd54e91c635cd32437ad Openscaleでscikit-learn モデルの説明性を確認する【動作確認編】 https://qiita.com/makaishi2/items/a3f9330fe17b5eaf8d26 【AIF360/AIX360】 AI Frieness 360 Toppage http://aif360.mybluemix.net/ AI Explainability 360 Top Page http://aix360.mybluemix.net/ 【Decision Optimizer】 Watsonで数独を解く! Decision Optimizerを使ってみた https://qiita.com/makaishi2/items/d1cc9a3f49f640a3b649 Watsonで巡回セールスマン問題を解く https://qiita.com/makaishi2/items/78570f9283c0bc6c7e6c ※ Decision Optimizerは今回時間の関係上ご紹介できなかった、Watson Studioの新機能(最適化を行うソフトCPLEXのクラウド版)です。機会があれば別途ご紹介したいと思います。